Modelo para la red neuronal
Realización de un extracto del documento para fines académicos.
https://doi.org/10.13136/2284-2667/1102
por Manuel Ayuso García
En este documento se describe el empleo de los sistemas Transkribus y OCR4all para el reconocimiento de textos impresos antiguos, en transcripción diplomática.
Los corpus de trabajo son de las ediciones estudiadas en el proyecto BECLaR, usan dos tipografías gótica y redonda con algunas palabras dispersas en varios impresos en tipografía griega. Resalta también la variedad de la disposición de la página así como el uso de dígrafos abreviaturas y ligaduras que son muy variadas entre las distintas ediciones.
En el paso de preparación de la transcripción después de seleccionar el corpus debe procederse a cargar las imágenes de los textos en el sistema, a estas imágenes en algunos casos deberá de aplicarse corrección de imágenes.
Posteriormente se analiza la distribución de la página y se procede a su segmentación en zonas y líneas de texto para con posterioridad realizar un reconocimiento del texto para lo que se usan los modelos ofrecidos por los sistemas, la exportación de estos resultados provisionales se realizará en formato TXT.
En el paso de la realización de la transcripción la selección que se haga de los páginas para este proceso debe contener una representación suficiente de todos los caracteres del Corpus, el autor ha escrito un script en Python que devuelve una estadística de presencia de caracteres en el conjunto de entrenamiento.
Posteriormente debe de seleccionarse la clase de transcripción bien diplomática o bien normalizada.
Los diferentes modelos serán valorados con un CER para poder predecir cuál arrojará los mejores resultados. Con la selección de estos se se procederá al reconocimiento exportando los resultados en XML y TXT Transkribus ofrece además la posibilidad de exportación PDF o TEI.
En Análisis Y Gestión De Los Datos
https://medulare.com/2023/08/01/analisis-y-gestion-de-los-datos/