Summary: | En el mundo, se están llevando a cabo proyectos de digitalización de documentos históricos con el objetivo de preservar la información contenida en ellos. Muchos
de estos proyectos utilizan el Reconocimiento Óptico de Caracteres (OCR, por sus
siglas en inglés). Sin embargo, actualmente no existen proyectos de este tipo en
Ecuador. Durante el proceso de digitalización, surgen desafíos que afectan la calidad de la información obtenida mediante OCR, debido a problemas relacionados
directamente con la imagen, como manchas, dobleces, iluminación, entre otros. Por
lo tanto, es necesario buscar soluciones para contrarrestar estos problemas y obtener una mejor calidad de información.
En este trabajo de investigación se propone analizar técnicas de procesamiento de
imágenes para mejorar los procesos de OCR con imágenes de periódicos antiguos
del Ecuador. Se lleva a cabo un proceso de comparación y análisis de los datos
obtenidos del OCR, centrándose en la cantidad de palabras correctamente reconocidas en las imágenes que fueron tratadas y no tratadas, con el objetivo de identificar
mejoras en los resultados. Las técnicas de procesamiento, para facilitar el análisis,
se dividen en tres grupos: técnicas tradicionales, técnicas de segmentación y técnicas de super resolución.
Los resultados demuestran que los procesos de super resolución, en particular la
técnica LAPSRN, presentan una mejora significativa en los resultados del OCR. Estos hallazgos tienen importantes implicaciones para el campo de la preservación y
acceso a la información histórica en Ecuador.
|