Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).

En el mundo, se están llevando a cabo proyectos de digitalización de documentos históricos con el objetivo de preservar la información contenida en ellos. Muchos de estos proyectos utilizan el Reconocimiento Óptico de Caracteres (OCR, por sus siglas en inglés). Sin embargo, actualmente no existen...

Full description

Bibliographic Details
Main Authors: Ochoa Arevalo, Kevin Ismael, Quituisaca Suconota, Lucia Carolina
Other Authors: Saquicela Galarza, Victor Hugo
Format: bachelorThesis
Language:spa
Published: Universidad de Cuenca 2023
Subjects:
Online Access:http://dspace.ucuenca.edu.ec/handle/123456789/42509
_version_ 1785802485574664192
author Ochoa Arevalo, Kevin Ismael
Quituisaca Suconota, Lucia Carolina
author2 Saquicela Galarza, Victor Hugo
author_facet Saquicela Galarza, Victor Hugo
Ochoa Arevalo, Kevin Ismael
Quituisaca Suconota, Lucia Carolina
author_sort Ochoa Arevalo, Kevin Ismael
collection DSpace
description En el mundo, se están llevando a cabo proyectos de digitalización de documentos históricos con el objetivo de preservar la información contenida en ellos. Muchos de estos proyectos utilizan el Reconocimiento Óptico de Caracteres (OCR, por sus siglas en inglés). Sin embargo, actualmente no existen proyectos de este tipo en Ecuador. Durante el proceso de digitalización, surgen desafíos que afectan la calidad de la información obtenida mediante OCR, debido a problemas relacionados directamente con la imagen, como manchas, dobleces, iluminación, entre otros. Por lo tanto, es necesario buscar soluciones para contrarrestar estos problemas y obtener una mejor calidad de información. En este trabajo de investigación se propone analizar técnicas de procesamiento de imágenes para mejorar los procesos de OCR con imágenes de periódicos antiguos del Ecuador. Se lleva a cabo un proceso de comparación y análisis de los datos obtenidos del OCR, centrándose en la cantidad de palabras correctamente reconocidas en las imágenes que fueron tratadas y no tratadas, con el objetivo de identificar mejoras en los resultados. Las técnicas de procesamiento, para facilitar el análisis, se dividen en tres grupos: técnicas tradicionales, técnicas de segmentación y técnicas de super resolución. Los resultados demuestran que los procesos de super resolución, en particular la técnica LAPSRN, presentan una mejora significativa en los resultados del OCR. Estos hallazgos tienen importantes implicaciones para el campo de la preservación y acceso a la información histórica en Ecuador.
format bachelorThesis
id oai:dspace.ucuenca.edu.ec:123456789-42509
institution Universidad de Cuenca
language spa
publishDate 2023
publisher Universidad de Cuenca
record_format dspace
spelling oai:dspace.ucuenca.edu.ec:123456789-425092023-07-31T13:29:51Z Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR). Ochoa Arevalo, Kevin Ismael Quituisaca Suconota, Lucia Carolina Saquicela Galarza, Victor Hugo Ingeniería de Sistemas Reconocimiento óptico Preservación documental Digitalización de documentos CIUC::Informática::Procesamiento En el mundo, se están llevando a cabo proyectos de digitalización de documentos históricos con el objetivo de preservar la información contenida en ellos. Muchos de estos proyectos utilizan el Reconocimiento Óptico de Caracteres (OCR, por sus siglas en inglés). Sin embargo, actualmente no existen proyectos de este tipo en Ecuador. Durante el proceso de digitalización, surgen desafíos que afectan la calidad de la información obtenida mediante OCR, debido a problemas relacionados directamente con la imagen, como manchas, dobleces, iluminación, entre otros. Por lo tanto, es necesario buscar soluciones para contrarrestar estos problemas y obtener una mejor calidad de información. En este trabajo de investigación se propone analizar técnicas de procesamiento de imágenes para mejorar los procesos de OCR con imágenes de periódicos antiguos del Ecuador. Se lleva a cabo un proceso de comparación y análisis de los datos obtenidos del OCR, centrándose en la cantidad de palabras correctamente reconocidas en las imágenes que fueron tratadas y no tratadas, con el objetivo de identificar mejoras en los resultados. Las técnicas de procesamiento, para facilitar el análisis, se dividen en tres grupos: técnicas tradicionales, técnicas de segmentación y técnicas de super resolución. Los resultados demuestran que los procesos de super resolución, en particular la técnica LAPSRN, presentan una mejora significativa en los resultados del OCR. Estos hallazgos tienen importantes implicaciones para el campo de la preservación y acceso a la información histórica en Ecuador. Around the world, projects are being carried out to digitize historical documents with the aim of preserving the information contained in them. Many of these projects use Optical Character Recognition (OCR). However, there are currently no such projects in Ecuador. During the digitization process, challenges arise that affect the quality of the information obtained through OCR, due to problems directly related to the image, such as stains, folds, lighting, among others. Therefore, it is necessary to find solutions to counteract these problems and obtain a better quality of information. In this research work we propose to analyze image processing techniques to improve OCR processes with images of old newspapers from Ecuador. A process of comparison and analysis of the data obtained from OCR is carried out, focusing on the number of words correctly recognized in the images that were treated and untreated, with the objective of identifying improvements in the results. The processing techniques, for ease of analysis, are divided into three groups: traditional techniques, segmentation techniques and super-resolution techniques. The results demonstrate that super-resolution processes, in particular the LAPSRN technique, show a significant improvement in OCR results. These findings have important implications for the field of preservation and access to historical information in Ecuador. 0000-0002-2438-9220 2023-07-27T16:01:20Z 2023-07-27T16:01:20Z 2023-07-26 bachelorThesis http://dspace.ucuenca.edu.ec/handle/123456789/42509 spa TS;309 Attribution-NonCommercial-NoDerivatives 4.0 Internacional http://creativecommons.org/licenses/by-nc-nd/4.0/ openAccess application/pdf 62 páginas application/pdf Universidad de Cuenca
spellingShingle Ingeniería de Sistemas
Reconocimiento óptico
Preservación documental
Digitalización de documentos
CIUC::Informática::Procesamiento
Ochoa Arevalo, Kevin Ismael
Quituisaca Suconota, Lucia Carolina
Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).
title Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).
title_full Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).
title_fullStr Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).
title_full_unstemmed Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).
title_short Analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del Ecuador para mejoras en el proceso de reconocimiento de textos (OCR).
title_sort analizar y aplicar técnicas de tratamiento de imágenes de periódicos antiguos del ecuador para mejoras en el proceso de reconocimiento de textos (ocr).
topic Ingeniería de Sistemas
Reconocimiento óptico
Preservación documental
Digitalización de documentos
CIUC::Informática::Procesamiento
url http://dspace.ucuenca.edu.ec/handle/123456789/42509
work_keys_str_mv AT ochoaarevalokevinismael analizaryaplicartecnicasdetratamientodeimagenesdeperiodicosantiguosdelecuadorparamejorasenelprocesodereconocimientodetextosocr
AT quituisacasuconotaluciacarolina analizaryaplicartecnicasdetratamientodeimagenesdeperiodicosantiguosdelecuadorparamejorasenelprocesodereconocimientodetextosocr