Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles

Actualmente, existe un auge en introducir modelos de Aprendizaje Automático a varios aspectos de la vida cotidiana. Un campo de relevancia consiste en el Procesamiento del Lenguaje Natural (NLP) que busca modelar al lenguaje humano. La dificultad de entrenar a modelos que aprendan del lenguaje, e...

Full description

Bibliographic Details
Main Author: Santos León, David Enrique
Other Authors: Auquilla Sangolquí, Andrés Vinicio
Format: bachelorThesis
Language:spa
Published: Universidad de Cuenca 2021
Subjects:
Online Access:http://dspace.ucuenca.edu.ec/handle/123456789/37303
Description
Summary:Actualmente, existe un auge en introducir modelos de Aprendizaje Automático a varios aspectos de la vida cotidiana. Un campo de relevancia consiste en el Procesamiento del Lenguaje Natural (NLP) que busca modelar al lenguaje humano. La dificultad de entrenar a modelos que aprendan del lenguaje, es alta. Un componente clave y básico para que estas inteligencias aprendan de forma adecuada consiste en los datos, que para el caso de NLP, se encuentran mayoritariamente en inglés. El presente proyecto de investigación surge de la problemática de encontrar insumos de gran escala, en idiomas diferentes al inglés, para alimentar a modelos de Aprendizaje Profundo que produzcan textos de forma automática. Se han generado cuatro resultados principales: 1) Una metodología para construir corpus de gran escala, con facilidad de escalar a diferentes dominios e idiomas, 2) Un corpus en español, dentro del dominio de comentarios de productos textiles, con más de 170 mil documentos que obtuvo buenos resultados de evaluaciones humanas y automáticas, 3) Un sistema computacional que automatizó la construcción del corpus desde el principio al fin, desde la recolección de los documentos hasta su evaluación, y 4) resultados de línea base de un modelo generacional que sirven como punto de referencia para futuras investigaciones dentro de la generación automática de textos dentro del dominio textil