Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles

Actualmente, existe un auge en introducir modelos de Aprendizaje Automático a varios aspectos de la vida cotidiana. Un campo de relevancia consiste en el Procesamiento del Lenguaje Natural (NLP) que busca modelar al lenguaje humano. La dificultad de entrenar a modelos que aprendan del lenguaje, e...

Full description

Bibliographic Details
Main Author:	Santos León, David Enrique
Other Authors:	Auquilla Sangolquí, Andrés Vinicio
Format:	bachelorThesis
Language:	spa
Published:	Universidad de Cuenca 2021
Subjects:	Ingeniería en Sistemas Sistema informático Datos estadísticos Productos textiles Redes informaticas
Online Access:	http://dspace.ucuenca.edu.ec/handle/123456789/37303

_version_	1785802479188836352
author	Santos León, David Enrique
author2	Auquilla Sangolquí, Andrés Vinicio
author_facet	Auquilla Sangolquí, Andrés Vinicio Santos León, David Enrique
author_sort	Santos León, David Enrique
collection	DSpace
description	Actualmente, existe un auge en introducir modelos de Aprendizaje Automático a varios aspectos de la vida cotidiana. Un campo de relevancia consiste en el Procesamiento del Lenguaje Natural (NLP) que busca modelar al lenguaje humano. La dificultad de entrenar a modelos que aprendan del lenguaje, es alta. Un componente clave y básico para que estas inteligencias aprendan de forma adecuada consiste en los datos, que para el caso de NLP, se encuentran mayoritariamente en inglés. El presente proyecto de investigación surge de la problemática de encontrar insumos de gran escala, en idiomas diferentes al inglés, para alimentar a modelos de Aprendizaje Profundo que produzcan textos de forma automática. Se han generado cuatro resultados principales: 1) Una metodología para construir corpus de gran escala, con facilidad de escalar a diferentes dominios e idiomas, 2) Un corpus en español, dentro del dominio de comentarios de productos textiles, con más de 170 mil documentos que obtuvo buenos resultados de evaluaciones humanas y automáticas, 3) Un sistema computacional que automatizó la construcción del corpus desde el principio al fin, desde la recolección de los documentos hasta su evaluación, y 4) resultados de línea base de un modelo generacional que sirven como punto de referencia para futuras investigaciones dentro de la generación automática de textos dentro del dominio textil
format	bachelorThesis
id	oai:dspace.ucuenca.edu.ec:123456789-37303
institution	Universidad de Cuenca
language	spa
publishDate	2021
publisher	Universidad de Cuenca
record_format	dspace
spelling	oai:dspace.ucuenca.edu.ec:123456789-373032021-11-15T08:01:01Z Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles Santos León, David Enrique Auquilla Sangolquí, Andrés Vinicio Ingeniería en Sistemas Sistema informático Datos estadísticos Productos textiles Redes informaticas Actualmente, existe un auge en introducir modelos de Aprendizaje Automático a varios aspectos de la vida cotidiana. Un campo de relevancia consiste en el Procesamiento del Lenguaje Natural (NLP) que busca modelar al lenguaje humano. La dificultad de entrenar a modelos que aprendan del lenguaje, es alta. Un componente clave y básico para que estas inteligencias aprendan de forma adecuada consiste en los datos, que para el caso de NLP, se encuentran mayoritariamente en inglés. El presente proyecto de investigación surge de la problemática de encontrar insumos de gran escala, en idiomas diferentes al inglés, para alimentar a modelos de Aprendizaje Profundo que produzcan textos de forma automática. Se han generado cuatro resultados principales: 1) Una metodología para construir corpus de gran escala, con facilidad de escalar a diferentes dominios e idiomas, 2) Un corpus en español, dentro del dominio de comentarios de productos textiles, con más de 170 mil documentos que obtuvo buenos resultados de evaluaciones humanas y automáticas, 3) Un sistema computacional que automatizó la construcción del corpus desde el principio al fin, desde la recolección de los documentos hasta su evaluación, y 4) resultados de línea base de un modelo generacional que sirven como punto de referencia para futuras investigaciones dentro de la generación automática de textos dentro del dominio textil Currently, there is a boom in introducing Machine Learning models to various aspects of everyday life. A relevant field consists of Natural Language Processing (NLP) that seeks to model human language. The difficulty of training models to learn a language is high. A key and basic component for these intelligences to learn properly consists of the data, which in the case of NLP, is mostly in English. This research project arises from the problem of finding large-scale inputs, in languages other than English, to feed Deep Learning models that produce texts automatically. Four main results have been generated: 1) A methodology to build a large-scale corpus, easily scalable to different domains and languages, 2) A corpus in Spanish, within the domain of comments on textile products, with more than 170 thousand documents that obtained good results from human and automatic evaluations, 3) A computational system that automated the construction of the corpus from beginning to end, from the collection of documents to their evaluation, and 4) baseline results of a generational model that serve as a point of reference for future research within the automatic generation of texts within the textile domain Ingeniero de Sistemas Cuenca 2021-11-08T16:28:59Z 2021-11-08T16:28:59Z 2021-11-08 bachelorThesis http://dspace.ucuenca.edu.ec/handle/123456789/37303 spa TS;285 openAccess application/pdf 72 páginas application/pdf Universidad de Cuenca
spellingShingle	Ingeniería en Sistemas Sistema informático Datos estadísticos Productos textiles Redes informaticas Santos León, David Enrique Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles
title	Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles
title_full	Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles
title_fullStr	Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles
title_full_unstemmed	Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles
title_short	Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles
title_sort	construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles
topic	Ingeniería en Sistemas Sistema informático Datos estadísticos Productos textiles Redes informaticas
url	http://dspace.ucuenca.edu.ec/handle/123456789/37303
work_keys_str_mv	AT santosleondavidenrique construcciondeuncorpusdegranescalaenelidiomaespanolcuyosdocumentosreflejenopinionesrespectoaproductostextiles

Construcción de un corpus de gran escala en el idioma español cuyos documentos reflejen opiniones respecto a productos textiles

Similar Items