Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto

Debido a la aparición del virus SARS-CoV-2, y a la enfermedad del COVID-19 que provoca este virus, la comunidad científica así como los distintos actores y organizaciones, han visto la necesidad de obtener información que pueda aportar conocimiento sobre cómo evoluciona esta enfermedad y enfrenta...

Full description

Bibliographic Details
Main Author:	Vásquez Vanegas, Bayron Fernando
Other Authors:	Orellana Cordero, Marcos Patricio
Format:	masterThesis
Language:	spa
Published:	Universidad de Cuenca 2023
Subjects:	Ingeniería de Sistemas Inteligencia artificial Programación informática Minería de datos
Online Access:	http://dspace.ucuenca.edu.ec/handle/123456789/40630

_version_	1785802447110799360
author	Vásquez Vanegas, Bayron Fernando
author2	Orellana Cordero, Marcos Patricio
author_facet	Orellana Cordero, Marcos Patricio Vásquez Vanegas, Bayron Fernando
author_sort	Vásquez Vanegas, Bayron Fernando
collection	DSpace
description	Debido a la aparición del virus SARS-CoV-2, y a la enfermedad del COVID-19 que provoca este virus, la comunidad científica así como los distintos actores y organizaciones, han visto la necesidad de obtener información que pueda aportar conocimiento sobre cómo evoluciona esta enfermedad y enfrentar los distintos problemas que la misma ha traído a la población mundial. El estudio propone realizar la clasificación de artículos científicos mediante la aplicación de técnicas de Machine Learning, a través de mecanismos de representación semántica de palabras como es Word Embeddings y tecnologías basadas en redes neuronales, analizando los abstracts de artículos científicos disponibles en las fuentes de información como lo es LitCovid. El desarrollo del presente estudio está basado en la aplicación de la metodología CRISP-DM (CRoss-Industry Standard Process for Data Mining) (Wirth, 2000), la cual describe un modelo de procesos jerárquico que consta de seis fases que describen de manera natural el ciclo de vida de un proyecto de minería de datos, y debido a que tanto la minería de datos como la de texto buscan obtener conocimiento sea de grandes volúmenes de datos y de grandes volúmenes de documentos de texto respectivamente, se adopta como base para el desarrollo del presente estudio esta metodología. Para lograr los objetivos propuestos se emplea la metodología adoptada y se evalúan los resultados de desempeño de aplicar dicha metodología y modelos propuestos. Los resultados obtenidos demuestran que al aplicar la metodología propuesta se obtuvieron resultados aceptables para la clasificación, dando como resultado, que, al emplear FastText como modelo de representación semántica, se consiguieron métricas de exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el 72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento de emplear modelos de representación semántica del texto.
format	masterThesis
id	oai:dspace.ucuenca.edu.ec:123456789-40630
institution	Universidad de Cuenca
language	spa
publishDate	2023
publisher	Universidad de Cuenca
record_format	dspace
spelling	oai:dspace.ucuenca.edu.ec:123456789-406302023-01-09T13:06:17Z Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto Vásquez Vanegas, Bayron Fernando Orellana Cordero, Marcos Patricio Ingeniería de Sistemas Inteligencia artificial Programación informática Minería de datos Debido a la aparición del virus SARS-CoV-2, y a la enfermedad del COVID-19 que provoca este virus, la comunidad científica así como los distintos actores y organizaciones, han visto la necesidad de obtener información que pueda aportar conocimiento sobre cómo evoluciona esta enfermedad y enfrentar los distintos problemas que la misma ha traído a la población mundial. El estudio propone realizar la clasificación de artículos científicos mediante la aplicación de técnicas de Machine Learning, a través de mecanismos de representación semántica de palabras como es Word Embeddings y tecnologías basadas en redes neuronales, analizando los abstracts de artículos científicos disponibles en las fuentes de información como lo es LitCovid. El desarrollo del presente estudio está basado en la aplicación de la metodología CRISP-DM (CRoss-Industry Standard Process for Data Mining) (Wirth, 2000), la cual describe un modelo de procesos jerárquico que consta de seis fases que describen de manera natural el ciclo de vida de un proyecto de minería de datos, y debido a que tanto la minería de datos como la de texto buscan obtener conocimiento sea de grandes volúmenes de datos y de grandes volúmenes de documentos de texto respectivamente, se adopta como base para el desarrollo del presente estudio esta metodología. Para lograr los objetivos propuestos se emplea la metodología adoptada y se evalúan los resultados de desempeño de aplicar dicha metodología y modelos propuestos. Los resultados obtenidos demuestran que al aplicar la metodología propuesta se obtuvieron resultados aceptables para la clasificación, dando como resultado, que, al emplear FastText como modelo de representación semántica, se consiguieron métricas de exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el 72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento de emplear modelos de representación semántica del texto. exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el 72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento de emplear modelos de representación semántica del texto. Magíster en Gestión Estratégica de Tecnologías de la Información Cuenca 2023-01-09T13:06:16Z 2023-01-09T13:06:16Z 2023-01-06 masterThesis http://dspace.ucuenca.edu.ec/handle/123456789/40630 spa TM4;2026 Attribution-NonCommercial-NoDerivatives 4.0 Internacional http://creativecommons.org/licenses/by-nc-nd/4.0/ openAccess application/pdf 101 páginas application/pdf Universidad de Cuenca
spellingShingle	Ingeniería de Sistemas Inteligencia artificial Programación informática Minería de datos Vásquez Vanegas, Bayron Fernando Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto
title	Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto
title_full	Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto
title_fullStr	Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto
title_full_unstemmed	Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto
title_short	Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto
title_sort	clasificación de artículos académicos sobre la pandemia de la covid-19, a través de técnicas de minería de texto
topic	Ingeniería de Sistemas Inteligencia artificial Programación informática Minería de datos
url	http://dspace.ucuenca.edu.ec/handle/123456789/40630
work_keys_str_mv	AT vasquezvanegasbayronfernando clasificaciondearticulosacademicossobrelapandemiadelacovid19atravesdetecnicasdemineriadetexto

Clasificación de artículos académicos sobre la pandemia de la COVID-19, a través de técnicas de minería de texto

Similar Items