Summary: | Debido a la aparición del virus SARS-CoV-2, y a la enfermedad del COVID-19 que
provoca este virus, la comunidad científica así como los distintos actores y organizaciones,
han visto la necesidad de obtener información que pueda aportar conocimiento sobre cómo
evoluciona esta enfermedad y enfrentar los distintos problemas que la misma ha traído a la
población mundial.
El estudio propone realizar la clasificación de artículos científicos mediante la
aplicación de técnicas de Machine Learning, a través de mecanismos de representación
semántica de palabras como es Word Embeddings y tecnologías basadas en redes
neuronales, analizando los abstracts de artículos científicos disponibles en las fuentes de
información como lo es LitCovid. El desarrollo del presente estudio está basado en la
aplicación de la metodología CRISP-DM (CRoss-Industry Standard Process for Data
Mining) (Wirth, 2000), la cual describe un modelo de procesos jerárquico que consta de seis
fases que describen de manera natural el ciclo de vida de un proyecto de minería de datos,
y debido a que tanto la minería de datos como la de texto buscan obtener conocimiento sea
de grandes volúmenes de datos y de grandes volúmenes de documentos de texto
respectivamente, se adopta como base para el desarrollo del presente estudio esta
metodología.
Para lograr los objetivos propuestos se emplea la metodología adoptada y se
evalúan los resultados de desempeño de aplicar dicha metodología y modelos propuestos.
Los resultados obtenidos demuestran que al aplicar la metodología propuesta se
obtuvieron resultados aceptables para la clasificación, dando como resultado, que, al
emplear FastText como modelo de representación semántica, se consiguieron métricas de exactitud del 74%, en comparación con los modelos Word2Vec y Glove que alcanzaron el
72% y 65% respectivamente, siendo esta técnica una de las mejores opciones al momento
de emplear modelos de representación semántica del texto.
|