Summary: | : En el presente trabajo se muestra la aplicación de modelos de clasificación comparativos, a
través de variables específicas, para determinar la deserción universitaria respecto de los estudiantes de
la Facultad de Ciencias Químicas de la Universidad de Cuenca. En este contexto, a través de la minería de
datos se aplicaron dos modelos de clasificación: K- vecinos más próximos (knn) y regresión logística (rl) a
fin de catalogar al alumnado de primer año en dos poblaciones, a saber: deserción o permanencia. Los
datos fueron obtenidos de la ficha socioeconómica, presentada por los referidos estudiantes, desde el
año 2014 hasta el 2018, además se identificaron los grupos poblacionales correspondientes a quienes
abandonaron la carrera en el primer año y a quienes continuaron con sus estudios. Con base a esto, fue
posible interrelacionar las variables para agrupar las mismas mediante el análisis de componentes
principales (ACP). Los datos fueron separados para entrenamiento y validación de los modelos. Los
sistemas fueron modelados en RapidMiner generando una matriz de confusión, lo que permitió
determinar que el modelo knn presenta mejor exactitud de 73,30% frente a un 54,67% del modelo de
Regresión Logística. Finalmente, se concluye que las principales causas de deserción son: el total ingreso,
total egreso, mensual pago de arriendo, avalúo acumulado de vehículos, tipo de colegio. A través de la
matriz de confusión se evaluaron los modelos (knn y rl) seleccionando al modelo knn como mejor opción.
Por últimos se verificó que el modelo knn tiene un error del 20% respecto la realidad.
|