Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio

El interés de la comunidad científica en la identificación de contenidos audiovisuales ha crecido considerablemente en los últimos años, debido a la necesidad de ejecutar procesos automáticos de clasificación y monitoreo del cada vez mayor contenido transmitido por diferentes medios como televisión,...

Full description

Bibliographic Details
Main Author:	Sigcha Quezada, Erik Alejandro
Other Authors:	Espinoza Mejía, Jorge Mauricio
Format:	bachelorThesis
Language:	spa
Published:	2017
Subjects:	Python Servicios Web Habla A Texto Television Digital Analisis De Audio
Online Access:	http://dspace.ucuenca.edu.ec/handle/123456789/27383

_version_	1785802452210024448
author	Sigcha Quezada, Erik Alejandro
author2	Espinoza Mejía, Jorge Mauricio
author_facet	Espinoza Mejía, Jorge Mauricio Sigcha Quezada, Erik Alejandro
author_sort	Sigcha Quezada, Erik Alejandro
collection	DSpace
description	El interés de la comunidad científica en la identificación de contenidos audiovisuales ha crecido considerablemente en los últimos años, debido a la necesidad de ejecutar procesos automáticos de clasificación y monitoreo del cada vez mayor contenido transmitido por diferentes medios como televisión, radio e internet. En este artículo se propone una arquitectura para la extracción de información a partir de audio, con la finalidad de aplicarlo al análisis de contenidos televisivos en el contexto ecuatoriano. Para esto, se definen dos servicios, un servicio de segmentación de audio y un servicio de transcripción. El servicio de segmentación identifica y extrae los segmentos de audio que contienen narrativa, música, o narrativa sobre música. Mientras que, el servicio de transcripción hace un reconocimiento de los segmentos de tipo narrativa para obtener su contenido como texto. Estos servicios y las herramientas que los conforman han sido evaluados con el fin de medir su rendimiento y, en el caso de las herramientas usadas, definir cuál de estas es la que mejor se ajusta a la definición de la arquitectura. Los resultados de las evaluaciones realizadas sobre la arquitectura propuesta demuestran que la construcción de un sistema de reconocimiento de habla que haga uso de distintas herramientas de código abierto existentes ofrece un mayor nivel de precisión que un servicio de transcripción de disposición general.
format	bachelorThesis
id	oai:dspace.ucuenca.edu.ec:123456789-27383
institution	Universidad de Cuenca
language	spa
publishDate	2017
record_format	dspace
spelling	oai:dspace.ucuenca.edu.ec:123456789-273832020-08-03T17:06:32Z Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio Sigcha Quezada, Erik Alejandro Espinoza Mejía, Jorge Mauricio Python Servicios Web Habla A Texto Television Digital Analisis De Audio El interés de la comunidad científica en la identificación de contenidos audiovisuales ha crecido considerablemente en los últimos años, debido a la necesidad de ejecutar procesos automáticos de clasificación y monitoreo del cada vez mayor contenido transmitido por diferentes medios como televisión, radio e internet. En este artículo se propone una arquitectura para la extracción de información a partir de audio, con la finalidad de aplicarlo al análisis de contenidos televisivos en el contexto ecuatoriano. Para esto, se definen dos servicios, un servicio de segmentación de audio y un servicio de transcripción. El servicio de segmentación identifica y extrae los segmentos de audio que contienen narrativa, música, o narrativa sobre música. Mientras que, el servicio de transcripción hace un reconocimiento de los segmentos de tipo narrativa para obtener su contenido como texto. Estos servicios y las herramientas que los conforman han sido evaluados con el fin de medir su rendimiento y, en el caso de las herramientas usadas, definir cuál de estas es la que mejor se ajusta a la definición de la arquitectura. Los resultados de las evaluaciones realizadas sobre la arquitectura propuesta demuestran que la construcción de un sistema de reconocimiento de habla que haga uso de distintas herramientas de código abierto existentes ofrece un mayor nivel de precisión que un servicio de transcripción de disposición general. The interest of the scientific community in the identification of audiovisual content has grown considerably in recent years, due to the need to execute automatic classification and monitoring processes on the increasing content broadcasted by different media such as television, radio and internet. This article proposes an architecture for extracting information from audio, with the purpose of applying it to the analysis of television contents in the Ecuadorian context. For this, two services are defined, an audio segmentation service and a transcription service. The segmentation service identifies and extracts audio segments containing speech, music, or speech with musical background. Whereas, the transcription service recognizes the speech segments to obtain its content as text. These services and the tools that conform them have been evaluated in order to measure their performance and, in the case of the tools used, to define which of these is the one that best fits the definition of the architecture. The results of the evaluations carried out on the proposed architecture demonstrate that the construction of a speech recognition system, that makes use of different existing open source tools, offers a higher level of precision than a general availability transcription service. Ingeniero de Sistemas Cuenca 2017-05-12T12:39:15Z 2017-05-12T12:39:15Z 2017-05-11 bachelorThesis http://dspace.ucuenca.edu.ec/handle/123456789/27383 spa TS;244 application/pdf application/pdf
spellingShingle	Python Servicios Web Habla A Texto Television Digital Analisis De Audio Sigcha Quezada, Erik Alejandro Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio
title	Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio
title_full	Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio
title_fullStr	Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio
title_full_unstemmed	Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio
title_short	Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio
title_sort	aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio
topic	Python Servicios Web Habla A Texto Television Digital Analisis De Audio
url	http://dspace.ucuenca.edu.ec/handle/123456789/27383
work_keys_str_mv	AT sigchaquezadaerikalejandro aplicaciondetecnologiasdesegmentaciondeaudioyreconocimientoautomaticodedialectoparalaobtenciondeinformaciondedialogoscontenidosenaudio

Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio

Similar Items