Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio
El interés de la comunidad científica en la identificación de contenidos audiovisuales ha crecido considerablemente en los últimos años, debido a la necesidad de ejecutar procesos automáticos de clasificación y monitoreo del cada vez mayor contenido transmitido por diferentes medios como televisión,...
Main Author: | |
---|---|
Other Authors: | |
Format: | bachelorThesis |
Language: | spa |
Published: |
2017
|
Subjects: | |
Online Access: | http://dspace.ucuenca.edu.ec/handle/123456789/27383 |
_version_ | 1785802452210024448 |
---|---|
author | Sigcha Quezada, Erik Alejandro |
author2 | Espinoza Mejía, Jorge Mauricio |
author_facet | Espinoza Mejía, Jorge Mauricio Sigcha Quezada, Erik Alejandro |
author_sort | Sigcha Quezada, Erik Alejandro |
collection | DSpace |
description | El interés de la comunidad científica en la identificación de contenidos audiovisuales ha crecido considerablemente en los últimos años, debido a la necesidad de ejecutar procesos automáticos de clasificación y monitoreo del cada vez mayor contenido transmitido por diferentes medios como televisión, radio e internet. En este artículo se propone una arquitectura para la extracción de información a partir de audio, con la finalidad de aplicarlo al análisis de contenidos televisivos en el contexto ecuatoriano. Para esto, se definen dos servicios, un servicio de segmentación de audio y un servicio de transcripción. El servicio de segmentación identifica y extrae los segmentos de audio que contienen narrativa, música, o narrativa sobre música. Mientras que, el servicio de transcripción hace un reconocimiento de los segmentos de tipo narrativa para obtener su contenido como texto. Estos servicios y las herramientas que los conforman han sido evaluados con el fin de medir su rendimiento y, en el caso de las herramientas usadas, definir cuál de estas es la que mejor se ajusta a la definición de la arquitectura. Los resultados de las evaluaciones realizadas sobre la arquitectura propuesta demuestran que la construcción de un sistema de reconocimiento de habla que haga uso de distintas herramientas de código abierto existentes ofrece un mayor nivel de precisión que un servicio de transcripción de disposición general. |
format | bachelorThesis |
id | oai:dspace.ucuenca.edu.ec:123456789-27383 |
institution | Universidad de Cuenca |
language | spa |
publishDate | 2017 |
record_format | dspace |
spelling | oai:dspace.ucuenca.edu.ec:123456789-273832020-08-03T17:06:32Z Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio Sigcha Quezada, Erik Alejandro Espinoza Mejía, Jorge Mauricio Python Servicios Web Habla A Texto Television Digital Analisis De Audio El interés de la comunidad científica en la identificación de contenidos audiovisuales ha crecido considerablemente en los últimos años, debido a la necesidad de ejecutar procesos automáticos de clasificación y monitoreo del cada vez mayor contenido transmitido por diferentes medios como televisión, radio e internet. En este artículo se propone una arquitectura para la extracción de información a partir de audio, con la finalidad de aplicarlo al análisis de contenidos televisivos en el contexto ecuatoriano. Para esto, se definen dos servicios, un servicio de segmentación de audio y un servicio de transcripción. El servicio de segmentación identifica y extrae los segmentos de audio que contienen narrativa, música, o narrativa sobre música. Mientras que, el servicio de transcripción hace un reconocimiento de los segmentos de tipo narrativa para obtener su contenido como texto. Estos servicios y las herramientas que los conforman han sido evaluados con el fin de medir su rendimiento y, en el caso de las herramientas usadas, definir cuál de estas es la que mejor se ajusta a la definición de la arquitectura. Los resultados de las evaluaciones realizadas sobre la arquitectura propuesta demuestran que la construcción de un sistema de reconocimiento de habla que haga uso de distintas herramientas de código abierto existentes ofrece un mayor nivel de precisión que un servicio de transcripción de disposición general. The interest of the scientific community in the identification of audiovisual content has grown considerably in recent years, due to the need to execute automatic classification and monitoring processes on the increasing content broadcasted by different media such as television, radio and internet. This article proposes an architecture for extracting information from audio, with the purpose of applying it to the analysis of television contents in the Ecuadorian context. For this, two services are defined, an audio segmentation service and a transcription service. The segmentation service identifies and extracts audio segments containing speech, music, or speech with musical background. Whereas, the transcription service recognizes the speech segments to obtain its content as text. These services and the tools that conform them have been evaluated in order to measure their performance and, in the case of the tools used, to define which of these is the one that best fits the definition of the architecture. The results of the evaluations carried out on the proposed architecture demonstrate that the construction of a speech recognition system, that makes use of different existing open source tools, offers a higher level of precision than a general availability transcription service. Ingeniero de Sistemas Cuenca 2017-05-12T12:39:15Z 2017-05-12T12:39:15Z 2017-05-11 bachelorThesis http://dspace.ucuenca.edu.ec/handle/123456789/27383 spa TS;244 application/pdf application/pdf |
spellingShingle | Python Servicios Web Habla A Texto Television Digital Analisis De Audio Sigcha Quezada, Erik Alejandro Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio |
title | Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio |
title_full | Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio |
title_fullStr | Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio |
title_full_unstemmed | Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio |
title_short | Aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio |
title_sort | aplicación de tecnologías de segmentación de audio y reconocimiento automático de dialecto para la obtención de información de diálogos contenidos en audio |
topic | Python Servicios Web Habla A Texto Television Digital Analisis De Audio |
url | http://dspace.ucuenca.edu.ec/handle/123456789/27383 |
work_keys_str_mv | AT sigchaquezadaerikalejandro aplicaciondetecnologiasdesegmentaciondeaudioyreconocimientoautomaticodedialectoparalaobtenciondeinformaciondedialogoscontenidosenaudio |