Desarrollo de una solución mediante el uso de Speech Recognition y Generative Adversarial Networks para la generación automática del retrato hablado

Figueroa Carlos, Brad Axl

dc.contributor.advisor	Rivera Vidal de Sánchez, Heydi Velsy
dc.contributor.author	Figueroa Carlos, Brad Axl
dc.date.accessioned	2021-11-16T19:58:08Z
dc.date.available	2021-11-16T19:58:08Z
dc.date.issued	2021
dc.identifier.other	TIS00116F49
dc.identifier.uri	https://hdl.handle.net/20.500.13080/6738
dc.description.abstract	A través de la presente investigación se desarrolla y propone una solución, haciendo uso de tecnologías de vanguardia relacionadas al campo de la Inteligencia Artificial como Speech Recognition y Generative Adversarial Network, con el objetivo de generar una imagen sintética de un rostro de manera automática partiendo desde la descripción del rostro considerado este como un retrato hablado. El desarrollo fue dividido en dos procesos principales: conversión de audio a texto y generación del rostro. En el primero se hizo uso de la tecnología Speech Recognition y en el segundo Generative Adversarial Network (GAN). En el primero se aplicó una variación de la técnica Transfer Learning conocido como Cross-Language Transfer Learning a través del toolkit NeMo con una arquitectura QuartzNet 15x5 y se reentrenó dicho modelo con 3 datasets distintos en español, después de 21 experimentos se escogió tres de ellos para la obtención del modelo final totalmente enfocado a la tarea que se requiere. En el segundo se entrenó el modelo desde cero reutilizando y adaptando un proyecto existente, después de 19 experimentos se eligieron los cinco modelos que dieron mejores resultados. Con respecto a la naturaleza de la investigación, es no experimental de corte transversal, de tipo correlacional-causal debido a que se estudió la correlación entre las variables de estudio sin su manipulación deliberada y obteniendo los datos requeridos en un tiempo y momento determinado, con un nivel explicativo (explicación de la relación de las variables) y aplicado ya que se propone la aplicación de una solución con el fin de mejorar el fenómeno descrito. Los resultados obtenidos son alentadores para una futura investigación, ya que el mejor modelo elegido para el primer proceso principal obtuvo un indicador WER de 0.13 en el entrenamiento, 0.35 en la validación y 0.59 en el testeo, siendo estos buenos valores dentro del ámbito del Speech Recognition. Por otro lado, los resultados obtenidos con respecto a la función de pérdida o loss de los mejores modelos elegidos están en el rango de 0.08 y 1.4 para la red discriminadora y entre 0.53 y 5.2 para la red generadora, estos valores son totalmente explicables y se sustentan en el hecho de que no se ha podido invertir muchos recursos como hardware de gama alta para su entrenamiento. Por último, los resultados obtenidos por ambos procesos principales en conjunto demuestran que existen características de las transcripciones que son bien representadas en función a los modelos utilizados para la generación automática del retrato hablado.	es_PE
dc.description.uri	Tesis
dc.format	application/pdf	es_PE
dc.format.extent	161	es_PE
dc.language.iso	spa	es_PE
dc.publisher	Universidad Nacional Hermilio Valdizán	es_PE
dc.relation.ispartofseries	TIS00116F49;
dc.rights	CC0 1.0 Universal	*
dc.rights	info:eu-repo/semantics/closedAccess
dc.rights.uri	http://creativecommons.org/publicdomain/zero/1.0/	*
dc.source	Universidad Nacional Hermilio Valdizán	es_PE
dc.source	Repositorio Institucional - UNHEVAL	es_PE
dc.subject	Speech Recognition	es_PE
dc.subject	Generative Adversarial Networks para la generación automática del retrato hablado	es_PE
dc.title	Desarrollo de una solución mediante el uso de Speech Recognition y Generative Adversarial Networks para la generación automática del retrato hablado	es_PE
dc.type	info:eu-repo/semantics/bachelorThesis	es_PE
thesis.degree.level	Título Profesional	es_PE
thesis.degree.grantor	Universidad Nacional Hermilio Valdizán. Facultad de Ingeniería Industrial y de Sistemas	es_PE
thesis.degree.name	Ingeniero de Sistemas	es_PE
thesis.degree.discipline	Ingeniería de Sistemas	es_PE
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#2.02.04	es_PE
dc.publisher.country	PE	es_PE
renati.advisor.dni	41048834
renati.advisor.orcid	https://orcid.org/ 0000-0002-5206-356X	es_PE
renati.author.dni	73672478
renati.discipline	612049	es_PE
renati.level	https://purl.org/pe-repo/renati/level#tituloProfesional	es_PE
renati.type	https://purl.org/pe-repo/renati/type#tesis	es_PE

Files in this item

Name:: license_rdf
Size:: 1.063Kb
Format:: application/rdf+xml

View/Open

Name:: TIS00116F49.pdf
Size:: 68.76Kb
Format:: application/pdf
Description:: Tesis Resumen

View/Open

This item appears in the following Collection(s)

Tesis de Pregrado [134]
Tesis de Pregrado de la Escuela Profesional de Ingeniería de Sistemas

Show simple item record

Except where otherwise noted, this item's license is described as CC0 1.0 Universal