Show simple item record

dc.contributor.advisorRivera Vidal de Sánchez, Heydi Velsy
dc.contributor.authorFigueroa Carlos, Brad Axl
dc.date.accessioned2021-11-16T19:58:08Z
dc.date.available2021-11-16T19:58:08Z
dc.date.issued2021
dc.identifier.otherTIS00116F49
dc.identifier.urihttps://hdl.handle.net/20.500.13080/6738
dc.description.abstractA través de la presente investigación se desarrolla y propone una solución, haciendo uso de tecnologías de vanguardia relacionadas al campo de la Inteligencia Artificial como Speech Recognition y Generative Adversarial Network, con el objetivo de generar una imagen sintética de un rostro de manera automática partiendo desde la descripción del rostro considerado este como un retrato hablado. El desarrollo fue dividido en dos procesos principales: conversión de audio a texto y generación del rostro. En el primero se hizo uso de la tecnología Speech Recognition y en el segundo Generative Adversarial Network (GAN). En el primero se aplicó una variación de la técnica Transfer Learning conocido como Cross-Language Transfer Learning a través del toolkit NeMo con una arquitectura QuartzNet 15x5 y se reentrenó dicho modelo con 3 datasets distintos en español, después de 21 experimentos se escogió tres de ellos para la obtención del modelo final totalmente enfocado a la tarea que se requiere. En el segundo se entrenó el modelo desde cero reutilizando y adaptando un proyecto existente, después de 19 experimentos se eligieron los cinco modelos que dieron mejores resultados. Con respecto a la naturaleza de la investigación, es no experimental de corte transversal, de tipo correlacional-causal debido a que se estudió la correlación entre las variables de estudio sin su manipulación deliberada y obteniendo los datos requeridos en un tiempo y momento determinado, con un nivel explicativo (explicación de la relación de las variables) y aplicado ya que se propone la aplicación de una solución con el fin de mejorar el fenómeno descrito. Los resultados obtenidos son alentadores para una futura investigación, ya que el mejor modelo elegido para el primer proceso principal obtuvo un indicador WER de 0.13 en el entrenamiento, 0.35 en la validación y 0.59 en el testeo, siendo estos buenos valores dentro del ámbito del Speech Recognition. Por otro lado, los resultados obtenidos con respecto a la función de pérdida o loss de los mejores modelos elegidos están en el rango de 0.08 y 1.4 para la red discriminadora y entre 0.53 y 5.2 para la red generadora, estos valores son totalmente explicables y se sustentan en el hecho de que no se ha podido invertir muchos recursos como hardware de gama alta para su entrenamiento. Por último, los resultados obtenidos por ambos procesos principales en conjunto demuestran que existen características de las transcripciones que son bien representadas en función a los modelos utilizados para la generación automática del retrato hablado.es_PE
dc.description.uriTesis
dc.formatapplication/pdfes_PE
dc.format.extent161es_PE
dc.language.isospaes_PE
dc.publisherUniversidad Nacional Hermilio Valdizánes_PE
dc.relation.ispartofseriesTIS00116F49;
dc.rightsCC0 1.0 Universal*
dc.rightsinfo:eu-repo/semantics/closedAccess
dc.rights.urihttp://creativecommons.org/publicdomain/zero/1.0/*
dc.sourceUniversidad Nacional Hermilio Valdizánes_PE
dc.sourceRepositorio Institucional - UNHEVALes_PE
dc.subjectSpeech Recognitiones_PE
dc.subjectGenerative Adversarial Networks para la generación automática del retrato habladoes_PE
dc.titleDesarrollo de una solución mediante el uso de Speech Recognition y Generative Adversarial Networks para la generación automática del retrato habladoes_PE
dc.typeinfo:eu-repo/semantics/bachelorThesises_PE
thesis.degree.levelTítulo Profesionales_PE
thesis.degree.grantorUniversidad Nacional Hermilio Valdizán. Facultad de Ingeniería Industrial y de Sistemases_PE
thesis.degree.nameIngeniero de Sistemases_PE
thesis.degree.disciplineIngeniería de Sistemases_PE
dc.subject.ocdehttps://purl.org/pe-repo/ocde/ford#2.02.04es_PE
dc.publisher.countryPEes_PE
renati.advisor.dni41048834
renati.advisor.orcidhttps://orcid.org/ 0000-0002-5206-356Xes_PE
renati.author.dni73672478
renati.discipline612049es_PE
renati.levelhttps://purl.org/pe-repo/renati/level#tituloProfesionales_PE
renati.typehttps://purl.org/pe-repo/renati/type#tesises_PE


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

  • Tesis de Pregrado [134]
    Tesis de Pregrado de la Escuela Profesional de Ingeniería de Sistemas

Show simple item record

CC0 1.0 Universal
Except where otherwise noted, this item's license is described as CC0 1.0 Universal