Tecnología

WaveGlow: un nuevo modelo teórico para sintetizar habla

Published

26 noviembre, 2018

Un equipo de investigadores de NVIDIA han desarrollado recientemente una técnica llamada WaveGlow, que es una red de flujo que puede generar voz a partir de espectrogramas, los cuales son representaciones de los sonidos en el dominio del tiempo y la frecuencia. El método usado, bosquejado en un artículo pre-publicado en arXiv, usa una sola red neuronal entrenada con una sola función de costo, haciendo que el procedimiento de entrenamiento sea más sencillo y más estable.

“La mayoría de las redes neuronales para sintetizar voz eran muy lentas para nosotros“, comenta Ryan Prenger, uno de los investigadores del estudio. “Estaban limitados en velocidad porque su sistema lo diseñaron para generar una sola muestra a la vez”. Las excepciones fueron un trabajo de Google y Baidu, que generaron audio muy rápidamente en paralelo. Sin embargo, estos enfoques usan redes de maestros y alumnos, que son muy complejas de replicar”.

Los científicos se inspiraron entonces en Glow, una red de flujo basada en OpenAI, la cual puede generar imágenes de alta calidad en paralelo, reteniendo una estructura muy simple. Usando una convolución de 1×1 invertible, Glow permitió obtener resultados notables, produciendo así imágenes realistas. Con ello en mente, los investigadores decidieron usar la misma idea pero en la síntesis del habla.

“Piense en el ruido blanco que aparece en la radio cuando no está ésta sintonizada en ninguna estación”, explica Prenger. “Ese ruido blanco es súper fácil de generar. La idea de sintetizar el habla con WaveGlow es entrenar la red neuronal para transforma ese ruido blanco en habla. Si se usa una red neuronal antigua, el entrenamiento resulta problemático. Pero si específicamente se usa una red que puede ser ejecutada hacia atrás o hacia adelante, las matemáticas se hacen muy sencillas y los problemas del entrenamiento desaparecen”, dice.

Los investigadores corrieron clips de habla del conjunto de datos de forma hacia atrás, entrenando a WaveGlow para producir lo que se acercaba mucho al ruido blanco. Su modelo se aplica a la misma idea detrás de Glow en la arquitectura llamada WaveNet, de ahí el nombre WaveGlow.

En una implementación en PyTorch, WaveGlow produjo muestras de audio en un rango de más de los 500 KHz, en un GPU NVIDIA V100. “En el mundo del síntesis del habla, hay una necesidad de modelos que generen habla en más de un orden de magnitud más rápidos en tiempo real”, comenta Prenger. “Esperamos que WaveGlow pueda llenar esta necesidad mientras que además, sea más simple de implementar y mantener que otros modelos existentes. En el mundo del aprendizaje profundo, pensamos que este tipo de enfoques, usando una red neuronal invertible, con la función de pérdida resultante es algo que se está aún estudiando. WaveGlow da otro ejemplo de cómo este enfoque puede generar resultados de alta calidad a pesar de su relativa simplicidad”.

El código de WaveGlow está disponible en línea para que la gente experimente. Mientras tanto, los investigadores están trabajando sobre la manera de mejorar la calidad de los clips sintetizados mejorando y refinando su modelo teórico.

“Hemos hecho mucho análisis parta ver qué tan pequeña puede ser la red neuronal”, dice Prenger. “La mayoría de nuestras decisiones de la arquitectura a usar se basaron en las primeras partes del entrenamiento. Sin embargo, redes más pequeñas con tiempos más largos de entrenamiento podrían generar un sonido tan bueno como el que estamos logrando. Hay muchas direcciones interesantes para el futuro”.

La entrada WaveGlow: un nuevo modelo teórico para sintetizar habla se publicó primero en unocero.

In this article:

Guasave

Continuará cerrada la caseta de Cuatro Caminos en Guasave por productores

Productores sinaloenses continuarán bloqueando la caseta de Cuatro Caminos en Guasave al no llegar a un acuerdo por el precio por tonelada de maíz.

Benjamín Velasco4 horas ago

Mazatlán

Sergio Iturralde sigue avanzando, ahora dialogó con vecinos del norte de Mazatlán

Sergio Iturralde sigue avanzando para tener un mejor Mazatlán, dialogó con vecinos del norte de Mazatlán

Benjamín Velasco8 horas ago

Tendencia

El maquillista Alfonso Waithsman sale del clóset y se revela: orgulloso y en libertad

Alfonso Waithsman ha salido del clóset como gay durante el programa Montse & Joe de Unicable

Paola Padilla10 horas ago

Internacionales

Colombia toma una postura firme: rompe relaciones con Israel por situación en Gaza

Colombia rompe relaciones diplomáticas con Israel El presidente de Colombia, Gustavo Petro, anunció que su país romperá relaciones diplomáticas con Israel, en protesta por...

Paola Padilla11 horas ago

Nacionales

AMLO pide cautela ante denuncia de crematorio clandestino: “No tengo datos”

La denuncia de un crematorio clandestino en la Ciudad de México ha generado polémica. El presidente López Obrador llama a la precaución, mientras la...

Paola Padilla11 horas ago

Nacionales

Adiós al legendario cronista deportivo Paco Villa, fallece a los 54 años

El periodista deportivo Paco Villa falleció a los 54 años tras una larga lucha contra el cáncer

Paola Padilla11 horas ago

Tendencia

Nacionales

Padres de Ana Paola, la niña parapléjica y ciega, exigen justicia ante cirugía rutinaria errónea

Ana Paola, ingresó al Hospital para una operación de rutina, quedó parapléjica y ciega.

Allison Rojas2 días ago

Mazatlán

Extranjeros se unen contra la inseguridad en Mazatlán

Comunidad estadounidense en Mazatlán planea manifestación por seguridad tras ataque a un extranjero.

Allison Rojas2 días ago

Concordia

Intensifican operativo de vigilancia en Concordia, Sinaloa, por enfrentamiento armado

Operativo de vigilancia en la Guasima por supuesto enfrentamiento entre grupos delictivos en Concordia.

Allison Rojas17 horas ago

Sinaloa

Violencia en la Mazatlán-Durango: cierre de caseta en Concordia por enfrentamientos armados

Elementos tanto del Ejército, Guardia Nacional, así como de la Policía Estatal, ya se movilizan al lugar de los hechos

Paola Padilla1 día ago

Sinaloa

Usuarios deben verificar fechas de lectura en recibos de luz para evitar costos innecesarios

Los usuarios de energía eléctrica en Sinaloa están siendo aconsejados por la CFE.

Allison Rojas16 horas ago

Nacionales

AMLO firma decreto histórico para proteger el Fondo de Pensiones

El presidente Andrés Manuel López Obrador firma el decreto para la creación del Fondo de Pensiones del Bienestar en México

Paola Padilla14 horas ago

Ahome

Impacto de la sequía en la industria de Ahome: algunas plantas dejan de funcionar

En estos momentos de escasez, se están llevando a cabo trabajos de reparación y mantenimiento.

Allison Rojas2 días ago

Nacionales

El legado de un comediante: Benjamín González y su verdad sobre su salud antes de morir

Triste noticia en el mundo del humor: el comediante 'Doña Evelia' falleció tras complicaciones de salud.

Allison Rojas16 horas ago

Sinaloahoy

Tecnología

WaveGlow: un nuevo modelo teórico para sintetizar habla

Últimas noticias

Guasave

Continuará cerrada la caseta de Cuatro Caminos en Guasave por productores

Mazatlán

Sergio Iturralde sigue avanzando, ahora dialogó con vecinos del norte de Mazatlán

Tendencia

El maquillista Alfonso Waithsman sale del clóset y se revela: orgulloso y en libertad

Internacionales

Colombia toma una postura firme: rompe relaciones con Israel por situación en Gaza

Nacionales

AMLO pide cautela ante denuncia de crematorio clandestino: “No tengo datos”

Nacionales

Adiós al legendario cronista deportivo Paco Villa, fallece a los 54 años

Tendencia

Nacionales

Padres de Ana Paola, la niña parapléjica y ciega, exigen justicia ante cirugía rutinaria errónea

Mazatlán

Extranjeros se unen contra la inseguridad en Mazatlán

Concordia

Intensifican operativo de vigilancia en Concordia, Sinaloa, por enfrentamiento armado

Sinaloa

Violencia en la Mazatlán-Durango: cierre de caseta en Concordia por enfrentamientos armados

Sinaloa

Usuarios deben verificar fechas de lectura en recibos de luz para evitar costos innecesarios

Nacionales

AMLO firma decreto histórico para proteger el Fondo de Pensiones

Ahome

Impacto de la sequía en la industria de Ahome: algunas plantas dejan de funcionar

Nacionales

El legado de un comediante: Benjamín González y su verdad sobre su salud antes de morir