Tecnología

WaveGlow: un nuevo modelo teórico para sintetizar habla

Published

26 noviembre, 2018

Un equipo de investigadores de NVIDIA han desarrollado recientemente una técnica llamada WaveGlow, que es una red de flujo que puede generar voz a partir de espectrogramas, los cuales son representaciones de los sonidos en el dominio del tiempo y la frecuencia. El método usado, bosquejado en un artículo pre-publicado en arXiv, usa una sola red neuronal entrenada con una sola función de costo, haciendo que el procedimiento de entrenamiento sea más sencillo y más estable.

“La mayoría de las redes neuronales para sintetizar voz eran muy lentas para nosotros“, comenta Ryan Prenger, uno de los investigadores del estudio. “Estaban limitados en velocidad porque su sistema lo diseñaron para generar una sola muestra a la vez”. Las excepciones fueron un trabajo de Google y Baidu, que generaron audio muy rápidamente en paralelo. Sin embargo, estos enfoques usan redes de maestros y alumnos, que son muy complejas de replicar”.

Los científicos se inspiraron entonces en Glow, una red de flujo basada en OpenAI, la cual puede generar imágenes de alta calidad en paralelo, reteniendo una estructura muy simple. Usando una convolución de 1×1 invertible, Glow permitió obtener resultados notables, produciendo así imágenes realistas. Con ello en mente, los investigadores decidieron usar la misma idea pero en la síntesis del habla.

“Piense en el ruido blanco que aparece en la radio cuando no está ésta sintonizada en ninguna estación”, explica Prenger. “Ese ruido blanco es súper fácil de generar. La idea de sintetizar el habla con WaveGlow es entrenar la red neuronal para transforma ese ruido blanco en habla. Si se usa una red neuronal antigua, el entrenamiento resulta problemático. Pero si específicamente se usa una red que puede ser ejecutada hacia atrás o hacia adelante, las matemáticas se hacen muy sencillas y los problemas del entrenamiento desaparecen”, dice.

Los investigadores corrieron clips de habla del conjunto de datos de forma hacia atrás, entrenando a WaveGlow para producir lo que se acercaba mucho al ruido blanco. Su modelo se aplica a la misma idea detrás de Glow en la arquitectura llamada WaveNet, de ahí el nombre WaveGlow.

En una implementación en PyTorch, WaveGlow produjo muestras de audio en un rango de más de los 500 KHz, en un GPU NVIDIA V100. “En el mundo del síntesis del habla, hay una necesidad de modelos que generen habla en más de un orden de magnitud más rápidos en tiempo real”, comenta Prenger. “Esperamos que WaveGlow pueda llenar esta necesidad mientras que además, sea más simple de implementar y mantener que otros modelos existentes. En el mundo del aprendizaje profundo, pensamos que este tipo de enfoques, usando una red neuronal invertible, con la función de pérdida resultante es algo que se está aún estudiando. WaveGlow da otro ejemplo de cómo este enfoque puede generar resultados de alta calidad a pesar de su relativa simplicidad”.

El código de WaveGlow está disponible en línea para que la gente experimente. Mientras tanto, los investigadores están trabajando sobre la manera de mejorar la calidad de los clips sintetizados mejorando y refinando su modelo teórico.

“Hemos hecho mucho análisis parta ver qué tan pequeña puede ser la red neuronal”, dice Prenger. “La mayoría de nuestras decisiones de la arquitectura a usar se basaron en las primeras partes del entrenamiento. Sin embargo, redes más pequeñas con tiempos más largos de entrenamiento podrían generar un sonido tan bueno como el que estamos logrando. Hay muchas direcciones interesantes para el futuro”.

La entrada WaveGlow: un nuevo modelo teórico para sintetizar habla se publicó primero en unocero.

In this article:

Sinaloa

Bimbo apuesta por la agricultura regenerativa como alternativa a la tradicional

La agricultura regenerativa está revolucionando la producción de granos en México, duplicando los rendimientos y reduciendo las pérdidas

Paola Padilla1 hora ago

Mazatlán

Todo lo que necesitas saber sobre la Feria Ganadera de Mazatlán 2024: precios de entrada y artistas

Este jueves 16 de mayo inicia con conciertos, juegos mecánicos, funciones de circo y más

Paola Padilla2 horas ago

Política

Beatriz Paredes muestra su apoyo incondicional a Alejandro Moreno en medio de la polémica con Máynez

Beatriz Paredes revela cómo Máynez condicionó a "Alito". La senadora asegura que el presidente del PRI actúo con seriedad ante la polémica con el...

Paola Padilla2 horas ago

Nacionales

El sistema eléctrico se vio superado pero nunca estuvo en riesgo: Declaraciones de Bartlett

La Comisión Federal de Electricidad ha enfrentado críticas debido a los recientes apagones en el país,

Paola Padilla3 horas ago

Tendencia

Beatriz Gutiérrez Müller exige la eliminación del video del hijo de Xóchitl Gálvez: “Esto no es correcto”

Beatriz Gutiérrez Müller defiende la privacidad de los familiares de políticos en medio de campañas electorales

Paola Padilla3 horas ago

Tendencia

El trágico legado de Chalino Sánchez: La historia detrás de ‘Nieves de Enero’

La canción “Nieves de Enero” de Chalino Sánchez es un clásico del regional mexicano que narra una historia de amor, desilusión y esperanza

Paola Padilla3 horas ago

Tendencia

Mazatlán

Corte programado de agua en tres colonias de Mazatlán el viernes 17 de mayo

Cierre planificado de válvulas, impactará el abastecimiento de agua en tres colonias.

Allison Rojas11 horas ago

Mazatlán

El misterioso asesinato de un auriguero en Mazatlán: ¿Qué se esconde detrás de este crimen?

Tras el trágico asesinato de un chofer de transporte público, el Alcalde anunció medidas para reforzar la seguridad

Allison Rojas1 día ago

Culiacán

Luz en la oscuridad: Culiacán iluminando su lucha contra los apagones

Los apagones en Culiacán están afectando la calidad de vida de sus habitantes.

Allison Rojas1 día ago

Mazatlán

Trabajador de construcción cae de tercer piso de un edificio en Mazatlán y muere

Hombre fallece tras caer de edificio en construcción en la Avenida del Mar

Paola Padilla2 días ago

Sinaloa

Tráiler cargado con manzanas vuelca en el trébol de Costa Rica, Culiacán

Testigos reportaron el incidente a la línea de emergencia 911 alrededor de las 20:30 horas.

Allison Rojas1 día ago

Deportes

El regreso de Julio César Chávez Jr.: Peleará en Texas después de dos años y medio

La pelea está programada a seis rounds en peso crucero.

Allison Rojas10 horas ago

Guasave

Integrantes de la CNTE se manifiestan durante festejos del Día del Maestro en Guasave

Los miembros de la CNTE en Guasave realizaron una manifestación durante los festejos del Día del Maestro.

Allison Rojas1 día ago

Deportes

Detención de técnicos argentinos en Venezuela: Clamor por justicia en medio de disputa política

Los técnicos argentinos continúan detenidos mientras se espera una resolución legal.

Allison Rojas1 día ago

Sinaloahoy

Tecnología

WaveGlow: un nuevo modelo teórico para sintetizar habla

Últimas noticias

Sinaloa

Bimbo apuesta por la agricultura regenerativa como alternativa a la tradicional

Mazatlán

Todo lo que necesitas saber sobre la Feria Ganadera de Mazatlán 2024: precios de entrada y artistas

Política

Beatriz Paredes muestra su apoyo incondicional a Alejandro Moreno en medio de la polémica con Máynez

Nacionales

El sistema eléctrico se vio superado pero nunca estuvo en riesgo: Declaraciones de Bartlett

Tendencia

Beatriz Gutiérrez Müller exige la eliminación del video del hijo de Xóchitl Gálvez: “Esto no es correcto”

Tendencia

El trágico legado de Chalino Sánchez: La historia detrás de ‘Nieves de Enero’

Tendencia

Mazatlán

Corte programado de agua en tres colonias de Mazatlán el viernes 17 de mayo

Mazatlán

El misterioso asesinato de un auriguero en Mazatlán: ¿Qué se esconde detrás de este crimen?

Culiacán

Luz en la oscuridad: Culiacán iluminando su lucha contra los apagones

Mazatlán

Trabajador de construcción cae de tercer piso de un edificio en Mazatlán y muere

Sinaloa

Tráiler cargado con manzanas vuelca en el trébol de Costa Rica, Culiacán

Deportes

El regreso de Julio César Chávez Jr.: Peleará en Texas después de dos años y medio

Guasave

Integrantes de la CNTE se manifiestan durante festejos del Día del Maestro en Guasave

Deportes

Detención de técnicos argentinos en Venezuela: Clamor por justicia en medio de disputa política