Connect with us

Hi, what are you looking for?

Tecnología

WaveGlow: un nuevo modelo teórico para sintetizar habla

Un equipo de investigadores de NVIDIA han desarrollado recientemente una técnica llamada WaveGlow, que es una red de flujo que puede generar voz a partir de espectrogramas, los cuales son representaciones de los sonidos en el dominio del tiempo y la frecuencia. El método usado, bosquejado en un artículo pre-publicado en arXiv, usa una sola red neuronal entrenada con una sola función de costo, haciendo que el procedimiento de entrenamiento sea más sencillo y más estable.

Te decimos cómo activar el Modo Dios para Windows y qué es lo que hace

La mayoría de las redes neuronales para sintetizar voz eran muy lentas para nosotros“, comenta Ryan Prenger, uno de los investigadores del estudio. “Estaban limitados en velocidad porque su sistema lo diseñaron para generar una sola muestra a la vez”. Las excepciones fueron un trabajo de Google y Baidu, que generaron audio muy rápidamente en paralelo. Sin embargo, estos enfoques usan redes de maestros y alumnos, que son muy complejas de replicar”.

Los científicos se inspiraron entonces en Glow, una red de flujo basada en OpenAI, la cual puede generar imágenes de alta calidad en paralelo, reteniendo una estructura muy simple. Usando una convolución de 1×1 invertible, Glow permitió obtener resultados notables, produciendo así imágenes realistas. Con ello en mente, los investigadores decidieron usar la misma idea pero en la síntesis del habla.

“Piense en el ruido blanco que aparece en la radio cuando no está ésta sintonizada en ninguna estación”, explica Prenger. “Ese ruido blanco es súper fácil de generar. La idea de sintetizar el habla con WaveGlow es entrenar la red neuronal para transforma ese ruido blanco en habla. Si se usa una red neuronal antigua, el entrenamiento resulta problemático. Pero si específicamente se usa una red que puede ser ejecutada hacia atrás o hacia adelante, las matemáticas se hacen muy sencillas y los problemas del entrenamiento desaparecen”, dice.

Los investigadores corrieron clips de habla del conjunto de datos de forma hacia atrás, entrenando a WaveGlow para producir lo que se acercaba mucho al ruido blanco. Su modelo se aplica a la misma idea detrás de Glow en la arquitectura llamada WaveNet, de ahí el nombre WaveGlow.

En una implementación en PyTorch, WaveGlow produjo muestras de audio en un rango de más de los 500 KHz, en un GPU NVIDIA V100. “En el mundo del síntesis del habla, hay una necesidad de modelos que generen habla en más de un orden de magnitud más rápidos en tiempo real”, comenta Prenger. “Esperamos que WaveGlow pueda llenar esta necesidad mientras que además, sea más simple de implementar y mantener que otros modelos existentes. En el mundo del aprendizaje profundo, pensamos que este tipo de enfoques, usando una red neuronal invertible, con la función de pérdida resultante es algo que se está aún estudiando. WaveGlow da otro ejemplo de cómo este enfoque puede generar resultados de alta calidad a pesar de su relativa simplicidad”.

El código de WaveGlow está disponible en línea para que la gente experimente. Mientras tanto, los investigadores están trabajando sobre la manera de mejorar la calidad de los clips sintetizados mejorando y refinando su modelo teórico.

“Hemos hecho mucho análisis parta ver qué tan pequeña puede ser la red neuronal”, dice Prenger. “La mayoría de nuestras decisiones de la arquitectura a usar se basaron en las primeras partes del entrenamiento. Sin embargo, redes más pequeñas con tiempos más largos de entrenamiento podrían generar un sonido tan bueno como el que estamos logrando. Hay muchas direcciones interesantes para el futuro”.

La entrada WaveGlow: un nuevo modelo teórico para sintetizar habla se publicó primero en unocero.

Click to comment

Comenta

Últimas noticias

Joven en vestido rosa con tiara y banda 'MISS UNIVERSE' sonriendo y saludando

Entertainment

Marcas y organismos cierran puertas a la imagen de Miss Universo mexicana tras denuncias de corrupción; oportunidades inmediatas desaparecen 👑 🚪 #MissUniverso

Calle nocturna en Mazatlán con escena de crimen y cinta amarilla Calle nocturna en Mazatlán con escena de crimen y cinta amarilla

Mazatlán

Un motociclista fue asesinado la noche del miércoles en Hacienda de Urías, Mazatlán; cadáver quedó junto a parque infantil. 🚓⚰️ #Mazatlán #Homicidio

Adulta mayor abandonada en camino hacia Playa Bagdad, Matamoros, con hipotermia. Adulta mayor abandonada en camino hacia Playa Bagdad, Matamoros, con hipotermia.

Nacionales

Autoridades emitieron alerta tras hallar a adulta mayor en camino a Playa Bagdad, con hipotermia; buscan familiares. 👵 🥶 🚨 #Matamoros #Tamaulipas

Donald Trump hablando en un evento navideño en la Casa Blanca delante de un árbol de Navidad. Donald Trump hablando en un evento navideño en la Casa Blanca delante de un árbol de Navidad.

Actualización

Donald Trump ofrece balance desde la Casa Blanca: defiende logros en economía, migración y seguridad; no anunció acción contra Venezuela 🇺🇸📈 #Trump

Reunión del Cabildo de Mazatlán sobre pagos de aguinaldo con bandera de México y logo de Mazatlán al fondo. Reunión del Cabildo de Mazatlán sobre pagos de aguinaldo con bandera de México y logo de Mazatlán al fondo.

Economía

Ayuntamiento de Mazatlán pagó más de un millón en aguinaldo a regidores, alcaldesa; generó críticas por falta de transparencia 🏛️💸📋 #Mazatlán #aguinaldo

Camino con vehículos detenidos y luces, bloqueo en autopista Tepic-Mazatlán Camino con vehículos detenidos y luces, bloqueo en autopista Tepic-Mazatlán

El Rosario

Reportan bloqueo en autopista Tepic-Mazatlán antes de la caseta El Rosario; sur de Sinaloa, posibles enfrentamientos a 18:30. 🚨 🚧 #Sinaloa #bloqueo

Suscríbete y recibe noticias

Tendencia

Sinaloa

La Fiscalía activó el protocolo Alba en Mazatlán y busca a tres mujeres desaparecidas; pueden reportar información al 800 🔍🚨 #Mazatlán #Desaparecidas

Sinaloa

Fiscalía activa protocolo Alba tras desaparición en Mazatlán de Diana Vanessa Meza y Adriana Guadalupe Saucedo; familiares piden información 🚨 📞 #Mazatlán

Tecnología

El cometa 3I/ATLAS se acerca a la Tierra el 19 de diciembre; observatorios coordinados analizan su composición y actividad. 🔭☄️ #astronomía #cometas

Nacionales

Yolanda Andrade fue hospitalizada de emergencia en Ciudad de México por recaída del aneurisma; seguidores y colegas expresan apoyo. 🏥❤️ #YolandaAndrade #salud

Sinaloa

En Ahome, Sinaloa, un trabajador fallece tras recibir una descarga eléctrica al tocar cables en una bloquera; autoridades investigan peritaje ministerial⚡️🚑 #Ahome

Sinaloa

Reportan enfrentamiento armado la mañana de este miércoles en la cabecera municipal de Escuinapa; fuentes señalan detonaciones y autobuses varados 🚨💥🚌 #Escuinapa

Sinaloa

La maquiladora APTIV celebró posada navideña tras cinco años; cena y bebidas acabaron en pelea, intervino policía 🎄 🍺 🚓 #APTIV #posada

Business

El juez Sexto otorga suspensión definitiva a Ganador Azteca, operadora Bet365, para conservar dominios y apps; no autoriza reanudar apuestas⚖️🌐📱 #suspensión #Bet365

Desarrollado por
FIIXCOM