Presentación de Cloud Text-to-Speech, con tecnología WaveNet de DeepMind

Muchos productos Google (p. ej., Asistente de Google, Búsqueda y Maps) tienen una síntesis de texto a voz integrada de alta calidad que produce el sonido de una voz natural. Los desarrolladores nos han indicado varias veces que les gustaría poder agregar una función de texto a voz en sus aplicaciones, y hoy incorporamos esta tecnología a Google Cloud Platform con Cloud Text-to-Speech.

Puedes usar Cloud Text-to-Speech de varias formas. Por ejemplo:

  • Para potenciar sistemas de respuesta por voz para centros de atención telefónica (IVR) y mejorar las conversaciones en lenguaje natural en tiempo real. 
  • Para permitir respuestas de dispositivos IoT (p. ej., TV, vehículos y robots). 
  •  Para convertir medios basados en texto (p. ej., artículos informativos y libros) al formato oral (p. ej., podcasts o audiolibros).

Cloud Text-to-Speech te permite elegir 32 voces diferentes en 12 idiomas y dialectos. Cloud Text-to-Speech pronuncia correctamente texto complejo, como nombres, fechas, horas y direcciones de inmediato con sonido de voz auténtica. Cloud Text-to-Speech te permite personalizar el tono, la velocidad de articulación y el volumen, y admite diferentes formatos de audio, como MP3 y WAV.

DeepMind entra en escena

Además, nos complace anunciar que Cloud Text-to-Speech también incluye una selección de voces de alta fidelidad compiladas usando WaveNet, un modelo generativo para audio sin formato creado por DeepMind. WaveNet sintetiza un sonido de voz más natural y, en general, produce un sonido de voz que las personas prefieren antes que otras tecnologías de texto a voz.

A fines de 2016, DeepMind presentó la primera versión de WaveNet, una red neuronal preparada con una gran cantidad de muestras de voz que puede crear formas de onda de audio sin formato desde cero. Durante la preparación, la red extrae la estructura de la voz subyacente; por ejemplo, los tonos que se suceden y la forma de onda que debe tener una onda de voz real. Cuando se le proporciona texto, el modelo preparado de WaveNet genera las formas de onda de voz correspondientes, de a una muestra por vez; de esta manera, logra mayor precisión que los enfoques alternativos.

Avanzando rápidamente hasta la actualidad, hoy usamos una versión actualizada de WaveNet que se ejecuta en infraestructura de Cloud TPU de Google. El modelo mejorado de WaveNet genera ondas sin formato 1000 veces más rápido que el modelo original y puede generar un segundo de voz en solo 50 milisegundos. De hecho, el modelo no solo es más rápido, sino también ofrece mayor fidelidad y es capaz de crear formas de onda con 24 000 muestras por segundo. También aumentamos la resolución de cada muestra de 8 bits a 16 bits, lo que produce un audio de mayor calidad y resonancia más humana.

Leave a Reply

Your email address will not be published. Required fields are marked *