¿Cuáles son los tipos de voces que puedo implementar?
a)Grabadas: En la versión original de Voice se puede utilizar una voz humana grabada por un locutor, siendo una opción más costosa y menos escalable, ya que el contenido es customizado y deberá ser actualizado por el mismo locutor para mantener la misma voz al agregar nuevo conocimiento en el bot.
En este caso se debe Admitir el uso de SSML (Speech Synthesis Markup Language).
Próximamente será incluida la alternativa de SSML en Voice 2.0, para habilitar la funcionalidad de voces grabadas.
b) Dinámicas: Es una voz generada por un sintetizador de voces (usando Google voz, Amazon o Microsoft). Es la alternativa en Voice por defecto, siendo una opción sencilla y escalable, ya que permite actualizar el contenido fácilmente.
Dentro de las voces dinámicas existen las voces neurales que están implementadas en la versión 2.0 de la solución Voice. Las voces neurales permiten ofrecer una experiencia de interacción mucho más clara, de mayor calidad de audio y con un sonido natural, gracias al uso de múltiples Redes Neuronales profundas, o DNNs, por sus siglas en inglés.
Están entrenadas en base a cómo las personas nos expresamos oralmente y generan audios a partir de la predicción del tono, la prosodia, la estructura espectral y la onda sonora del habla. En esta opción podrás elegir una voz entre diferentes bancos de voces disponibles. En Aivo, trabajamos con Amazon Polly, IBM Watson, Google WaveNet y Microsoft Azure.