Amazon ha sorprendido a los entusiastas de la tecnología al anunciar el modelo de voz BASE TTS (text-to-speech), el cual permite convertir textos en voz a través de sofisticadas herramientas. Este es el modelo de síntesis del habla más grande jamás creado.
Esta tecnología permite que los asistentes de voz puedan comunicarse con los usuarios de una manera lo más natural y cercana posible, enfatizando la entonación y las inflexiones.
La investigación demuestra cómo 980 millones de parámetros son utilizados para convertir texto a voz. Amazon afirma que han sido necesarias 100 mil horas de grabaciones procedentes de páginas web públicas para entrenar a este modelo TTS.
Además, parece que el modelo ha sido enriquecido con diferentes frases y ejemplos en distintos idiomas, con el fin de que el resultado final sea lo más realista posible y que permita obtener voces con matices provocados por el acento o la pronunciación.
Por el momento, el modelo no se abrirá al público generalista por temor a un uso inadecuado y quedará para uso interno y como herramienta para continuar potenciando los sistemas de síntesis del habla.