Enseñando a las máquinas a hablar

David Suárez Alonso
David Suárez VIGO/LA VOZ.

EDUCACIÓN

Quince años de experiencia avalan al equipo de tecnología del habla de la Universidad de Vigo, creador de la mayoría de bases de datos que existen en gallego

22 nov 2010 . Actualizado a las 11:52 h.

Unos cuantos párrafos de texto se pegan en una caja y, al darle al botón de escuchar, el ordenador comienza automáticamente a leer las palabras. Parece simple, pero ¿cómo se consigue que esto funcione? Pues con años de trabajo en el desarrollo de una tecnología del habla adecuada a este uso. En la Universidad de Vigo un grupo de docentes y estudiantes lleva trabajando quince años ininterrumpidamente en este ámbito. Es el grupo de referencia en Galicia y el que ha creado la mayoría de las bases de datos que existen en gallego.

El trabajo comienza con la selección de un corpus de texto que garantiza que el sistema tenga posteriormente todos los sonidos que necesite generar. Hay que grabarlo para lo que se necesita un donante, alguien que preste su voz durante grabaciones que pueden alcanzar las 15 horas. Eso sí, mejor si es un locutor profesional con una voz lo más neutra posible. «Después podemos manipular esa voz para darle mayor o menor expresividad», explica Carmen García Mateo, la coordinadora del grupo. Toda esa grabación se procesa para conseguir pequeños fragmentos que permiten que una máquina pueda reproducir palabras que nunca han sido grabadas. En resumen, el sistema aprovecha los recursos y localiza lo que más se parece. «A veces le sirven sonidos muy cortos, como la mitad de una a», explica Eduardo Rodríguez, otro de los profesores del grupo. Todo este trabajo finaliza con la creación de programas como los que hoy están al alcance de cualquiera en Internet. Uno de ellos es Cotovía, una demo desarrollada por el grupo vigués, y que permite trabajar con textos en castellano y gallego.

El reconocimiento de voz es otro de los campos con mucho futuro. Su propósito es conseguir el proceso inverso, lograr que una voz se convierta en un texto o una orden. Actualmente, el grupo vigués está desarrollando una herramienta que simplificará la labor de subtitulación de programas. Tacoma, que es como se llama el programa, es capaz de reconocer las palabras y crear automáticamente los subtítulos casi en tiempo real. «Está en fase de prueba pero incluye un sistema para almacenar los errores corregidos manualmente para ir mejorando su eficacia», explica el profesor Antonio Cardenal. En el sector audiovisual este sistema ahorrará mucho tiempo pero también se plantea como una solución para los que quieran colgar un vídeo en su web y necesiten subtítulos.

Combinando estos dos sistemas con un traductor se consigue uno de los grandes retos de la tecnología del habla, la traducción voz a voz. Un sistema captura lo que tu dices en castellano, lo traduce a inglés y una voz automática lo reproduce. Ya hay experiencias en este ámbito pero ahora se trabaja en la adaptación de la voz para que se parezca a la del locutor.