Pages

Parrotron: Nueva investigación para mejorar la comunicación verbal de las personas con deficiencias del habla con ayuda de IA


La mayoría de las personas dan por sentado que cuando hablan, serán escuchadas y comprendidas. Pero para los millones de personas que viven con deficiencias del habla causadas por afecciones físicas o neurológicas, tratar de comunicarse con los demás puede ser difícil y llevar a la frustración. Aunque ha habido un gran número de avances recientes en las tecnologías de reconocimiento automático de voz (ASR; también conocidas como tecnologías de voz a texto), estas interfaces pueden ser inaccesibles para las personas con deficiencias del habla. Además, las aplicaciones que dependen del reconocimiento de voz como entrada para la síntesis de texto a voz (TTS) pueden mostrar errores de sustitución, eliminación e inserción de palabras. Críticamente, en el entorno tecnológico actual, el acceso limitado a las interfaces de voz, como los asistentes digitales que dependen directamente de la comprensión del habla, significa estar excluido de las herramientas y experiencias más avanzadas, ampliando la brecha entre lo que pueden acceder las personas con y sin deficiencias del habla.

El Proyecto Eufonía ha demostrado que los modelos de reconocimiento de voz pueden ser mejorados significativamente para transcribir mejor una variedad de habla atípica y disártica. Hoy presentamos Parrotron, un proyecto de investigación en curso que continúa y amplía nuestros esfuerzos para crear tecnologías del habla que ayuden a las personas y los dispositivos a comprender a las personas con dificultades o atípicas del habla. Parrotron consiste en una única red neural profunda de extremo a extremo entrenada para convertir el habla de un hablante con patrones de habla atípicos directamente en habla sintetizada fluida, sin un paso intermedio de generación de reconocimiento de voz por omisión de texto. El enfoque de Parrotron se centra en el habla, mirando el problema sólo desde el punto de vista de las señales del habla, por ejemplo, sin señales visuales como los movimientos de los labios. A través de este trabajo, demostramos que Parrotron puede ayudar a las personas con una variedad de patrones de habla atípicos -incluyendo aquellos con ELA, sordera y distrofia muscular- a ser mejor comprendidos tanto en las interacciones de persona a persona como en los motores ASR.


El modelo de conversión de voz de Parrotron

Parrotron es un modelo de secuencia-secuencia basado en la atención y entrenado en dos fases utilizando cuerpos paralelos de pares de voz de entrada/salida. Primero, construimos un modelo general de conversión de voz a voz para un habla fluida estándar, seguido de una fase de personalización que ajusta los parámetros del modelo a los patrones atípicos del habla del hablante objetivo. El principal desafío de esta configuración reside en la recopilación de los datos de formación paralela necesarios para la formación supervisada, que consiste en expresiones pronunciadas por muchos oradores y mapeadas con el mismo contenido de salida de voz pronunciado por un solo orador. Como no es práctico tener un solo altavoz que registre las muchas horas de datos de entrenamiento necesarias para construir un modelo de alta calidad, Parrotron utiliza datos paralelos que se derivan automáticamente con un sistema TTS. Esto nos permite hacer uso de un corpus de reconocimiento de voz transcrito y anonimizado preexistente para obtener objetivos de entrenamiento.

La primera fase de entrenamiento utiliza un corpus de ~30,000 horas que consiste en millones de pares de pronunciación anonimizados. Cada par incluye una pronunciación natural emparejada con una pronunciación de voz automáticamente sintetizada que resulta de ejecutar nuestro sistema TTS Parallel WaveNet de última generación en la transcripción de la primera. Este conjunto de datos incluye expresiones de miles de hablantes que abarcan cientos de dialectos/acentos y condiciones acústicas, lo que nos permite modelar una gran variedad de voces, contenidos lingüísticos y no lingüísticos, acentos y condiciones de ruido con el habla "típica", todo en el mismo idioma. El modelo de conversión resultante proyecta toda la información no lingüística, incluyendo las características del hablante, y retiene sólo lo que se dice, no quién, dónde o cómo se dice. Este modelo base se utiliza para sembrar la segunda fase de personalización de la formación.

La segunda fase de entrenamiento utiliza un corpus de pares de enunciados generados de la misma manera que el primer conjunto de datos. En este caso, sin embargo, el corpus se utiliza para adaptar la red a los patrones acústicos/fonóticos, fonotácticos y de lenguaje específicos del hablante de entrada, lo que podría incluir, por ejemplo, aprender cómo el hablante de destino altera, sustituye y reduce o elimina ciertas vocales o consonantes. Para modelar las características del habla de la ELA en general, utilizamos expresiones tomadas de un corpus del habla de la ELA derivado del Proyecto Eufonía. Si en cambio queremos personalizar el modelo para un orador en particular, entonces las expresiones son aportadas por esa persona. Cuanto más grande sea este corpus, mejor será el modelo en cuanto a la conversión correcta a un habla fluida. Utilizando este segundo corpus paralelo más pequeño y personalizado, ejecutamos el algoritmo de entrenamiento neural, actualizando los parámetros del modelo base pre-entrenado para generar el modelo personalizado final.

Encontramos que el entrenamiento del modelo con un objetivo multitarea para predecir los fonemas objetivo mientras que simultáneamente se generan espectrogramas del habla objetivo condujo a mejoras significativas en la calidad. Tal codificador entrenado para tareas múltiples puede ser considerado como un aprendizaje de una representación latente de la entrada que mantiene información sobre el contenido lingüístico subyacente.

Enlace Web - Fuente

CompuTekni

¡No olvides seguirnos en Telegram para recibir las mejores noticias del día!

No hay comentarios.:

Publicar un comentario