Speech2Face: Aprendiendo la cara detrás de una voz

¿Cuánto podemos inferir de la apariencia de una persona por la forma en que habla? En este trabajo se estudia la tarea de reconstruir una imagen facial de una persona a partir de una breve grabación de audio de la persona que habla. Diseñamos y entrenamos una red neuronal profunda para realizar esta tarea utilizando millones de videos naturales de personas que hablan desde Internet/Youtube. Durante la formación, nuestro modelo aprende correlaciones audiovisuales, voz-cara que le permiten producir imágenes que capturan diversos atributos físicos de los hablantes como la edad, el género y el origen étnico. Esto se hace de manera auto-supervisada, utilizando la co-ocurrencia natural de rostros y voz en los videos de Internet, sin la necesidad de modelar atributos explícitamente. Nuestras reconstrucciones, obtenidas directamente del audio, revelan las correlaciones entre rostros y voces. Evaluamos y cuantificamos numéricamente cómo -y de qué manera- nuestras reconstrucciones de Speech2Face a partir de audio se asemejan a las imágenes reales de los altavoces.

Aunque se trata de una investigación puramente académica, creemos que es importante discutir explícitamente en el documento un conjunto de consideraciones éticas debido a la sensibilidad potencial de la información facial.

Privacidad. Como ya se ha mencionado, nuestro método no puede recuperar la verdadera identidad de una persona de su voz (es decir, una imagen exacta de su rostro). Esto se debe a que nuestro modelo está entrenado para capturar características visuales (relacionadas con la edad, el género, etc.) que son comunes a muchos individuos, y sólo en casos en los que existe suficiente evidencia para conectar esas características visuales con los atributos vocales y de habla en los datos (ver "correlaciones voz-cara" más adelante). Como tal, el modelo sólo producirá rostros de aspecto medio, con características visuales que se correlacionan con la voz de entrada. No producirá imágenes de individuos específicos.

Correlaciones voz-cara y sesgo del conjunto de datos. Nuestro modelo está diseñado para revelar las correlaciones estadísticas que existen entre los rasgos faciales y las voces de los oradores en los datos de entrenamiento. Los datos de formación que utilizamos son una colección de vídeos educativos de YouTube, y no representan por igual a toda la población mundial. Por lo tanto, el modelo----como es el caso con cualquier modelo de aprendizaje por máquina---está afectado por esta distribución desigual de datos.

Más específicamente, si un conjunto de altavoces puede tener rasgos vocales y visuales que son relativamente poco comunes en los datos, entonces la calidad de nuestras reconstrucciones para tales casos puede degradarse. Por ejemplo, si un idioma determinado no aparece en los datos de formación, nuestras reconstrucciones no captarán bien los atributos faciales que pueden estar correlacionados con ese idioma.

Tenga en cuenta que algunas de las características de nuestros rostros pronosticados pueden no estar físicamente conectadas al habla, por ejemplo, el color del cabello o el estilo. Sin embargo, si muchos oradores en el grupo de capacitación que hablan de manera similar (por ejemplo, en el mismo idioma) también comparten algunos rasgos visuales comunes (por ejemplo, un color de cabello o estilo común), entonces esos rasgos visuales pueden aparecer en las predicciones.

Por las razones anteriores, recomendamos que cualquier investigación adicional o uso práctico de esta tecnología se pruebe cuidadosamente para asegurar que los datos de la capacitación sean representativos de la población de usuarios prevista. De no ser así, se deberían recopilar datos más representativos.

Categorías. En nuestra sección experimental, mencionamos categorías demográficas inferidas como "Blanco" y "Asiático". Estas son categorías definidas y utilizadas por un clasificador de atributos de cara comercial (Face++), y sólo se utilizaron para la evaluación en este trabajo. Nuestro modelo no se suministra y no hace uso de esta información en ningún momento.

Enlace Web - Fuente

Pages

Wise: eficiencia financiera sin fronteras

IT-Tools: Un arsenal digital de soluciones prácticas para desarrolladores

Brave refuerza la privacidad del usuario al bloquear Microsoft Recall por defecto

Intercambio de archivos seguro y eficiente: La propuesta de Wormhole

Lumo: La IA que redefine la privacidad digital