La IA de un desarrollador de juegos surcoreano convierte tu rostro en una cara de anime

Muchos fans de anime y dibujos animados utilizan imágenes de perfil de anime para representarse a sí mismos en un mundo virtual de medios sociales, juegos y foros en línea. Ahora, estos avatares pueden ser personalizados. El mes pasado, un equipo de investigadores surcoreanos propuso un método que utiliza la traducción de imágenes sin supervisión para transformar un simple yo en una cara de anime clásica al estilo japonés.

El novedoso método "U-GAT-IT" genera resultados visualmente superiores en comparación con las técnicas de vanguardia anteriores. La implementación de TensorFlow del documento ha sido publicada en un proyecto GitHub.

La creación de redes generativas adversariales (GAN) en 2014 sentó las bases para una amplia gama de aplicaciones de síntesis de imágenes, y una de las más destacadas es la traducción de imágenes. Los investigadores pueden utilizar el aprendizaje supervisado para aprender un modelo de mapeo a partir de muestras de datos emparejados, o utilizar el aprendizaje no supervisado para aprender un espacio latente compartido y suposiciones de consistencia de ciclo.

Un reto no resuelto en la traducción de imágenes es la mejora del rendimiento de los modelos GAN al traducir entre imágenes que varían significativamente en forma, por ejemplo, de gatos a perros o de selectos a dibujos animados.

Esto es abordado por la innovación en este documento: un marco de trabajo de extremo a extremo que incorpora un nuevo módulo de atención y Normalización Adaptativa de Capas e Instancias (AdaLIN). Los módulos de atención están integrados tanto en el generador como en el discriminador, e identifican regiones de imagen discriminatorias en las imágenes de origen y destino. Los investigadores capacitaron a un clasificador auxiliar sobre los pesos de importancia del mapa de características, que luego generó un conjunto de mapas de atención para guiar al modelo a enfocarse en regiones importantes, como los ojos y la boca.

El AdaLIN, que se aplica al decodificador del generador, puede ayudar al modelo a controlar de forma flexible los grados de cambio de forma y textura sin necesidad de ajustar la arquitectura del modelo o los hiperparámetros.

Los investigadores compararon el modelo U-GAT-IT con CycleGAN, UNIT, MUNIT y DRIT en cinco conjuntos de datos de imágenes no apareados - selfie2anime, horse2zebra y photo2vangogh, y cat2dog y photo2portrait. Utilizaron diferentes métricas de evaluación para evaluar el desempeño del modelo. En una evaluación, a 135 jueces humanos se les presentaron resultados traducidos de diferentes métodos y se les pidió que eligieran sus favoritos. El modelo U-GAT-IT superó significativamente a otros modelos en cuatro conjuntos de datos. Los resultados se muestran a continuación.

Los investigadores también emplearon evaluaciones cuantitativas utilizando Kernel Inception Distance (KID). Las puntuaciones más bajas de KID sugieren más similitudes visuales compartidas entre las imágenes reales y las falsas. A continuación se presentan los resultados del experimento.

Tres de los autores del periódico - Junho Kim, Minjae Kim y Hyeonwoo Kang - son de NCSoft, el gigante surcoreano de videojuegos más conocido por su papel en la serie Lineage. NCSOFT ha estado duplicando la IA desde 2011 cuando lanzó su Centro de IA y Procesamiento del Lenguaje Natural (PNL). El año pasado, la compañía introdujo un sistema de IA alimentado por un sistema de refuerzo de aprendizaje para combatir a los jugadores profesionales humanos en su juego casero Blade & Soul.

Para más información, lea el artículo U-GAT-IT: Redes de atención generativas no supervisadas con Normalización Adaptativa de Instancias de Capas para la Traducción de Imagen a Imagen en arXiv.

Enlace Web - Fuente

Pages

Wise: eficiencia financiera sin fronteras

IT-Tools: Un arsenal digital de soluciones prácticas para desarrolladores

Brave refuerza la privacidad del usuario al bloquear Microsoft Recall por defecto

Intercambio de archivos seguro y eficiente: La propuesta de Wormhole

Lumo: La IA que redefine la privacidad digital