Tendencias

EMO: La IA de Alibaba que convierte una foto y audio en un video, ¿cómo funciona?

Se ha estrenado el modelo con dataset de más de 250 horas de vídeos de tertulia, extraídos de discursos, películas, programas de televisión y actuaciones de artistas de música.
Por Iveth Yamunaque Publicado: Últ. actualización: 29 febrero, 2024 17:22
3 minutos
EMO de alibaba cómo funciona

En los último años, la Inteligencia Artificial ha conquistado internet mediante herramientas y aplicaciones. Además de los chatbots existentes, actualmente se pueden encontrar herramientas muy realistas como la generación de imágenes, audio, video o de mezcla entre estos que hacen al sector tecnológico más innovador.

En este panorama, Alibaba tiene preparada una herramientas que permitirá a cualquier usuario hacer que una imagen cobre vida mediante una canción o solo con hablar. Conoce EMO, la nueva IA de Alibaba y cómo funciona en este mundo de la tecnología.

¿Qué es EMO de Alibaba?

El Grupo Alibaba presenta EMO, un innovador marco de trabajado que ayuda a dar vida a retratos estáticos con el poder del audio.

Lo único que debes hacer es proporcionarle a esta IA una imagen de referencia y un fragmento de audio, como hablar o cantar, y EMO empezará a generar videos de avatar vocal.

Cabe resaltar, que estos videos no son solo expresivos (movimientos faciales), sino que también representan diferentes posiciones de cabeza, capaces de ir al ritmo del audio suministrado.

¿Cómo funciona EMO?

Mediante la web oficial del proyecto se han mostrado diferentes ejemplos de cómo funciona EMO de Alibaba.

  1. Codificación de fotogramas: Utiliza ReferenceNet para analizar la imagen de referencia y los fotogramas de movimiento, capturando características esenciales.
  2. Proceso de difusión: Incorpora un codificador de audio preentrenado para incrustaciones de audio, mezclándolo con una máscara de región facial y ruido de múltiples fotogramas.
    La Red de Referencia, equipada con mecanismos de Atención a la Referencia y Atención al Audio, luego elimina el ruido de esta información.

Estos pasos aseguran que la identidad del personaje se mantenga intacta mientras reflejan con precisión la dinámica del audio a través de expresiones faciales y movimientos de cabeza. Para garantizar un flujo de video fluido, los Módulos Temporales ajustan la velocidad del movimiento.

Fuente: EMO

¿Qué tiene de nuevo EMO?

Los investigadores han estrenado al modelo con dataset de más de 250 horas de vídeos de tertulia, extraídos de discursos, películas, programas de televisión y actuaciones de artistas de música.

Para esto, en lugar de utilizar el 3D para estirar la fotografía y hacer como si cobrase de vida, EMO convierte directamente las ondas del audio en fotogramas de video, por eso le permite captar movimientos sutiles y peculiaridades específicas de la identidad, asociables al habla natural.

¿Cuándo estará disponible?

Una vez lanzada la herramienta IA de Alibaba, los usuarios de internet no se quedarán atrás para probarla y generar miles de videos con sus artistas favoritos.

Como es lógico, la herramienta también puede suponer un enorme riesgo en cuanto a cuestiones éticas y en un uso indebido de la misma para suplantar la identidad de otra persona o difundir contenido inadecuado.

Según Alibaba, la herramienta aún no está disponible para su uso, por lo que todos deben esperar hasta conocer la información correcta del lanzamiento de la herramienta IA.