Microsoft presentó VASA-1, una inteligencia artificial capaz de crear avatares hiperrealistas a partir de una simple imagen y un archivo de voz. Este innovador sistema puede dotar de vida a las fotografías al añadir expresiones faciales y sincronizar los movimientos de los labios con el audio.
Sobre la tecnología de VASA-1
Los investigadores detrás de VASA-1 han logrado capturar una amplia gama de expresiones humanas, esto incluye movimientos naturales de la cabeza para generar avatares con un nivel de realismo verdaderamente impresionante. El avance se ha logrado mediante la separación de elementos como los rasgos faciales y las expresiones, logrando así un control detallado y la edición independiente de cada atributo.
A diferencia de otros modelos de inteligencia artificial, VASA-1 va más allá de simplemente sincronizar los movimientos de los labios con el audio. Este sistema de inteligencia ha logrado crear expresiones realistas con movimientos en un espacio definido, lo que resulta en imágenes más auténticas y menos rígidas.
Proceso de entrenamiento y funcionamiento
Para desarrollar esta tecnología, Microsoft entrenó su modelo utilizando una amplia colección de videos de personas hablando. Se utilizó un enfoque 3D para capturar detalles faciales y movimientos. El modelo puede generar avatares con una precisión excepcional y puede adaptar sus expresiones según la emoción deseada, produciendo avatares felices, enojados o nerviosos con una calidad excepcional.
Aplicaciones y consideraciones éticas
VASA-1 no se limita únicamente a fotografías reales, sino que también puede aplicarse a ilustraciones o pinturas, desde retratos hechos a mano hasta pinturas famosas como la Mona Lisa. Sin embargo, es importante considerar el potencial de desinformación que estos avatares hiperrealistas podrían generar.
Microsoft ha declarado su compromiso de desarrollar esta tecnología de manera responsable y está trabajando en la detección de falsificaciones para prevenir su uso indebido.