Era lo que faltaba, la mítica Mona Lisa, cantando. Gracias a “VASA-1”, el nuevo desarrollo de Microsoft, los personajes pueden hablar con una sincronización casi perfecta en los labios. Además, pueden replicar gestos humanos.
Este avance fue entrenado utilizando una extensa librería de vídeos de personas hablando, para darle a esta IA la capacidad de capturar y reproducir movimientos faciales y gestos sutiles como el parpadeo y la dirección de la mirada.
La base técnica detrás de VASA-1 involucra el uso combinado de herramientas de IA avanzada, específicamente StyleGAN2 y DALL·E-3. A diferencia de seres humanos reales, los rostros generados por esta tecnología no corresponden a ninguna identidad existente, lo que Microsoft subraya como una medida ética importante.
¿Qué necesita el programa para trabajar? Sólo una imagen y un clip de audio con voz. Además, este sistema permite una animación facial detallada que refleja un amplio rango de emociones y movimientos de cabeza, lo cual se traduce en una representación más dinámica y creíble de personalidades virtuales.
La demostración de la protagonista de la obra de Leonardo Da Vinci interpretando rap además de mostrar la capacidad de la IA, demuestra su aplicabilidad en otros campos gráficos como las caricaturas e ilustraciones.
Además, Microsoft Corp. y Alphabet Inc., la empresa matriz de Google, han demostrado con sus recientes resultados financieros trimestrales que las inversiones en inteligencia artificial (IA) y computación en la nube están generando rendimientos significativos.