Microsoft annonce un modèle pour générer un avatar animé en fonction du son

Date de récolte : [[2024-04-18-jeudi]]

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Mon avis :

Une équipe de Microsoft a entraîné un Transformer qui, à partir d'un son (une qui parle par exemple) et d'une photo d'une personne (ou une image, la Joconde par exemple) génère une vidéo animée de la personne correspondant au son. Le résultat est assez convaincant tant du point de vue du mouvement des lèvres que plus largement de l'expression faciale et des mouvements corporels, même si on peut discerner quelques artefacts (au niveau des dents par exemple). Les auteurs annoncent que le modèle est capable de générer avec une latence et un nombre d'images par seconde suffisants pour des applications temps réel. Mais comme ils ne sont pas certains que ce modèle ne puisse pas être utilisé à mauvais escient, rien ne sera mis à disposition pour le moment (ni les poids, ni une demo, ni une API... ). On voit mal ce qui à l'avenir pourrait mieux garantir qu'aucun usage malveillant ne pourrait être fait d'un tel modèle...