Pour échanger, demandez l’accès au :
Nous avons le projet d’une infolettre, seriez-vous intéressé ?
18/04/2024
•Tags : IA, AI
Date de récolte : [[2024-04-18-jeudi]]
Une équipe de Microsoft a entraîné un Transformer qui, à partir d'un son (une qui parle par exemple) et d'une photo d'une personne (ou une image, la Joconde par exemple) génère une vidéo animée de la personne correspondant au son. Le résultat est assez convaincant tant du point de vue du mouvement des lèvres que plus largement de l'expression faciale et des mouvements corporels, même si on peut discerner quelques artefacts (au niveau des dents par exemple). Les auteurs annoncent que le modèle est capable de générer avec une latence et un nombre d'images par seconde suffisants pour des applications temps réel. Mais comme ils ne sont pas certains que ce modèle ne puisse pas être utilisé à mauvais escient, rien ne sera mis à disposition pour le moment (ni les poids, ni une demo, ni une API... ). On voit mal ce qui à l'avenir pourrait mieux garantir qu'aucun usage malveillant ne pourrait être fait d'un tel modèle...