Simuler un jeu vidéo avec un diffuser

Diffusion Models Are Real-Time Game Engines

Mon avis :

CleanShot 2024 09 12 at 10.36.41@2x

Une équipe de chercheurs de chez Google a entraîné un modèle de diffusion (Stable Diffusion) en conditionnant sa génération à des images précédentes et des actions. De cette manière, le modèle génère des images du jeu classique Doom à une vitesse suffisante (20 frames/seconde) pour émuler le jeu. Pour générer les données d'entraînement, les auteurs ont fait jouer à Doom un agent de Reinforcement learning et enregistré les parties, qui constituent le corpus d'entraînement. Un élément intéressant est que pour éviter le problème d'un modèle qui dérive du fait de son caractère auto-régressif, on réinjecte du bruit (Gaussian noise) dans chaque image. Le bruit améliore le signal, en quelque sorte !

À tester sur gamengen.github.io.

Référence :

Valevski, Dani, Yaniv Leviathan, Moab Arar, and Shlomi Fruchter. ‘Diffusion Models Are Real-Time Game Engines’. arXiv, 27 August 2024. https://doi.org/10.48550/arXiv.2408.14837.