Étendre le temps de calcul au moment de la génération avec des modèles ouverts

Article technique d'ingénieurs de chez HuggingFace évaluant les différentes stratégies pour utiliser du "test-time compute" (permettre au modèle de réfléchir au moment de la génération de sa réponse) avec des modèles ouverts (ici en pratique des Llama 3.2 de 1B et 3B). Trois stratégies différentes sont évaluées :

Compute-optimal scaling
Diverse verifier tree search
Search and learn

Ils combinent ensuite ces méthodes pour utiliser, dans chaque cas, celle qui est théoriquement meilleure en fonction d'un "budget" computationnel (nombre de tokens qu'on est prêt à mettre pour générer une réponse). Avec tout cela, sur un benchmark de problèmes de maths (MATH-500), un modèle Llama 3.2 3B parvient à un meilleur résultat qu'un Llama 3.1 70B, avec 256 réponses générées par problèmes.

Ce domaine apparaît très prometteur, mais plusieurs difficultés subsistent dans le domaine des modèles ouverts. L'une des principales est la rareté des modèles de récompenses basés sur le raisonnement (process reward model, PRM) disponibles de manière ouverte. Une autre est que ces PRM sont relativement faciles à créer dans des domaines dans lesquels la vérification objective d'une solution est facile (maths, code...), mais cela laisse ouverte la question de ce à quoi pourrait ressembler un PRM dans des domaines moins formalisés (sciences sociales, désinformation...).