DeepSeek R1, un concurrent open weights à OpenAI o1

Le labo chinois DeepSeek, qui s'était déjà fait remarquer pour la sortie de ses excellents modèles Qwen2.5, DeepSeek2.5 puis DeepSeek V3 (un énorme MoE de 671B de paramètres (!) dont 37 activés) a annoncé, le 20 janvier 2025, la publication du modèle DeepSeek R1, un modèle avec des capacités de raisonnement ("reasoning capabilities"). C'est OpenAI qui a déployé en premier un modèle (intitulé o1, avec différentes versions) reposant sur l'idée que pour être meilleur en raisonnement (notamment en maths, code...), un LLM peut générer de nombreux tokens suivant une ligne de raisonnement avant d'arriver à la réponse finale. C'est un changement de paradigme important dans le monde des LLM, dont nous parlions déjà il y a quelques semaines : jusqu'à présent, le consensus était que le progrès dans les capacités des LLM reposait sur l'augmentation du nombre de paramètres et/ou de la taille des données d'entraînement (ce qu'on appelle pretraining scaling). Avec o1, le progrès passe par l'augmentation du nombre de tokens générés en réponse à chaque requête (le test-time scaling). Les résultats sont au rendez-vous (ainsi, o3, l'itération suivante de cette approche par OpenAI a obtenu des résultats totalement inattendus sur un benchmark réputé particulièrement difficile pour les LLM, ARC-AGI), et cette approche a beaucoup de conséquences à la fois sur la manière de développer des LLM (potentiellement, un très bon modèle peut être finetuné à partir d'un modèle fondationnel à un coût relativement modéré) et sur le modèle économique d'exploitation des LLM (dans le paradigme classique, le gros du coût est un coût fixe d'entrainement du modèle, le coût marginal d'inférence est relativement faible comparativement, là où avec ce nouveau paradigme, les coûts d'inférence peuvent devenir extrêmement importants : le coût de la réponse d'o3 au benchmark ARC-AGI serait de l'ordre de 1,5M$ !). DeepSeek R1 est donc la tentative, réussie, de répliquer o1. Le pari technologique opéré par le laboratoire chinois est de s'appuyer uniquement sur du Reinforcement learning (RL, l'approche qui a permis le développement d'AlphaGo par DeepMind), et non du Supervised Fine Tuning. Dit autrement : cette approche ne nécessite pas de constituer de coûteux corpus de chaînes de pensées (chains of thought ou CoT) sur lesquelles entraîner le modèle. Ici, en simplifiant, on fait générer aux modèles des réponses à la requête, et on évalue (automatiquement) la qualité de ces réponses, par exemple avec un vérificateur de preuves s'il s'agit de maths, ou en compilant le code s'il s'agit de génération de code. Cette évaluation permet alors d'améliorer le modèle, en valorisant les bonnes réponses et dévalorisant les modèles. Au passage, cela permet aussi de souligner que le RL fonctionne bien dans les cas où l'évaluation de la réponse proposée est possible, univoque et facilement automatisable. Bien des problèmes humains ne répondent pas à ces conditions... Un modèle, DeepSeek R1-zero a été entièrement entraîné sur cette approche. Cela permet d'administrer la preuve de l'efficacité de cette méthode. Au fur et à mesure de son entraînement, le modèle génère des réponses de plus en plus longues, et de plus en plus pertinentes. Il apprend spontanément des stratégies d'amélioration (par exemple porter un regard critique sur les étapes précédentes de son raisonnement). Le modèle R1 tout court utilise la même stratégie mais commence par finetuner le modèle fondationnel (qui est DeepSeek v3, un excellent LLM) sur la base d'une petite quantité de chaînes de pensée (CoT) de bonne qualité, ce que les auteurs du papier présentant R1 appellent "cold start data". Cette approche permet de rendre les résultats du modèle plus lisibles par des humains, et tout simplement meilleurs. Le modèle fait ensuite l'objet d'un SFT (supervised fine tuning) plus classique, utilisant un gros LLM comme juge de la qualité des réponses, écartant certaines réponses trop clairement mauvaises, etc. Enfin, une dernière phase de reinforcement learning, là aussi classique (utilisant des données humaines ou synthétiques de préférence entre différentes réponses) est mise en œuvre. Enfin, les auteurs montrent que de petits modèles peuvent énormément progresser en termes de raisonnement simplement grâce à une "distillation" depuis R1 (c'est-à-dire un fine-tuning sur la base de données synthétiques générées par R1). Cela ouvre d'intéressantes perspectives où la taille du modèle utilisé pour des tâches de raisonnement dépendra de la complexité des tâches à opérer. De ce point de vue, la publication en open weights de R1 (sous licence MIT) est une excellente nouvelle pour la communauté des LLM open source, car elle permet non seulement de faire évoluer le modèle R1 mais aussi d'entraîner d'autres modèles sur la base de données synthétiques générées par R1 (il faut "juste" avoir un budget d'inférence assez sympa, mais on trouve déjà plusieurs centaines de jeux de données générées par R1 sur HuggingFace)