DeepScaleR, petit mais costaud

Deepseek R1 a obtenu beaucoup d'attention, mais bien qu'étant présenté comme "open source", sa recette précise n'est pas connue. De ce fait, de nombreux chercheurs ont essayé de répliquer de manière ouverte l'exploit réalisé par l'équipe de Deepseek, par exemple ceux d'Huggingface.

Mais DeepScaleR semble être la plus probante de ces tentatives pour le moment. L'équipe semble être composée principalement de doctorants de UC Berkeley. Leur stratégie consiste à partir d'un modèle distillé (ici le Deepseek-R1-Distilled-Qwen-1.5B) et à l'entraîner sur la base de 40000 problèmes de mathématiques. Il s'agit ici de Reinforcement Learning (RL), donc les solutions aux problèmes ne sont pas données au modèle, mais les tentatives de celui-ci de résoudre les problèmes sont notées selon qu'elles sont correctes ou non. Il est à noter que la taille de la fenêtre de contexte du modèle est augmentée au fur et à mesure de l'entraînement - il s'agit de trouver le meilleur équilibre entre coût computationnel et performance. La taille finale de contexte de 24k tokens permet de résoudre les problèmes les plus complexes. Le coût computationnel de l'entraînement s'élève à 4500$, et les performances en mathématiques sont supérieures à celles de o1-preview, l'un des modèles de raisonnement d'OpenAI.

L'intérêt principal de cette recherche est de démontrer que lorsque l'on cherche à avoir des "petits" modèles de raisonnement, il est utile de combiner distillation (mise en avant par Deepseek, qui a distillé son Deepseek R1 vers des petits modèles) et RL, en partant d'un modèle distillé et en lui appliquant du RL.