LLM Pretraining with Continuous Concepts

Ce texte présente une nouvelle approche de préentraînement pour les modèles de langage appelée Continuous Concept Mixing (CoCoMix). Cette méthode allie la prévision de tokens discrets avec des concepts continus, ce qui permet d'améliorer l'efficacité des échantillons et de surpasser les méthodes standard de prévision de tokens. CoCoMix favorise également l'interprétabilité et la capacité de direction du modèle, offrant ainsi une transparence dans le processus de raisonnement interne. Les résultats expérimentaux indiquent que cette approche est prometteuse pour les tâches de modélisation du langage et de raisonnement en aval.

Ce papier met en œuvre ce que Yann Le Cun dit partout depuis plusieurs mois, à savoir qu'il faut raisonner dans un espace conceptuel latent et non pas uniquement sur des tokens.