Logo LeBonLLM
Carnet de code et de réflexions autour de l’IA générative à la française
codecorpuscontributionsconversationscurationlexiquefaqrecherche
Communauté

Pour échanger, demandez l’accès au :

Infolettre

Nous avons le projet d’une infolettre, seriez-vous intéressé ?

Misc
XLinkedInBlueskyMentions légales
Contact

LLM Pretraining with Continuous Concepts

26/02/2025

Joël Gombin

Tags : LLM, AI, IA

Ce texte présente une nouvelle approche de préentraînement pour les modèles de langage appelée Continuous Concept Mixing (CoCoMix). Cette méthode allie la prévision de tokens discrets avec des concepts continus, ce qui permet d'améliorer l'efficacité des échantillons et de surpasser les méthodes standard de prévision de tokens. CoCoMix favorise également l'interprétabilité et la capacité de direction du modèle, offrant ainsi une transparence dans le processus de raisonnement interne. Les résultats expérimentaux indiquent que cette approche est prometteuse pour les tâches de modélisation du langage et de raisonnement en aval.

Ce papier met en œuvre ce que Yann Le Cun dit partout depuis plusieurs mois, à savoir qu'il faut raisonner dans un espace conceptuel latent et non pas uniquement sur des tokens.