Logo LeBonLLM
Carnet de code et de réflexions autour de l’IA générative à la française
codecorpuscontributionsconversationscurationlexiquefaqrecherche
Communauté

Pour échanger, demandez l’accès au :

Infolettre

Nous avons le projet d’une infolettre, seriez-vous intéressé ?

Misc
XLinkedInBlueskyMentions légales
Contact

EuroBERT, un modèle d'embeddings multilingue de dernière génération

10/03/2025

Joël Gombin

Tags : AI, IA, embeddings

Une équipe largement française (de CentraleSupElec, en partenariat avec l'université de Lisbonne et d'autres entreprises et universités) publie un modèle d'embeddings (un encodeur) qui présente les caractéristiques suivantes :

  • entraîné sur 5 trillions de tokens en 15 langues (anglais, français, allemand, espagnol, chinois, italien, russe, polonais, portugais, japonais, vietnamien, hollandais, arabe, turc, et hindi). C'est en soi appréciable, même si on peut s'interroger sur le prefixe "euro" au vu des langues retenues !
  • propose une fenêtre de contexte s'élevant à 8192 tokens, ce qui permet de traiter des documents entiers.
  • présente d'excellents résultats sur les benchmarks
  • trois tailles du modèle : 210M, 610M et 2.1B

Les auteurs ont publié un papier technique assez détaillé sur la manière dont le modèle a été entraîné. Le code est annoncé mais pas encore publié.

On attend maintenant les finetunes de ce modèle pour des tâches spécifiques. Il y a assez peu de modèles d'encodeur multilingues, donc c'est appréciable d'avoir ce modèle moderne à disposition !