EuroBERT, un modèle d'embeddings multilingue de dernière génération

Une équipe largement française (de CentraleSupElec, en partenariat avec l'université de Lisbonne et d'autres entreprises et universités) publie un modèle d'embeddings (un encodeur) qui présente les caractéristiques suivantes :

entraîné sur 5 trillions de tokens en 15 langues (anglais, français, allemand, espagnol, chinois, italien, russe, polonais, portugais, japonais, vietnamien, hollandais, arabe, turc, et hindi). C'est en soi appréciable, même si on peut s'interroger sur le prefixe "euro" au vu des langues retenues !
propose une fenêtre de contexte s'élevant à 8192 tokens, ce qui permet de traiter des documents entiers.
présente d'excellents résultats sur les benchmarks
trois tailles du modèle : 210M, 610M et 2.1B

Les auteurs ont publié un papier technique assez détaillé sur la manière dont le modèle a été entraîné. Le code est annoncé mais pas encore publié.

On attend maintenant les finetunes de ce modèle pour des tâches spécifiques. Il y a assez peu de modèles d'encodeur multilingues, donc c'est appréciable d'avoir ce modèle moderne à disposition !