Logo LeBonLLM
Carnet de code et de réflexions autour de l’IA générative à la française
codecorpuscontributionsconversationscurationlexiquefaqrecherche
Communauté

Pour échanger, demandez l’accès au :

Infolettre

Nous avons le projet d’une infolettre, seriez-vous intéressé ?

Misc
XLinkedInBlueskyMentions légales
Contact

Un nouveau modèle d'embeddings multilingue

10/01/2025

Joël Gombin

Tags : AI, IA, embeddings, NLP

Le Text Machine Group du Harbin Institute of Technology, à Shenzhen (Chine), a entraîné un modèle d'embeddings multilingue en s'appuyant sur le LLM Qwen 2 0.5B (et non en partant d'un modèle BERT comme c'est le cas pour la plupart des modèles d'embeddings). D'après les benchmarks rapportés par les auteurs (le papier est ), il s'agirait de l'état de l'art (en tout cas de modèles d'environ 500 millions de paramètres) en français et dans d'autres langues (mais pas en anglais). Les auteurs mettent en avant le choix de données synthétiques de qualité comme élément expliquant cette performance. À confirmer par des essais mais c'est sans doute une bonne nouvelle pour les francophones, les très bons modèles d'embeddings n'étant souvent qu'anglophones.