Un nouveau modèle d'embeddings multilingue

Le Text Machine Group du Harbin Institute of Technology, à Shenzhen (Chine), a entraîné un modèle d'embeddings multilingue en s'appuyant sur le LLM Qwen 2 0.5B (et non en partant d'un modèle BERT comme c'est le cas pour la plupart des modèles d'embeddings). D'après les benchmarks rapportés par les auteurs (le papier est là), il s'agirait de l'état de l'art (en tout cas de modèles d'environ 500 millions de paramètres) en français et dans d'autres langues (mais pas en anglais). Les auteurs mettent en avant le choix de données synthétiques de qualité comme élément expliquant cette performance. À confirmer par des essais mais c'est sans doute une bonne nouvelle pour les francophones, les très bons modèles d'embeddings n'étant souvent qu'anglophones.