MoonshotAIKimi-VL Kimi-VL Mixture-of-Experts Vision-Language Model for Multimodal Reasoning, Long-Context Understanding, and Strong Agent Capabilities

12/04/2025

•

Joël Gombin

•

Tags : Kimi-VL, vision-language model, multimodal reasoning, machine learning, open-source, AI

MoonshotAI publie un petit VLM (MoE avec 2,8B de paramètres actifs et 16B de paramètres au total). Le modèle est également doté d'une variante "raisonnante". Le modèle semble présenter d'excellentes performances selon les benchmarks, et mes premiers vibe tests le confirment. Ce modèle pourrait être un excellent candidat pour des applications reposant de manière intensive sur de l'analyse d'images ou de documents à un coût modéré.

https://github.com/MoonshotAI/Kimi-VL