Retrieval Augmented Generation (RAG)

Retrieval Augmented Generation (RAG) est une méthode introduite par les chercheurs de Meta AI pour traiter des tâches intensives en connaissances à l'aide de modèles de langage. RAG intègre une composante de récupération d'informations avec un modèle générateur de texte. Il fonctionne en prenant une entrée, en récupérant un ensemble de documents pertinents depuis une source (par exemple, Wikipedia), puis en combinant ces documents avec la requête initiale pour produire une réponse. Cette approche permet d'ajouter une dynamique d'accès aux informations les plus récentes, contournant le problème des modèles de langage dont la connaissance est statique.

Pourquoi est-ce important ?

Les tâches qui nécessitent un accès à des connaissances externes, comme répondre à des questions spécifiques ou vérifier des faits, peuvent poser des problèmes pour les modèles de langage traditionnels. Ces modèles peuvent "halluciner" des réponses ou fournir des informations obsolètes. RAG offre une solution en combinant la génération de texte avec la récupération d'informations, permettant d'obtenir des réponses plus factuelles, spécifiques et fiables. Cette combinaison permet d'améliorer la cohérence factuelle des réponses et d'éviter de re-former entièrement un modèle pour intégrer de nouvelles informations.

Comment est-il utilisé en 2023 ?

En 2023, RAG est largement adopté pour renforcer les capacités des modèles de langage, en particulier dans les tâches axées sur la connaissance. Les approches basées sur la récupération, comme RAG, sont combinées avec des modèles de langage populaires comme ChatGPT pour améliorer leur exactitude et leur pertinence. RAG s'est avéré performant sur plusieurs benchmarks, comme Natural Questions, WebQuestions, et CuratedTrec, et a montré sa capacité à générer des réponses factuelles lors de tests sur MS-MARCO et des questions de Jeopardy. De plus, avec l'avènement de la documentation LangChain, il est plus facile que jamais d'intégrer RAG avec des récupérateurs et des modèles de langage pour des tâches de réponse à des questions.