Logo LeBonLLM
Carnet de code et de réflexions autour de l’IA générative à la française
codecorpuscontributionsconversationscurationlexiquefaqrecherche
Communauté

Pour échanger, demandez l’accès au :

Infolettre

Nous avons le projet d’une infolettre, seriez-vous intéressé ?

Misc
XLinkedInMentions légales
Contact

Gretel releases largest open source Text-to-SQL dataset to accelerate AI model training

05/04/2024

Tags : AI, IA, SQL

Toutes les notes de veille : [[+ Sommaire veille]] Date de récolte : [[2024-04-05-vendredi]]

Introducing world's largest synthetic open-source Text-to-SQL dataset

Mon avis :

Il est essentiel de disposer de données d'entraînement de qualités pour élaborer de nouveaux modèles, en particulier open source. Cette nouvelle s'inscrit dans la tendance observée depuis plusieurs mois à favoriser la génération de données synthétiques (créées par un modèle) comme base d'entraînement de modèles. Gretel a utilisé son outil Gretel Navigator pour générer un dataset synthétique de qualité, en recourant à l'approche "LLM as a judge" (le LLM étant comme la plupart du temps GPT4). Gretel estime que la fiabilité de GPT4 est équivalente à celle d'un annotateur humain (du point de vue de l'inter-annotator agreement).

URL : https://gretel.ai/blog/synthetic-text-to-sql-dataset