Gretel releases largest open source Text-to-SQL dataset to accelerate AI model training

Toutes les notes de veille : [[+ Sommaire veille]] Date de récolte : [[2024-04-05-vendredi]]

Introducing world's largest synthetic open-source Text-to-SQL dataset

Mon avis :

Il est essentiel de disposer de données d'entraînement de qualités pour élaborer de nouveaux modèles, en particulier open source. Cette nouvelle s'inscrit dans la tendance observée depuis plusieurs mois à favoriser la génération de données synthétiques (créées par un modèle) comme base d'entraînement de modèles. Gretel a utilisé son outil Gretel Navigator pour générer un dataset synthétique de qualité, en recourant à l'approche "LLM as a judge" (le LLM étant comme la plupart du temps GPT4). Gretel estime que la fiabilité de GPT4 est équivalente à celle d'un annotateur humain (du point de vue de l'inter-annotator agreement).