Logo LeBonLLM
Carnet de code et de réflexions autour de l’IA générative à la française
codecorpuscontributionsconversationscurationlexiquefaqrecherche
Communauté

Pour échanger, demandez l’accès au :

Infolettre

Nous avons le projet d’une infolettre, seriez-vous intéressé ?

Misc
XLinkedInMentions légales
Contact

A Ship of Theseus & Paraphrasing in LLMs

17/10/2024

By Clément Bénesse (lecture légèrement en diagonale): Ce papier parle de l’interaction entre le style d’un auteur et le "paraphrasing" fait par des LLMs. L’argument clé est qu’un LLM, lorsqu’il va paraphraser un texte, va garder la thématique générale mais change significativement le style du texte (souvent pour donner une tournure "académique" que l’on reconnaît souvent), ce qui entraîne une chute drastique dans les performances d’algo de reconnaissance d’auteur. Impact immédiat sur le monde du copyright. Les auteurs de l’article proposent donc deux types d’authorship, une traditionnelle (le premier de la chaîne est l’auteur pour toute la chaîne) et une alternative (chaque maillon devient l’auteur). À mon avis, cette proposition est un peu bancale d’un point de vue du droit. Autres problèmes, plus techniques: 1) pas d’analyse du drift sémantique (le fond et pas la forme) / 2) analyse basée sur la similarité dans l’embedding / 3) pas de cross-lingual / 4) pas d’analyse de l’impact du prompt sur cette qualité de paraphrasing (e.g. fine-tuning ou prompting pour coller un style particulier).