Un projet de loi états-unien promeut la transparence des données d'entraînement des LLM

Date de récolte : [[2024-04-15-lundi]]

Un projet de loi US sur la transparence des données utilisées pour l'entraînement des LLM

Mon avis :

Lu dans la newsletter "Lawtremonde" (on aime le jeu de mot poétique), une tentative plutôt faiblarde (uniquement pour les modèles en B2C - d'abord, comment on détermine si un modèle va être utilisé en B2B ou en B2C ??? - et avec des sanctions riquiqui) et dont j'ignore les chances qu'elle se transforme en loi. Mais cette initiative pourrait contribuer à placer le sujet de la transparence sur les données d'entraînement plus haut dans l'agenda américain.

Texte complet :

![[attachments/61f690ac4fd5c17747ce4041c6680c75_MD5.png]] Intitulé 𝐺𝑒𝑛𝑒𝑟𝑎𝑡𝑖𝑣𝑒 𝐼𝐴 𝐶𝑜𝑝𝑦𝑟𝑖𝑔ℎ𝑡 𝐷𝑖𝑠𝑐𝑙𝑜𝑠𝑢𝑟𝑒 𝐴𝑐𝑡, ce texte prévoit l’obligation de notifier à l'US Office Rights toute initiative visant à utiliser les données de tiers pour entraîner une IA générative #.

Cette notification doit intervenir avant la mise sur le marché de l'IA.

Le projet de loi prévoit une application rétroactive.

![[attachments/e7cb51173251137a279726844bb5e1b3_MD5.png]] Le texte ne concernerait que le marché B2C.

![[attachments/e7cb51173251137a279726844bb5e1b3_MD5.png]] Les sanctions prévues sont ridicules: 5000$ par manquement

Bref, un projet de texte qui a, sans doute, réjouit les auteurs des contentieux initiés aux US pour violation de droit d’auteur.

![[attachments/4400caa20c3b183073f7e39e2232fb8d_MD5.png]] Si le texte venait à être adopté, ses effets seraient limités puisque le texte ne concernerait pas les outils mis sur le marché B2B.

En France, le futur Règlement européen sur l’IA act prévoit une obligation de transparence sur les données d'entraînement des IA à usage général.