'Synthetic Data for AI' Conference

J’ai eu l’occasion d’être le 10 septembre à Bruxelles pour une conférence sur les données synthétiques organisée par la Commission Européenne. Et autant dire que c’est un sujet porteur en ce moment !

Pour celles et ceux qui voient pas vraiment ce que sont les données synthétiques, imaginez que les données qu’on donne à manger à un algo, c’est plein de petits points qui correspondent chacun à des personnes. L’ensemble de tous ces points (le jeu de données ou dataset ) forme un nuage de point que l’on peut vouloir changer un peu (pour ne pas reconnaître des points particuliers, pour en ajouter des nouveaux, pour en enlever, etc). Le principe des données synthétiques, c’est de prendre ce nuage et de le secouer un tout petit peu.

Oui, vous avez bien lu et je pense que si vous avez compris ça, vous avez compris beaucoup de choses aux données synthétiques. Bon, ok, c’est vrai que c’est un peu plus compliqué, et notamment parce que toute la difficulté est dans le «un tout petit peu»: si vous secouez trop, votre nuage de point bouge dans tous les sens et ne ressemble plus du tout à ce que vous aviez ; et si vous secouez pas assez, c’est comme s’il ne s’était rien passé et ce n’est pas vraiment efficace...

Pour la petite histoire, c’est un sujet que je connais un peu de par mon passage au LATECE à Montréal (QC, CA). En effet, j’étais dans une équipe où se trouvaient plusieurs personnes travaillant sur ce sujet, dont Sébastien Gambs et surtout Hadrien Lautraite. Et autant dire que c’était une approche très "techno-centrée" et en permanence empreinte de ce lien avec les Privacy Enhancing Technologies (PETs) -- je reviendrai plus tard sur cet aspect. C’est donc avec ces images assez figées -- mais pas pour autant arrêtées! -- que j’allais à la rencontre de ce qui se disait au niveau européen.

Et autant dire que j’ai très vite découvert quelles sont les autres facettes de cette technologie sous le prisme de l’industrie! Au programme de la matinée, 3 CEOs ou CTOs de start-ups sont venus présenter leurs visions pour "the next best thing to data!" -- on notera un petit "Synthetic data might help against poverty" un peu cocasse mais toutefois suivi d’un "hype-cycle for AI is not sustainable". Et on peut les comprendre: dans un monde où les données sont de plus en plus difficiles à capturer, utiliser, et conserver dans de bonnes conditions, la promesse des données synthétiques -- des données sans attaches -- est alléchante... Pour autant, l’académique n’était pas en reste et a rappelé l’après-midi que les données synthétiques ne sont pas un Saint-Graal qui guérit tous les maux (et c’est là que j’ai retrouvé mes petits moutons)!

Divers sujets ont été développés, parmi lesquels les suivants :

"Les données synthétiques permettent d’éviter la contrainte juridique." Et oui, c’est littéralement le premier argument donné. Le RGPD européen fait peur à beaucoup d’industriels (et pas que) et casser le lien entre données et personnes serait le meilleur moyen de ne pas rentrer dans ce "jeu" régulatoire. Reste toujours la question de l’appartenance des données: même si les données sont créées, elles n’apparaissent pas ex nihilo et la propriété juridique peut potentiellement se transmettre. Encore une fois, plus à ce sujet par la suite. Néanmoins, un point très intéressant à ce sujet est que la réglementation n’est pas encore totalement fixée à ce sujet. Non seulement le RGPD n’a été mis en pratique qu’assez récemment mais l’arrivée du Réglement IA (AI Act) peut encore chambouler la donne de par sa distinction entre IA à haut risque et IA plus modérée. Note: je n’ai néanmoins pas encore été capable de trouver si le CEN/CENELEC travaille sur la question actuellement. Quant au niveau mondial, malgré ce qu’ont pu dire certains intervenants prônants des initiatives régulatoires au niveau du IEEE, l’ISO a pour projet de travailler sur la question. Malgré tout, ceux qui me connaissent savent que je suis toujours pour ce genre d’initiative, et que je pense que l’argument de la régulation en tant que frein à l’innovation ne tient pas. Un point intéressant à ce sujet est que tous les industriels parlant de ce sujet font bien attention à se présenter comme vendeurs de software pour éviter ce point de litige!
"Les données synthétiques donnent des algos plus performants." Je vais être honnête, c’est pour le moment un des meilleurs arguments sur les données synthétiques. Des fois, un dataset est incomplet, les distributions sous-jacentes n’ont pas assez d’échantillons, les conditions d’expérimentation sont trop contraignantes, les expériences elles-même sont trop chères à produire... Pour plein de raisons, le monde réel ne s’offre pas complètement au regard de n’importe qui -- et je ne vous parle même pas de sa représentation / traduction dans le monde des données! Ce point me rappelle fortement une discussion que j’avais avec des doctorants du CEA, qui me racontaient que pour la quantification d’incertitude, ils travaillaient uniquement avec des algorithmes de simulations numérique, d’énormes boîtes-noire qui essayent de calquer des phénomènes physiques: «Difficile de faire exploser une centrale nucléaire dès qu’on a besoin d’un point de plus dans le dataset...» Un argument de plus en faveur, les données synthétiques peuvent permettre de tester des modèles avant déploiement pour vérifier un certain nombre de métriques (et si c’est des métriques de fairness, c’est encore mieux!). En bref, la
data augmentation, c’est cool.
"Les données synthétiques redistribuent les cartes entre grandes organisations et PMEs". Un argument que l’on entend assez peu, étonnamment, et avec lequel je suis en fin de compte plutôt d’accord! Les grands groupes ou les "legacy corporations" ont accès à une quantité de données historiques et de précision d’un ordre de magnitude tout à fait différent de celle qu’une PME peut utiliser. Faire des données synthétiques, c’est faire des données qui peuvent être distribuées à d’autres organisations, pour d’autres buts. Et là, je raccroche mes wagons avec une idée qui me plait depuis un moment et sur laquelle il m’arrivait de parler avec les juristes canado-québecois.es: la fiducie de donnée! (Mais le détail sera pour un autre billet car c’est un sujet qui mérite de s’y arrêter un peu en profondeur.) Néanmoins, de manière réaliste, même si j’aimerai beaucoup que le partage de données résolvent les différences entre oligopoles et PMEs, je pense qu’il y a un peu plus de chemin à faire et de sujets à déconstruire.
"Les données synthétiques (ne) sont (pas) une solution face aux fuites de vie privée." Alors ça, c’est le nerf de la guerre. C’est la colline sur laquelle tout le monde est prêt à mourir, quelque soit le camp. D’un côté, ceux qui disent que les données synthétiques sont des PET et cassent le lien entre les données et les PII -- Personal Identifiable Information -- ne sont pas vraiment dans le tort, et c’est bien tout le point de la pseudo-anonymisation -- DON’T do this --, de l’anonymisation, de la differential privacy, etc. Mais les arguments qui montrent que ça ne suffit pas sont maintenant suffisamment nombreux, je pense, pour que l’on ait compris que ça ne suffit pas! Toutefois, pour des raisons d’audit ou de testing, en milieu médical notamment, j’entend que ce soit un outil précieux.

Bon, très bien mais ça fait beaucoup de blabla, quand est-ce qu’on passe aux maths? Et bien justement, c’est un peu ce que je me suis dit tout au long de cette journée... Heureusement, quelques équations ont quand même été sorties (merci les chercheurs!) et au fil des discussions, plusieurs idées ont été proposées / me sont venues en tête. La liste suivante est un patchwork de tout cela, et il ne fait aucun doute que certaines seront détaillées dans des billets ultérieurs!

"Créer des données synthétiques, c’est encore appliquer un algorithme." Dit comme ça, ça parait évident mais c’est la première fois que j’entends réellement ce type de raisonnement. Et pour le coup, je remercie grandement Thérésa Stadler pour sa présentation incroyablement claire sur le sujet. Sujet qui mène vers le point suivant:
"Il faut éviter la mémorisation des données synthétiques." Qui dit algo dit potentielle mémorisation et donc potentielle fuite de PII. Ce chemin de pensée m’a beaucoup fait réfléchir sur les travaux que je menais avec Patrick Mesana sur la question de la valuation de données, des attaques de vie privée, etc.
"Données synthétiques et conservation de patterns inhérents au dataset." C’est une thématique qui revient souvent au détour des discussions entre stateux et je dois avouer avoir une opinion assez marquée sur le sujet. Celle-ci vient probablement de ma thèse et du moment où l’on s’était interrogé sur la possibilité de détecter des biais non voulus sur des classes inconnues. Mon avis, c’est qu’il est impossible de garantir que l’on préserve ce qu’il faut sans savoir ce que c’est. Et s’en est suivi une réflexion encore en cours de coalescence sur les processus empiriques... En effet, la version "haut niveau" est le constat suivant: de bonnes données synthétiques, c’est la génération d’un dataset qui ressemble à l’original vis-à-vis des patterns que l’on veut, et qui ne ressemble pas au dataset original vis-à-vis des patterns que l’on ne veut pas. En soi, dit comme ça, on est vraiment pas loin d’écrire le problème des données synthétiques comme : $$\mathbb{P} {\hat{D}} \in argmin~ d {pos}(\mathbb{P} {D}, \mathbb{P} {D^})- d_{neg}(\mathbb{P} {D},\mathbb{P} {D^})$$ avec $\mathbb{P} {\hat{D}}$ la distribution sous-jacente à un dataset synthétique, $\mathbb{P} {D^*}$ le processus empirique du dataset initial et $d_{pos}$ (resp. $d_{neg}$) une métrique correspondant aux bons (resp. mauvais) patterns. Je dois avouer devoir creuser la littérature pour voir si un article traite le sujet de cette manière. Reste que sans savoir ce qui détermine $d_{pos}$ et $d_{neg}$ ... D’aucuns diraient qu’«on est pas sorti d’l’auberge»...

Bref, beaucoup de choses restent à faire mais c’est toujours un plaisir de voir qu’un sujet comme celui-ci, au cœur de l’IA actuelle, est loin d’être clos et qu’il y a foison de nouveautés. Si vous avez la moindre recommandation de littérature ou de ressources sur le sujet, n’hésitez pas, vous trouverez toujours en moi une oreille attentive et passionnée!