Thibaut Vidal. Photo: Caroline Perron
Les modèles d’intelligence artificielle peuvent à l’occasion se montrer trop bavards ! En les étudiant, on peut parfois reconstituer des données confidentielles qui ont servi à leur entraînement.
On connaît tous le jeu de sudoku : il faut compléter une grille à partir de quelques chiffres de départ. En adoptant une approche semblable, une équipe de Polytechnique Montréal a pu reconstruire pratiquement 100 % des données qui avaient servi à entraîner un modèle d’intelligence artificielle (IA).
« Plusieurs croient qu’il y a une séparation entre les modèles [d’IA] et les données qui servent à les entraîner, de la même façon que la moyenne d’une classe ne révèle pas les notes individuelles des élèves. Mais notre travail démontre que c’est faux, et ça peut être très problématique si les données sont sensibles ! » explique Thibaut Vidal, professeur au Département de mathématiques et de génie industriel et titulaire de la Chaire SCALE-AI sur les chaînes d’approvisionnement pilotées par les données.
Par exemple, on voudrait éviter que des données de santé confidentielles soient dévoilées à partir d’IA utilisées en contexte médical. « Pour notre étude, on a seulement utilisé des jeux de données publiquement accessibles, donc on n’a pas mis en péril les données de qui que ce soit », précise cependant Thibaut Vidal.
L’étude en question, publiée en juillet 2024 dans les Proceedings of Machine Learning Research, s’intéressait à un modèle d’IA de type « forêt aléatoire », appelé ainsi parce qu’il est constitué de plusieurs arbres de décision. Chaque arbre est entraîné avec un échantillon différent et aléatoire de données, et chaque embranchement des arbres trie les exemples de données selon certains critères. Combinés, ces arbres permettent de faire des prédictions fiables.
L’une des forêts aléatoires de l’étude était entraînée sur des données de personnes ayant commis un crime aux États-Unis, afin de prédire le risque de récidive. L’équipe a ensuite « oublié » ces données, puis a laissé un outil mathématique « jouer au sudoku » avec la forêt. Résultat : en alignant les indices partiels tirés de chaque arbre, près de 100 % des données d’entraînement ont pu être reconstruites. Autrement dit, quiconque accède à ce modèle d’IA accède potentiellement aux données qui ont servi à le bâtir.

Julien Ferry. Photo fournie par Julien Ferry
Dans ce cas, pourquoi ne pas restreindre l’accès aux modèles d’IA entraînés avec des données confidentielles ? Ce n’est pas si simple, répond Julien Ferry, chercheur postdoctoral dans l’équipe de Thibaut Vidal, car certaines contraintes légales peuvent imposer de maintenir cet accès pour des raisons éthiques. Par exemple, l’Union européenne l’exige avec certaines IA afin de s’assurer qu’il n’y a pas de biais dans la façon dont elles prennent leurs décisions. « La protection de la vie privée, l’équité, la transparence et l’explicabilité : tous ces aspects interagissent et sont en tension entre eux et, pourtant, ils sont tous souhaitables ! » souligne Julien Ferry.
« Le but de notre travail était d’amener une prise de conscience sur la vulnérabilité des données et sur cette tension, dans l’espoir de stimuler le développement de solutions », renchérit Thibaut Vidal.
C’est d’ailleurs à cette tâche que s’attaque désormais son groupe de recherche, avec le développement de protocoles d’anonymisation qui contrecarrent la reconstruction de données… Sauf que cette sécurisation réduit la performance de prédiction des IA. Décidément, tout est question d’équilibre dans ce domaine !
Ont aussi participé à cette découverte : l’Université de Waterloo (Ontario) et l’École nationale des ponts et chaussées (France).
L’avis du jury
Le développement de l’IA se fait très vite et parfois au détriment de la sécurité de la population. Exposer les risques de non-confidentialité des données est une étape cruciale pour mettre en place des balises éthiques.