Illustration: Shutterstock
Les grands modèles de langage, comme ChatGPT, apprennent en gobant tout ce qui leur tombe sous la dent et en le transformant pour répondre à nos questions. Nos données personnelles sont-elles en danger ?
Il est possible d’extirper de ChatGPT les données qui ont été utilisées pour l’entraîner. C’est la conclusion d’un article paru à la fin 2023, dans lequel une équipe de recherche détaille les « techniques simples » grâce auxquelles elle a pu extraire des données comme des noms ou des numéros de téléphone d’individus et de compagnies ayant servi à entraîner le modèle.
Les grands modèles de langage comme ChatGPT sont en effet « nourris » à l’aide de données récoltées sur Internet, comme le contenu de forums ou des bases de données publiques. Mais une fois ces informations « digérées », l’agent conversationnel reçoit l’instruction de générer son propre contenu, dans le but notamment de protéger les données originales.
Le fait qu’il soit relativement facile de remonter aux données sources rend les compagnies vulnérables aux poursuites judiciaires, car cela permet de prouver qu’elles ont utilisé des contenus protégés par le droit d’auteur, comme des logos, des textes journalistiques ou des photos d’agences de presse pour entraîner leurs algorithmes.
Le phénomène inquiète aussi les spécialistes en intelligence artificielle (IA). « Si on sait qu’un algorithme a été entraîné avec les données d’une entreprise et qu’on sait aussi à quoi ressemblent leurs courriels, on pourrait être capable de demander à l’outil “voici l’en-tête, donne-moi la suite” et d’avoir accès à des informations confidentielles », suppose Gaétan Marceau Caron, directeur de l’équipe de recherche appliquée à l’institut de recherche Mila, à Montréal. On peut de la même manière imaginer avoir accès à des données médicales ou financières d’un modèle qui aurait été entraîné avec ce type d’information, ce qui représenterait une grave atteinte à la vie privée.
Données masquées
Comment éviter ce problème ? La question occupe les statisticiens et statisticiennes depuis bien avant l’apparition de ChatGPT. La méthode courante consiste à anonymiser les jeux de données, comme les informations recueillies lors de recensements, en retirant les informations trop révélatrices avant de les rendre disponibles publiquement. Cette approche a cependant ses limites, comme le démontrait déjà en 2007 une équipe de l’Université Cornell qui, à partir d’une base de données de 500 000 avis anonymisés laissés sur la plateforme Netflix, avait « réussi à identifier les profils Netflix de certains utilisateurs, révélant leurs préférences politiques apparentes et d’autres informations potentiellement sensibles ».
Entrent alors en scène les données synthétiques. Théorisées en 1993 par le statisticien de l’Université Harvard Donald Rubin, elles consistent en des jeux de données inspirés de données réelles. Ces données artificielles seront créées de toutes pièces selon un critère crucial : « elles doivent avoir les mêmes propriétés statistiques », résume la professeure à la Faculté des sciences et de génie de l’Université Laval Anne-Sophie Charest. À partir d’une base de données, par exemple une liste de noms et d’âges, on en crée donc une nouvelle, qui conserve les mêmes caractéristiques sans contenir les informations originales. C’est-à-dire que les données fictives doivent, lorsqu’on les analyse, fournir les mêmes résultats que les données réelles.
Ces données synthétiques pourront par la suite nourrir un algorithme d’intelligence artificielle, qui obtiendra d’aussi bonnes performances que s’il avait été entraîné avec les données réelles, sans présenter le risque que ces dernières soient révélées au public qui utilisera l’outil. « Les compagnies privées, comme les banques, ont beaucoup de données qu’elles veulent parfois diffuser à l’externe sans risquer de transmettre des informations sensibles », explique la chercheuse. Grâce aux données synthétiques, les entreprises pourraient bénéficier des avancées de l’IA pour leurs activités sans craindre une fuite de données.
Pour générer ces corpus factices, on peut même tirer profit des outils d’intelligence artificielle, passés maîtres dans l’art de comprendre les liens entre les données. « On n’a pas besoin de préciser les liens qu’on veut garder, on n’a qu’à lui dire “je veux des données qui ressemblent à ça” », souligne celle qui fait aussi partie de l’Institut intelligence et données.
Cette approche comporte cependant des désavantages, prévient Sébastien Gambs, professeur au Département d’informatique de l’Université du Québec à Montréal. « Le modèle peut faire du surapprentissage et mémoriser par cœur les profils dont il s’inspire. » Par exemple, si on tente de créer de fausses données médicales à partir d’une centaine de dossiers réels, mais que parmi ceux-ci se trouvent 98 personnes blanches et 2 personnes noires, les fausses données risquent de reproduire avec trop de fidélité les profils des personnes minoritaires, faute de matière permettant de « remixer » l’information.
Pour le moment, les données synthétiques se montrent prometteuses. En 2016, une équipe du Massachusetts Institute of Technology dévoilait une base de données synthétique créée à partir de vraies informations médicales – comme l’âge, la tension artérielle et le rythme cardiaque – préservant les relations entre ces données. Celles-ci se sont avérées aussi efficaces que les données réelles dans 70 % des cas. Une équipe de recherche a publié en 2020 un article présentant un outil d’IA permettant de créer une version synthétique de dossiers médicaux électroniques. Les agences de recensement testent aussi ce type d’approche : un projet pilote a été lancé en 2020 du côté américain, et Statistique Canada s’est aussi déclarée intéressée.
Pour Anne-Sophie Charest, il est important de demeurer réaliste : « Il est impossible de trouver une solution qui garantira un risque zéro. » Il importera donc d’avertir les gens dont on souhaite utiliser les données et de leur préciser l’usage projeté pour qu’ils puissent se retirer s’ils le souhaitent.
Gaétan Marceau Caron invite le public à adopter des pratiques sécuritaires. « Je dis aux gens d’éviter de diffuser des données sensibles dans ChatGPT, car tout ce qu’on entre dans leur interface est ajouté à leur serveur. »