Illustration: Shutterstock
Les grands modèles de langage, comme ChatGPT, apprennent en gobant tout ce qui leur tombe sous la dent et en le transformant pour répondre à nos questions. Nos données personnelles sont-elles en danger ?
Il est possible d’extirper de ChatGPT les données qui ont été utilisées pour l’entraîner. C’est la conclusion d’un article paru à la fin 2023 , dans lequel une équipe de recherche détaille les « techniques simples » grâce auxquelles elle a pu extraire des données comme des noms ou des numéros de téléphone d’individus et de compagnies ayant servi à entraîner le modèle.
Les grands modèles de langage comme ChatGPT sont en effet « nourris » à l’aide de données récoltées sur Internet, comme le contenu de forums ou des bases de données publiques. Mais une fois ces informations « digérées », l’agent conversationnel reçoit l’instruction de générer son propre contenu, dans le but notamment de protéger les données originales.
Le fait qu’il soit relativement facile de remonter aux données sources rend les compagnies vulnérables aux poursuites judiciaires, car cela permet de prouver qu’elles ont utilisé des contenus protégés par le droit d’auteur, comme des logos, des textes journalistiques ou des photos d’agences de presse pour entraîner leurs algorithmes.
Le phénomène inquiète aussi les spécialistes en intelligence artificielle (IA).