Que cherchez-vous ?

Publicité
07 juillet 2022
Temps de lecture : 3 minutes

Quand l’intelligence artificielle crée des images de toutes pièces

Le mandat était ici de réaliser une loutre de mer dans le même style que La jeune fille à la perle, du peintre Johannes Vermeer. DALL-E a signé son œuvre : les blocs colorés en bas à droite. Image: DALL-E/OPENAI

Une entreprise californienne vient de mettre au point une technologie d’intelligence artificielle capable de créer des images de qualité à partir d’une simple description écrite.

«Papa, j’aimerais que tu me fasses imprimer un dessin de Pikachu qui chevauche un requin-marteau dans une mer de nuages s’il te plaît.» Si vous êtes parent d’un jeune enfant, vous savez qu’une telle demande n’est pas si farfelue. Bonne nouvelle : l’intelligence artificielle pourrait bien faire du souhait (fort précis) de votre petite Simone une réalité.

Vous pourrez remercier DALL-E, une création de chercheurs de l’entreprise californienne OpenAI. Ce système, qui porte les noms fusionnés du peintre Dali et du mignon robot de Pixar WALL-E, sait créer des images à partir de simples phrases qui lui sont soumises par un humain.

La dernière version mise au point, DALL-E 2, dévoilée en avril dernier, peut produire des images photoréalistes en haute définition, des illustrations ou encore des figurations dans le style d’artistes particuliers. Cette intelligence artificielle est même en mesure d’ajouter des éléments dans une image préexistante de manière réaliste.

« Les résultats sont impressionnants, commente Mirco Ravanelli, membre chercheur de Mila (l’institut de recherche sur l’intelligence artificielle fondé par Yoshua Bengio, de l’Université de Montréal), qui n’a pas participé au projet. Aujourd’hui, nous découvrons que ces choses sont possibles juste en entraînant de gros réseaux neuronaux avec beaucoup de données. Et ce n’était pas clair pour la communauté [de l’intelligence artificielle] qu’il était possible d’atteindre ces niveaux dans un si court laps de temps. Ça, c’est un peu une surprise. »

DALL-E est ce qu’on appellerait un « convertisseur » (ou transformer en anglais). Ce genre d’intelligence artificielle transforme une forme de donnée en une autre. Dans ce cas, il convertit du texte en images.

Lorsqu’on lui soumet une description, DALL-E utilise CLIP − un autre projet d’OpenAI capable d’associer des images à des légendes − pour la disséquer et en extraire les caractéristiques principales. Le système ne se contente cependant pas de joindre des mots à des attributs visuels ; il établit lesquels sont les plus pertinents par rapport à la façon dont un humain décrirait cette image, explique Mark Chen, chercheur chez OpenAI. Autrement dit, DALL-E comprend comment les relations entre les mots dans une phrase ont une influence sur l’image entière qu’il doit rendre.

« Ensuite, nous entraînons un modèle pour obtenir des images en deux étapes, poursuit-il. Tout d’abord, nous prenons la phrase et nous reproduisons en images les caractéristiques décrites dans le texte. Ensuite, nous faisons un rendu de ces caractéristiques pour créer une image photoréaliste. »

Pour y arriver, les scientifiques utilisent un processus nommé « diffusion ». L’intelligence artificielle y construit une image à partir de pixels se trouvant dans un ordre aléatoire et les modifie peu à peu. Grâce à son entraînement, elle est en mesure de repérer dans ce chaos de points colorés des éléments qui émergent et correspondent aux caractéristiques détectées dans la phrase. En se basant sur ceux-ci, elle peaufine les détails de cette nouvelle image jusqu’à ce que celle-ci coïncide avec la description.

Le système n’est pas encore parfait et il n’est pas rare que DALL-E fasse des erreurs. Dans les exemples présentés par OpenAI, on constate que DALL-E produit de nombreuses variations d’images pour une phrase. Si elles ne sont pas toutes convaincantes, certaines semblent tout à fait réelles, ce qui laisse présager un bel avenir à cette technologie.

Le fait que DALL-E crée plusieurs images pour une même description permet aussi à l’équipe d’OpenAI d’évaluer si l’intelligence artificielle comprend la phrase ou si elle ne fait que répéter ce qui lui est enseigné. « Nous pouvons les utiliser pour voir à quels attributs d’une image le modèle accorde plus d’attention et ce qu’il oublie, fait observer Mark Chen. De plus, nous pouvons le tester avec des phrases complexes qui ne figurent pas dans son entraînement. Par exemple, en demandant un “ours en peluche mélangeant des produits chimiques comme un savant fou”, nous voyons si le modèle est capable de construire une scène cohérente en recourant à des concepts qu’il a déjà vus − comme “ours en peluche” et “savant” −, mais qui ne sont pratiquement jamais liés dans les données utilisées pour son entraînement. »

S’il est possible d’écrire aux chercheurs sur Instagram pour leur proposer des phrases à faire dessiner par DALL-E, l’outil n’est toujours pas accessible au grand public. C’est qu’OpenAI est bien consciente des dérives qui guettent ce genre de technologies une fois entre les mains de M. et Mme Tout-le-monde. Outre l’occasion de produire des images violentes, blessantes ou pornographiques, le potentiel de l’utiliser pour créer de fausses nouvelles est réel. Le fait que DALL-E soit en mesure de réaliser des illustrations dans le style de différents artistes pose aussi la question du droit d’auteur.

La petite Simone risque donc de devoir attendre encore quelques années pour obtenir ses dessins. Mais qui sait ce que ses futurs enfants pourront lui demander ?

Publicité