Les centres de données utilisent 1 % de la production mondiale d’électricité et devraient en utiliser encore plus avec la croissance de l’IA. Photo: Shutterstock
Pour réduire la consommation énergétique de l’intelligence artificielle, des solutions techniques existent. Mais d’abord, il faut utiliser les grands modèles avec parcimonie, disent des scientifiques.
L’entrée en scène de ChatGPT, en novembre 2022, a déclenché une ruée sans précédent vers l’intelligence artificielle (IA). N’importe qui peut maintenant poser une question au robot depuis le confort de son salon. Dans les centres de données de Microsoft, d’Amazon et de Google, des milliers de serveurs ultraspécialisés roulent à fond de train pour répondre à la demande engendrée par les grands modèles d’IA générative.
Cela requiert évidemment de l’énergie. L’entraînement initial de GPT-3 – le modèle sous-jacent à ChatGPT – a nécessité plus de 1200 mégawattheures d’électricité : autant que ce qu’une cinquantaine de maisons québécoises consomment en douze mois. Cela peut paraître peu, mais il faut aussi prendre en compte les milliards de requêtes lancées au robot conversationnel chaque mois. On estime que les centres de données de ChatGPT utilisent plus de 500 mégawattheures par jour. Et ChatGPT n’est qu’un modèle parmi d’autres.
Si l’IA générative continue de se répandre comme une traînée de poudre, la consommation d’énergie explosera au bout de la mèche. Que les serveurs carburent aux énergies fossiles ou renouvelables, il y a de bonnes raisons de couper court à cette hémorragie. Mais comment faire pour réduire la consommation énergétique de l’IA sans pour autant se passer de ses services ?
Tout d’abord : utiliser les grands modèles d’IA seulement quand ils sont bel et bien le meilleur outil pour accomplir la tâche désirée. Ces mastodontes logiciels sont souvent déclassés par de petits modèles spécialisés d’IA. « On essaie de vendre les grands modèles de langage comme une solution à tout. Pourtant, ce sont des outils très peu fiables, qui peuvent activement induire en erreur quand vient le temps de résoudre la majorité des problèmes », affirme David Rolnick, professeur d’informatique à l’Université McGill et chercheur à Mila – l’Institut québécois d’intelligence artificielle.
Le groupe de recherche de M. Rolnick développe justement des algorithmes légers, mais fondés sur l’apprentissage automatique, destinés à faire l’analyse d’images satellitaires. Ces programmes peuvent par exemple évaluer la productivité agricole d’un territoire ou en estimer la déforestation. « Ils sont des milliers de fois plus efficaces, pour une même puissance de calcul, que les grands modèles d’IA », souligne celui qui est aussi directeur de l’organisme Climate Change AI.
Sasha Luccioni, chercheuse au sein de Hugging Face, une plateforme qui fournit des outils pour construire des systèmes d’IA basés sur des technologies en libre accès, prêche aussi pour l’utilisation de petits modèles spécialisés. Elle voit d’un très mauvais œil le mariage entre l’IA générative et les services numériques de base, comme les courriels, la cartographie et la recherche en ligne. « Je ne vois pas l’intérêt. Est-ce que tu as besoin que Google Maps te raconte un haïku quand tu veux savoir comment te rendre au mont Tremblant ? C’est la mode en ce moment, et c’est dommage. »
Une fois le principe de la parcimonie respecté, on peut réduire la consommation d’énergie des grands modèles d’IA grâce à des astuces algorithmiques. Des librairies logicielles comme DeepSpeed permettent d’optimiser l’utilisation des puces informatiques en lançant tous les calculs en parallèle, sans laisser de répit au moindre transistor. En résultent un entraînement jusqu’à 2,8 fois moins long et une cadence de réponse aux requêtes jusqu’à 6,2 fois plus rapide. Et qui dit moins de temps de calcul dit moins d’électricité consommée.
Une autre approche, que Hugging Face se fait une fierté de mettre au point, est ce qu’on appelle la « distillation » des grands modèles de langage, comme GPT et BERT. « On part de la même architecture que GPT et on enlève les connexions les moins importantes pour accomplir la tâche désirée. C’est comme couper les branches mortes d’un arbre », explique Sasha Luccioni. Par exemple, plutôt que d’envisager 15 000 mots de la langue anglaise pour élaborer sa réponse, le robot peut se contenter de rétorquer « oui » ou « non ».
Malheureusement, la distillation n’est pas très populaire dans la communauté de l’IA, déplore Mme Luccioni, l’une des scientifiques les plus réputées dans le monde en ce qui concerne l’empreinte carbone de ces technologies. « Il y a vraiment cette tendance de bigger is better, mais, souvent, c’est surtout pour les apparences… »
Et puis, un obstacle très concret se présente aux équipes qui veulent distiller les grands modèles d’IA : il faut que ceux-ci soient disponibles pour téléchargement pour être personnalisés. Or, depuis l’avènement de ChatGPT, les géants technologiques se referment comme des huîtres pour protéger leurs algorithmes de la concurrence.
Puces nouveau genre
La consommation d’énergie des grands modèles d’IA peut aussi être modérée grâce au développement de nouvelles puces électroniques plus efficaces. « C’est beaucoup ce qu’on voit dans l’industrie actuellement », observe François Leduc-Primeau, professeur au Département de génie électrique de Polytechnique Montréal. Dans le monde de l’IA, ce sont les processeurs graphiques (GPU, en anglais) qui ont la cote, car ils se prêtent bien aux opérations en parallèle. Pour les rendre plus efficaces, les concepteurs et conceptrices tentent de parfaitement adapter la forme de leurs circuits aux calculs du réseau de neurones.
M. Leduc-Primeau, lui, s’intéresse à une solution radicalement différente : le calcul « en mémoire ». Selon cette architecture, les opérations mathématiques sont réalisées directement dans les circuits qui stockent les données. Cela évite de transporter l’information d’une puce à l’autre. Il y a d’importantes économies d’énergie à la clé, mais des incertitudes peuvent être introduites dans les calculs. Le chercheur, issu du milieu des télécommunications, développe des méthodes de correction d’erreurs pour pallier ce problème. Il croit que, d’ici cinq ans, le calcul en mémoire va gagner beaucoup de terrain.
Pour que les grands modèles d’IA gobent moins de joules, il faudra par ailleurs que les entreprises technologiques fassent preuve de bonne volonté. Pour OpenAI ou Meta, qui disposent d’énormément de puissance de calcul, la voie de l’efficacité est moins alléchante que celle menant vers le prochain grand coup d’éclat. Et pour véritablement réduire les émissions de carbone de l’IA, il faudra aussi réfléchir à ce qu’on fait de cette technologie, ajoute M. Rolnick. L’industrie pétrolière et gazière utilise déjà des algorithmes d’apprentissage profond pour prospecter le sous-sol et optimiser ses chaînes de production, souligne-t-il…