Que cherchez-vous ?

Publicité
15 décembre 2021
Temps de lecture : 4 minutes

Les sciences humaines à l’heure des mégadonnées

Image: Shutterstock

Les mégadonnées − le fameux big data − sont-elles en voie de révolutionner les sciences humaines?

L’humain est une petite bête particulièrement compliquée à étudier. Les chercheurs en sciences humaines et sociales en savent quelque chose. Préparer un questionnaire, l’envoyer à des centaines de participants et recevoir… 40 réponses. Solliciter des rencontres, les organiser, se déplacer, interviewer, enregistrer, dépouiller, classer, hiérarchiser… Le temps et les efforts requis pour la collecte de ces données ont longtemps été un facteur limitant pour ceux qui tentent de mieux comprendre l’être humain.

Ce n’est plus le cas aujourd’hui. L’utilisation massive des téléphones intelligents, des moteurs de recherche et des réseaux sociaux a complètement changé la donne. Des sociétés stockent des milliers de pétaoctets d’informations sur nos comportements et certaines ont commencé à donner accès à leurs données aux chercheurs. Twitter a conçu, en janvier 2021, une interface pour faciliter la vie aux scientifiques qui souhaitent avoir recours aux données qu’elle recueille. Facebook lui a emboîté le pas peu après. La tendance à l’informatisation des sciences humaines est si forte que la revue Nature y a consacré tout un dossier l’été dernier, soulignant que ce nouveau champ était rempli de promesses.

« Ce qui a changé depuis les cinq dernières années, c’est le genre de données qui sont disponibles, mais surtout leur échelle », explique Lydia Vermeyden, chef d’équipe pour les sciences humaines et les humanités à Calcul Canada et consultante pour l’Atlantic Computational Excellence Network (ACENET), une fédération d’organismes offrant aux chercheurs de tous horizons un accès à de puissantes capacités de calcul.

Ainsi, les chercheurs peuvent suivre et examiner les activités en ligne de différentes communautés, fouiller d’immenses corpus de textes et de documents, interpréter des données émanant d’applications cellulaires, de montres et de vêtements connectés. Ils ont la capacité de plonger dans des bases de données si grandes que seules des analyses informatiques sophistiquées peuvent en extraire des notions signifiantes.

« Avec les données massives, il faut vraiment être prudent pour ne pas arriver à de fausses conclusions. »

Maude Bonenfant, professeure au Département de communication sociale et publique de l’Université du Québec à Montréal

Si, au départ, l’utilisation des mégadonnées en sciences humaines relevait souvent du gadget, plusieurs percées dans le domaine ont, depuis, marqué l’imaginaire scientifique. Au Rwanda, l’étude de la consommation de données mobiles a permis, dès 2015, de cartographier les disparités entre les régions riches et pauvres du pays. Une recherche publiée en 2019 s’est quant à elle penchée sur les dossiers de 50 000 patients aux États-Unis pour montrer qu’un algorithme communément utilisé dans la gestion des soins de santé comportait un biais raciste, défavorisant les patients noirs par une offre moindre de traitements… Sans oublier que l’analyse des déplacements de citadins aide déjà à planifier l’aménagement du territoire et les services d’urgence.

La facilité de croiser ces données entre les domaines ouvre aussi des possibilités extraordinaires. Grâce à la vitesse de
traitement de l’information que permet l’informatique, les scientifiques peuvent explorer les renseignements issus de sources moins usuelles pour leur discipline. Par exemple, un historien pourrait ausculter des milliers d’écrits littéraires de différentes époques pour en sortir toutes les descriptions d’un même lieu. Cela pourrait lui permettre de mieux comprendre son évolution, physique et vocationnelle.

Ces nouvelles méthodes ont donc le potentiel d’accélérer la recherche, mais aussi d’élargir l’éventail des questions auxquelles on peut aspirer à trouver une réponse. Comme plusieurs de ces données sont mises à jour en temps réel, un des grands espoirs est que ces études soient en mesure d’offrir rapidement des informations pertinentes aux élus pour les éclairer dans leurs prises de décisions.

Mais Lydia Vermeyden ne s’en cache pas : les outils mis à la disposition des chercheurs par des organismes comme Calcul Canada, Calcul Québec ou l’ACENET ont été conçus pour les sciences dites « pures ». Il y a donc un effort à faire pour les adapter − ainsi que les subventions qui permettent de les utiliser − afin qu’ils soient plus appropriés à la pensée des sciences humaines.

Les chercheurs doivent se former pour tirer le maximum de ces outils. Il faut maîtriser le logiciel système Shell Unix ou le système d’exploitation Linux, peut-être savoir programmer en Python ou profiter du potentiel du logiciel de gestion Git. « C’est un défi de taille, souligne Joshua MacFadyen, professeur en communication appliquée, leadership et culture à l’Université de l’Île-du-Prince-Édouard. Les programmes universitaires [en sciences sociales et en humanités] doivent encore développer ce cursus. La bonne nouvelle, c’est que
l’ACENET déploie de grands efforts pour créer des formations modelées sur nos besoins et nous encourage beaucoup à employer ses services. »

De nombreux écueils

Alors, concrètement, les mégadonnées permettent-elles d’effectuer de meilleures recherches, plus objectives ? Si les spécialistes interrogés par Québec Science ne remettent pas en doute le potentiel qu’elles offrent, tous signalent que les écueils méthodologiques pour l’exploiter sont majeurs.

La protection de la vie privée a rapidement tenu le haut du pavé comme l’un des principaux enjeux de ces nouvelles méthodes de recherche. Le consentement éclairé des participants est également une question centrale. « Souvent, le défi est que les informations transmises individuellement ne permettent pas d’établir l’identité d’une personne, mais lorsqu’on les croise, ça devient possible », dit Lydia Vermeyden. Prenons un endroit fréquenté par des hommes et des femmes dont l’identité a été anonymisée ; ils sont représentés par des numéros. Si l’on connaît aussi le revenu moyen de ces numéros, la distance qu’ils parcourent pour se rendre au lieu et les heures auxquelles ils le fréquentent, il devient possible de deviner de qui il s’agit et pourquoi ils y sont. Cependant, Lydia Vermeyden assure que les cadres éthiques canadiens entourant ce type d’étude sont aujourd’hui adaptés à cette réalité.

L’accès à des renseignements pertinents est aussi problématique. Puisque ce sont surtout des sociétés privées, comme Facebook, qui traquent nos faits et gestes en ligne, les chercheurs doivent les convaincre de leur ouvrir leurs bases de données. Il n’est pas nécessairement simple d’y arriver.

Et même lorsqu’elles se prêtent au jeu, la nature des données collectées n’est pas toujours celle qui sert le mieux les intérêts des scientifiques. Après tout, ces compagnies ont pour objectif de multiplier leurs profits : les informations recueillies sont donc orientées en ce sens. Par ailleurs, les renseignements et les profils d’utilisateurs trouvés sur différents sites Web ou réseaux sociaux ne sont pas systématiquement mis à jour par leurs propriétaires, ce qui peut occasionner des carences dans les bases de données.

Même la collecte par les chercheurs n’est pas toujours aisée. Les livres en sont un bon exemple. Si aujourd’hui on tient pour acquis que les nouveaux écrits ont de facto une version électronique, ce n’est pas le cas des publications plus anciennes. Et si ces dernières ont été numérisées, leur copie virtuelle n’est pas forcément sans fautes… Les logiciels de numérisation confondent certaines lettres, surtout celles imprimées avec des techniques passées ou simplement manuscrites.

Enfin, l’intelligence artificielle n’est pas toujours si brillante. Les algorithmes qui décodent le langage naturel ne comprennent pas nécessairement le contexte de certains mots (mener quelqu’un en bateau ne veut pas dire lui offrir une croisière), mélangent des individus portant le même nom ou, au contraire, croient que le personnage de Florence, dans un roman, est différent lorsque l’auteur emploie le surnom « Flo ». Il faut donc que les chercheurs s’affairent à nettoyer les données et à entraîner les logiciels pour s’assurer de ne pas obtenir des résultats partiels ou carrément mauvais. Un travail minutieux et chronophage.

« Avec les données massives, il faut vraiment être prudent pour ne pas arriver à de fausses conclusions, explique Maude Bonenfant, professeure au Département de communication sociale et publique de l’Université du Québec à Montréal. La plupart du temps, ces données ne sont pas recueillies par des chercheurs, on les traite avec des outils qu’on ne maîtrise pas complètement et la visualisation des résultats qui en découle peut mener à des impressions trompeuses. » Elle renchérit : il y a un risque de biais chaque fois qu’une décision humaine est prise dans la collecte par les entreprises ou dans la sélection des données par les scientifiques eux-mêmes.

C’est entre autres pour cela que la collaboration entre les informaticiens, qui comprennent les logiciels, et les scientifiques, qui connaissent les théories et peuvent valider la qualité des données et la méthodologie, est essentielle.

Lydia Vermeyden, qui a étudié la physique quantique avant de se joindre à l’équipe de l’ACENET, croit que nous sommes à l’aube de quelque chose d’important. « Lorsque j’étais aux études, personne ne savait à quoi la physique quantique allait être utile, mais on voyait que cela avait du potentiel. Aujourd’hui, il y a constamment de nouvelles entreprises qui se lancent dans ce domaine. De la même façon, il est difficile de mettre le doigt sur le changement que les mégadonnées vont apporter, mais il est certain que ce sont des outils puissants. J’ai vraiment espoir qu’ils nous aident à concevoir de meilleures politiques publiques et à mieux gérer les problèmes sociaux. »

Les mégadonnées en action

Les fermes à travers le temps

Grâce aux données des recensements canadiens (depuis 1871), d’extraits de journaux et d’autres sources, Joshua MacFadyen, professeur à l’Université de l’Île-du-Prince-Édouard, et son équipe du laboratoire GeoREACH ont élaboré 2 500 profils de fermes en Ontario, au Québec et dans les provinces maritimes. En les rassemblant sur une carte géographique, le projet permet d’avoir une vue d’ensemble de l’évolution de ces fermes et de mieux comprendre les différents enjeux agricoles à travers les époques.

Quelques profils de fermes ont déjà été publiés. Pour les créer, le professeur et ses collègues ont réuni les données relatives à la production de chaque établissement en matière d’animaux, de pâturages, de récolte de céréales ou de légumes au fil des décennies pour ensuite brosser des tableaux de la production de chaque ferme. Un travail fastidieux et exigeant qui aurait été impossible à accomplir au moyen de méthodes classiques.

Aujourd’hui, le projet permet de saisir la transformation des exploitations agricoles dans ces provinces. « Nous avons analysé ces mégadonnées pour leur donner un visage humain », mentionne Joshua MacFadyen. Ainsi, il sera possible de savoir ce que c’était de vivre dans une ferme cultivant des pommes au Québec dans les années 1970 ou dans une exploitation fournissant du bois pour les bateaux à vapeur près du lac Ontario.

Innovation : des sites Web bavards

Même si nous tentons de mesurer l’innovation des entreprises depuis des décennies, l’exercice s’est toujours avéré périlleux. La collecte d’informations est difficile et les données gouvernementales datent souvent de quelques années.

Il y a cependant un endroit où les renseignements sur les compagnies sont accessibles et constamment mis à jour : leurs sites Web. Catherine Beaudry, professeure au Département de mathématiques et de génie industriel de Polytechnique Montréal, a parié que ces sites pouvaient nous aider à mieux comprendre la forme que prend l’innovation dans les entreprises. En comparant les informations obtenues grâce à l’analyse des données massives avec celles provenant de méthodes plus classiques, la chercheuse s’est aperçue que les nouveaux outils sont prometteurs.

Ce que l’équipe tentait de valider, c’était de savoir s’il y avait une différence notable entre l’information obtenue au moyen des sites Web et celle recueillie par les méthodes de collecte traditionnelles. « Et ce qu’on démontre, c’est qu’il n’y en a pas, indique Catherine Beaudry. À la limite, [ce qu’on tire des sites] pourrait être substitué aux questionnaires qu’on utilise normalement. » Une technique qui, proprement appliquée, pourrait permettre aux chercheurs de gagner énormément de temps.

L’étude pilote montre que le recours aux sites Web pourrait améliorer la gestion des mesures pro-innovation. « Si l’on a des données en temps réel qui sont correctement validées par les séries temporelles [une suite de valeurs numériques, utilisées en statistique, pour étudier des variables à travers le temps] que l’on connaît, on sera capable d’offrir des indicateurs aux décideurs et aux gouvernements pour leur dire si un programme ne semble pas avoir l’effet désiré ou, au contraire, s’il faut investir davantage dans un autre qui fonctionne rondement », illustre-t-elle.

Comprendre les sous-cultures du jeu vidéo

Les joueurs de jeux vidéos en ligne n’achètent pas qu’un divertissement. Bien souvent, ils cherchent également une communauté. Ces cultures ont des normes, des valeurs et des manières de les communiquer.

Avec son équipe, Maude Bonenfant, professeure à l’Université du Québec à Montréal et titulaire de la Chaire de recherche du Canada sur les communautés de joueurs et les données massives, s’intéresse à ces groupes afin de mieux comprendre leur naissance, leur évolution et leur déclin. Grâce à un croisement de méthodes traditionnelles et d’analyses de mégadonnées, il lui est possible de comprendre comment ces collectivités se bâtissent dans le jeu, mais aussi en dehors de celui-ci sur différents réseaux sociaux.

La chercheuse s’intéresse notamment aux conduites toxiques adoptées parfois dans ces communautés. Celles-ci sont définies comme des actes dans le jeu qui ont pour but de nuire au plaisir des autres joueurs. Souvent, la personne qui agit ainsi y trouve le sien.

En utilisant un logiciel d’analyse textuelle pour catégoriser les commentaires, Maude Bonenfant et ses collaborateurs ont pu observer de quoi parlent les joueurs et ce qu’ils considèrent comme toxique. Grâce à différents traqueurs mis en place par les studios de jeu vidéo, l’équipe a ensuite voulu voir si ces échos s’actualisaient dans les comportements pendant le jeu (les cas où ces agissements ont été relevés, dans quel genre de partie, avec quel type de joueurs, etc.). Cela a permis aux chercheurs de nuancer la réalité entre ce qui se dit sur les réseaux sociaux et ce qui se fait en jouant. Ils ont aussi évalué si certaines mécaniques de jeu favorisent cette toxicité et comment leur modification pourrait amener une diminution de ces agissements.

Si cette recherche porte sur les jeux vidéos, Maude Bonenfant, elle, a un intérêt pour toutes les plateformes de communication en ligne. Elle croit que ses travaux pourraient s’appliquer ailleurs. « On peut se poser la question à savoir si, dans Twitter ou dans Facebook, il y a des éléments qu’on pourrait enlever ou ajouter qui viendraient réduire la toxicité des échanges qui s’y déroulent », indique-t-elle.

Réactualiser un auteur du 19e siècle

Leigh Hunt est une figure importante de la littérature britannique, aujourd’hui tombée dans un relatif oubli. Influent à son époque, il a fréquenté et publié de nombreux intellectuels marquants du 19e siècle. C’est aussi quelqu’un qui a beaucoup, beaucoup écrit. Des poèmes et des nouvelles, mais surtout des critiques littéraires, des essais et des articles de journaux. Cette impressionnante bibliographie impose des limites aux chercheurs qui s’y intéressent, ne serait-ce que par leur incapacité, bien humaine, de tout lire et de tout retenir.

Le professeur d’anglais de l’Université de Montréal Michael Eberle Sinatra et ses étudiants ont donc entrepris de créer le corpus de Leigh Hunt en ligne afin de pouvoir, avec des chercheurs d’ailleurs dans le monde, utiliser la puissance des algorithmes pour fouiller ses textes. Le projet s’appelle Digital Leigh Hunt.

Leur travail consiste principalement à s’assurer que le corpus est « propre », c’est-à-dire qu’il ne contient pas d’erreurs de numérisation, et à entraîner l’intelligence artificielle afin qu’elle comprenne certaines subtilités du texte. L’informatisation de l’œuvre ouvre l’exploration d’une manière inédite. Comme l’analyse traverse une immense quantité d’écrits, il devient possible de vérifier l’importance d’un thème pour l’écrivain, même s’il n’est central dans aucune de ses œuvres. « Cela nous donne l’occasion de poser des questions contemporaines à des auteurs anciens, comme savoir s’ils s’intéressaient à l’esclavage ou s’ils étaient féministes », dit Michael Eberle Sinatra.

Le groupe noue des partenariats avec des chercheurs de partout qui fabriquent, eux aussi, des corpus semblables. Avec le temps, la diffusion de ceux-ci permettra de croiser les œuvres des auteurs à travers les époques, les disciplines et les langues pour approfondir notre compréhension de leurs influences d’hier à aujourd’hui.

Plusieurs des chercheurs cités dans ce texte sont financés par le Conseil de recherches en sciences humaines du Canada.

Laissez un commentaire
S’abonner
Notification pour
*Votre courriel ne sera pas affiché publiquement
0 Commentaires
Le plus ancien
Le plus récent Le plus populaire
Commentaires en ligne
Afficher tous les commentaires
Publicité