Vous êtes ici

L’IA : un moyen de lutte contre les biais ?

Clara Jean : L’IA : un moyen de lutte contre les biais ?
Publié le
22 Avril 2022

« L’IA est une technologie qui s’applique à tous types de domaines : la santé, l’énergie, l’économie, la géopolitique… Elle révolutionne un certain nombre de domaines » souligne notre experte. Quel est son rôle dans le cadre des biais algorithmiques ? Quels sont les facteurs qui influencent les algorithmes d’IA ?

Focus sur les expertises de Clara Jean, Professeur Assistant en Systèmes d’Information à Grenoble Ecole de Management et membre de la chaire Digital Organizations & Society.

Pouvez-vous vous présenter en quelques mots ?

Je suis titulaire d'un doctorat de l'Université Paris-Saclay sur les biais des algorithmes en ligne et l'utilisation des données personnelles. Cette thèse a été financée par l'école d'informatique Epitech dans laquelle j'ai été ingénieur de recherche pendant 3 ans. J'ai notamment travaillé sur des enjeux de mixité de genres dans les filières scientifiques en particulier dans la communauté informatique qui souffre d'un manque de représentation féminine. L'école a remarqué que ce manque de mixité freinait l'innovation qui pouvait se créer au sein de l'école qui fonctionne selon une logique projet. En partant de ce postulat, mon rôle a été de comprendre comment attirer plus de filles vers ce type de filières et d'orientations supérieures et d'étudier si les algorithmes pouvaient être des outils utiles pour atteindre cet objectif.

Cette double casquette d'ingénieur de recherche et de doctorante m'a permis d'étudier l'affichage algorithmique des campagnes publicitaires dont le contenu portait sur l'orientation supérieure pour des écoles telles que Epitech. L'objectif était notamment d'étudier comment les algorithmes sur les réseaux sociaux affichaient les publicités à la population féminine et masculine et de manière plus large de comprendre les mécanismes de décisions de ces dits algorithmes. Ainsi, nous avons testé si les réseaux sociaux, à travers leurs recours aux algorithmes, pouvaient être utilisés comme un canal de recrutement viable pour atteindre les objectifs souhaités. Cette hypothèse n'a pas été confirmée car les algorithmes sont entraînés sur des bases de données qui reflètent nos propres biais. De ce fait, si on les entraîne sur des bases de données pour lesquelles il y a plus d'hommes que de femmes dans ces filières, la tendance va être reproduite par le système automatisé. L'école n'arrivait donc pas à attirer plus de filles à travers ce canal de communication. L'objet de ma recherche était donc de comprendre comment réaliser / « designer » des campagnes publicitaires permettant d'atteindre les objectifs souhaités et, de ce fait, d'attirer plus de candidates au sein de l'école tout en tenant compte de la prévalence de biais.

Depuis mon arrivée à Grenoble Ecole de Management en septembre 2021, je poursuis mes recherches sur la compréhension de la prise de décision algorithmique dans le cadre de la publicité en ligne.

Quelles sont vos expertises ?

Mes expertises portent sur les biais des algorithmes sur les plateformes en ligne en particulier dans le cadre de la publicité en ligne ainsi que sur l'utilisation des données personnelles par les entreprises. Dans le contexte de ma recherche, je travaille notamment sur les possibilités de réduire des biais algorithmiques liés au genre pour du contenu portant sur des filières scientifiques.

Une sensibilité de l'algorithme lié au texte

Dans un premier temps, j'observe que l'utilisation d'un message sexospécifique à savoir dans notre cas un message destiné aux femmes, va avoir un effet sur l'affichage algorithmique réalisé. Alors que la littérature académique a fourni des preuves empiriques de biais algorithmiques liés au genre, il est montré à travers cette étude que la différence d'affichage publicitaire entre homme et femme peut être éliminée dans le cadre de publicité STEM à travers l'utilisation d'un contenu textuel « genré ». Toutefois, cette réduction se fait au détriment d'un affichage global de l'annonce plus faible.

Nous constatons également un effet inattendu du contenu « genré » dans le cas des mineurs pour lesquels le biais algorithmique de genre est renforcé en raison d'une réglementation plus stricte de la plateforme concernant le contenu publicitaire. On entend par là l'interdiction de contenus qui sponsorisent des boissons alcoolisées par exemple. Nous montrons également les effets distincts d'ajout d'un mot et du sens du mot sur l'affichage publicitaire.  En effet, un mot supplémentaire réduit de manière significative l'affichage publicitaire réalisé par l'algorithme perçu comme un contenu de moindre qualité mais pour l'ajout d'un mot, l'utilisation d'un terme « neutre » n'est pas suffisant pour éliminer ce type de biais. Cette recherche a des implications pratiques notamment pour les publicitaires qui souhaitent atteindre leurs objectifs à travers la diffusion de leur message à une population féminine. Il est ainsi préférable d'utiliser un message qui cible ces dernières. Pour les décideurs publics, cette recherche souligne les enjeux et compromis associés à la régulation des algorithmes en particulier dans le cadre de la publicité en ligne : comment dessiner une régulation qui permette de limiter ces biais sans entraver l'efficacité publicitaire ?

Le rôle déterminant de l'image dans l'affichage algorithmique

Dans un second temps, je me suis intéressée au comportement algorithmique dans son ensemble à savoir est-ce que l'affichage effectué par l'algorithme est influencé par l'image publicitaire ? Qu'est-ce qui explique qu'un algorithme prenne une décision particulière en termes d'affichage ? J'observe que les algorithmes sont très sensibles à la quantité d'informations disponibles. Moins il y a d'informations plus il est compliqué pour l'algorithme de décider quel choix il doit effectuer. L'algorithme se reporte donc sur des localisations géographiques où il y a un niveau d'information suffisant. Ainsi, il applique un schéma de diffusion à l'ensemble du territoire, ici français, qui correspond aux préférences exprimées vis-à-vis du contenu par les utilisateurs situés en région parisienne. Il ne tient donc pas compte des préférences locales des individus. Cela pose problème dans la mesure où les préférences locales peuvent différer des préférences nationales. Par conséquent, une baisse d'engagement des utilisateurs peut se manifester et conduire à un moindre retour sur investissement pour le publicitaire et la plateforme.

Une sensibilité des algorithmes aux événements aléatoires

Dans la continuité de cette recherche et dans un contexte où les plateformes demandent à leurs algorithmes d'apprendre toujours plus vite les contenus qui « engagent » les utilisateurs, nous observons une sensibilité des algorithmes à un type d'événements aléatoires. Plus précisément, nous suggérons qu'un nombre élevé de clics au début de la campagne publicitaire, dans la phase d'apprentissage de l'algorithme, façonne de manière involontaire la façon dont le contenu est diffusé par l'algorithme.

Par ailleurs, la phase d'apprentissage qui consiste en une période de temps pendant laquelle l'algorithme essaie de comprendre comment diffuser le contenu a un rôle majeur dans les résultats obtenus. Ces événements aléatoires en particulier sur Facebook viennent stopper ce processus d'apprentissage. L'algorithme ne va plus accumuler de données et apprendre de son interaction avec les utilisateurs parce qu'il considère avoir suffisamment d'informations lui permettant de savoir comment diffuser son contenu. Par conséquent, il n'ajustera plus son schéma de diffusion au cours de la campagne publicitaire. Concernant les enjeux relatifs à la régulation des algorithmes, on peut se demander s'il serait par exemple pertinent d'imposer aux plateformes une phase d'apprentissage minimale pour certifier qu'un algorithme a suffisamment exploré les données pour pouvoir les exploiter correctement.

A titre d'illustration, une publicité contenant le mot « femme » est moins affichée de manière globale comparativement à une publicité plus « neutre » contenant le mot « élève ».

La régulation de contenu lié à la pandémie de COVID 19

Ce compromis entre exploration et exploitation est d'autant plus en vigueur dans le cadre de la crise sanitaire actuelle. En particulier, il est intéressant d'étudier comment l'algorithme peut se comporter vis-à-vis d'un contenu sur lequel il n'a jamais été entraîné. Dans le cadre de publicités réalisées sur Facebook portant sur la pandémie, nous remarquons que l'algorithme adopte des comportements particuliers. L'algorithme a tendance à bannir des contenus réalisés par des organisations gouvernementales qui portent sur la COVID-19 alors que ces organisations sont les moins susceptibles de diffuser de la « mésinformation ». En fait, l'algorithme ne comprend pas vraiment ce qu'il est censé bannir ou non. Le fait de bannir cette publicité empêche alors sa diffusion. Dans le cadre de la crise sanitaire, ce type de comportement algorithmique a des implications importantes en termes d'accès à l'information puisque la majorité de ces annonces portent sur les moyens permettant d'éviter la propagation du virus.

L'utilisation des données personnelles par les entreprises

Ce travail de recherche consiste à étudier et à comprendre le comportement des entreprises en fonction des préférences exprimées par les utilisateurs. A travers une expérience in situ, j'ai abonné des profils d'individus fictifs aux newsletters de différents sites web (français et américains) en faisant varier le niveau d'information communiqué à ces sites Internet. Parmi ces profils, on retrouve des profils français et américains pour lesquels on communique si le profil est de type « privacy concern » ou « non privacy concern ». J'ai ensuite observé la manière dont l'entreprise interagit avec les profils d'individus à travers les emails envoyés.

J'identifie un comportement unilatéral de la part des sites Internet américains. En effet, les sites Internet américains ne font aucune distinction entre des profils « privacy concern » ou « non privacy concern ». En revanche, pour les sites Internet français, j'observe une différence de comportements. Les sites Internet français ont tendance à se focaliser sur les individus qui ont partagé beaucoup d'informations avec eux (profil de type « non privacy concern »). En parallèle, ils vont avoir tendance à moins solliciter les individus qui ont pu exprimer être de type « privacy concern ». A travers cette recherche, il y a également des preuves empiriques de partage de données personnelles avec des parties tierces.

Pouvez-vous nous expliquer en quoi consiste le projet initié avec la chaire Digital Organizations & Society grâce au soutien d'ENGIE ?

La chaire Digital Organizations & Society de Grenoble Ecole de Management a initié un projet grâce au soutien d'ENGIE, l'une des entreprises mécènes de la chaire. L'objectif de ce projet est d'observer s'il y a un biais de sélection dans le recrutement effectué par les entreprises, en travaillant sur des candidatures soumises dans le cas d'une étude de terrain avec ENGIE. L'intérêt est de s'assurer que les entreprises comme ENGIE ne passent pas à côté de certains talents. Leur besoin est double. Premièrement, comprendre les mécanismes de recrutement et deuxièmement, s'assurer d'éviter des biais dans une optique potentielle de recrutement assisté.

Actuellement, le projet est à ses débuts et l'équipe fait face à des enjeux quant au traitement de la donnée ; en particulier pour s'assurer du respect des règles en matière de data privacy. Outre cet enjeu, un défi technique se pose à savoir l'extraction et la mise en forme des informations contenues dans les candidatures afin de créer une base de données exploitable.

ENGIE s'intéresse aux biais et notamment aux biais liés au genre. J'ai donc été invitée à intervenir auprès des collaborateurs d'ENGIE dans l'optique d'échanger avec leurs collaborateurs sur les biais algorithmiques et d'expliquer avec Chantal Alario - Data Project Lead - l'initiative du projet mené dans le cadre de la chaire DOS.  Il y a un réel intérêt pour les entreprises à comprendre leur processus de recrutement, en cela les résultats de cette recherche devraient leur permettre de faire progresser leurs pratiques.

Pour en savoir plus sur les expertises de Clara Jean :

Cela pourrait vous intéresser