Récemment, une enquête du Time1>B. Perrigo, «OpenAI used kenyan workers on less than $2 per hour to make ChatGPT less toxic», Time, 18 janv. 2023. révélait que des travailleurs kényans payés moins de trois euros de l’heure étaient chargés de s’assurer que les données utilisées pour entraîner ChatGPT ne comportaient pas de contenu à caractère discriminatoire2>K. Gentelt, L.C.Mathieu, «Comment l’intelligence artificielle reproduit et amplifie le racisme», The Conversation, 23 nov. 2023.. Les modèles d’intelligence artificielle (IA) ont en effet besoin d’être entraînés, en mobilisant une masse de données extrêmement importante, pour leur apprendre à reconnaître leur environnement et à interagir avec celui-ci. Ces données doivent être collectées, triées, vérifiées et mises en forme. Ces tâches chronophages et peu valorisées sont généralement externalisées par les entreprises technologiques à une foule de travailleurs précaires, généralement situés dans les pays des suds3>M. Graham, M. Amir Anwar, «The global gig economy: Towards a planetary labour market?», First Monday, 1er avril 2019..
Ce travail de la donnée prend plusieurs formes, en fonction des cas d’usage de l’algorithme final, mais il peut s’agir par exemple d’entourer les personnes présentes sur les images capturées par une caméra de vidéosurveillance pour apprendre à l’algorithme à reconnaître un humain. Ou encore corriger manuellement les erreurs produites par un modèle de traitement automatique de factures. Nous proposons, à travers une enquête menée entre Paris et Antananarivo, capitale de Madagascar, de nous pencher sur l’identité de ces travailleurs de la donnée, leurs rôles et leurs conditions de travail, et de proposer des pistes pour enrichir les discussions autour de la régulation des systèmes d’IA.
L’intelligence artificielle, une production mondialisée
Nos recherches appuient l’hypothèse que le développement de l’intelligence artificielle ne signifie pas la fin de travail due à l’automation4>C.B. Frey, M.A. Osborne, «The future of employment: How susceptible are jobs to computerisation?», Science Direct, janv. 2017., comme certains auteurs l’avancent, mais plutôt son déplacement dans les pays en voie de développement. Notre étude montre aussi la réalité de «l’IA à la française»: d’un côté, les entreprises technologiques françaises s’appuient sur les services des GAFAM pour accéder à des services d’hébergement de données et de puissance de calcul; d’un autre côté les activités liées aux données sont réalisées par des travailleurs situés dans les ex-colonies françaises, notamment Madagascar, confirmant alors des logiques déjà anciennes en matière de chaînes d’externalisation. La littérature compare d’ailleurs ce type d’industrie avec le secteur textile et minier5>C.W. Chagnon et al., «From extractivism to global extractivism: the evolution of an organizing concept», Taylor and Francis, 9 mai 2022..
Un constat initial a guidé notre travail d’enquête: les conditions de production de l’IA restent mal connues. En nous appuyant sur des recherches antérieures sur le «travail numérique» (digital labour)6>A.A. Casilli, En attendant les robots, Seuil, 2019., nous avons cherché à comprendre où et comment sont façonnés les algorithmes et les jeux de données nécessaires à leurs entraînements. Intégrés au sein du groupe de recherche Digital Platform Labor, notre travail consiste à analyser les relations d’externalisation entre entreprises d’intelligence artificielle françaises et leurs sous-traitants basés dans les pays d’Afrique francophone et à dévoiler les conditions de travail8 de ces «travailleurs de la donnée» malgaches, devenus essentiels au fonctionnement des systèmes intelligents.
Notre enquête a débuté à Paris en mars 2021. Dans un premier temps, nous avons cherché à comprendre le regard que les entreprises françaises productrices d’IA entretenaient sur ces activités liées au travail de la donnée, et quels étaient les processus mis en œuvre pour assurer la production de jeux de données de qualité suffisante pour entraîner les modèles. Nous nous sommes ainsi entretenus avec 30 fondateurs et employés opérant dans 22 entreprises parisiennes du secteur.
Un résultat a rapidement émergé de ce premier travail de terrain: le travail des données est dans sa majorité externalisé auprès de prestataires situés à Madagascar7>P. Marissal, «Derrière l’intelligence artificielle ‘made in France’, des exploités à Madagascar», L’Humanité, 9 déc. 2022.. Les raisons de cette concentration des flux d’externalisation vers Madagascar sont multiples et complexes. On peut toutefois mettre en avant le faible coût du travail qualifié, la présence historique du secteur des services aux entreprises sur l’île, et le nombre élevé d’organisations proposant ces services.
Lors d’une seconde partie de l’enquête d’abord menée à distance, puis sur place à Antananarivo, nous nous sommes entretenus avec 147 travailleurs, managers, et dirigeants de 10 entreprises malgaches. Nous avons dans le même temps diffusé un questionnaire auprès de 296 travailleurs des données situés à Madagascar.
Dans un premier temps, le terrain révèle que ces travailleurs des données sont intégrés à un secteur plus large de production de service aux entreprises, allant des centres d’appels à la modération de contenu web, en passant par les services de rédaction pour l’optimisation de la visibilité des sites sur les moteurs de recherche. Les données du questionnaire révèlent que ce secteur emploie majoritairement des hommes (68%), jeunes (87% ont moins de 34 ans), urbains et éduqués (75% ont effectué un passage dans l’enseignement supérieur).
Quand ils évoluent au sein de l’économie formelle, ils occupent généralement un poste à durée indéterminée. La moindre protection offerte par le droit du travail malgache comparée au droit du travail français, la méconnaissance des textes par les travailleurs, et la faiblesse des corps intermédiaires (syndicats, collectifs) et de la représentation en entreprise accentuent néanmoins la précarité de leur position. Ils gagnent en majorité entre 96 et 126 euros par mois, avec des écarts de salaires significatifs, jusqu’à 8 à 10 fois plus élevés pour les postes de supervision d’équipe, également occupés par des travailleurs malgaches situés sur place. Ces travailleurs sont situés à l’extrémité d’une longue chaîne d’externalisation, ce qui explique en partie la faiblesse des salaires de ces travailleurs qualifiés, même au regard du contexte malgache.
La production de l’IA implique en effet trois types d’acteurs: les services d’hébergement de données et de puissance de calcul proposés par les GAFAM, les entreprises françaises qui vendent des modèles d’IA et les entreprises qui proposent des services d’annotations de données depuis Madagascar, chaque intermédiaire captant une partie de la valeur produite. Ces dernières sont de plus généralement très dépendantes de leurs clients français, qui gèrent cette force de travail externalisée de manière quasi directe, avec des postes de management intermédiaire dédiés au sein des start-up parisiennes.
L’occupation de ces postes de direction par des étrangers, soit employés par les entreprises clientes en France, soit par des expatriés sur place, représente un frein important aux possibilités d’évolution de carrière offertes à ces travailleurs, qui restent bloqués dans les échelons inférieurs de la chaîne de valeur.
Cette industrie profite d’un régime spécifique, les «zones franches», institué en 1989 pour le secteur textile. Dès le début des années 1990, des entreprises françaises s’installent à Madagascar, notamment pour des tâches de numérisation liées au secteur de l’édition. Ces zones, présentes dans de nombreux pays en voie de développement, facilitent l’installation d’investisseurs en prévoyant des exemptions d’impôts et de très faibles taux d’imposition.
Aujourd’hui, sur les 48 entreprises proposant des services numériques dans des zones franches, seulement 9 sont tenues par des Malgaches, contre 26 par des Français. En plus de ces entreprises formelles, le secteur s’est développé autour d’un mécanisme de «sous-traitance en cascade», avec, à la fin de la chaîne des entreprises et entrepreneurs individuels informels, moins bien traités que dans les entreprises formelles, et mobilisés en cas de manque de main-d’œuvre par les entreprises du secteur.
Les rouages invisibles de nos vies numériques
En plus du coût du travail, l’industrie de l’externalisation profite de travailleurs bien formés: la plupart sont allés à l’université et parlent couramment le français, appris à l’école, par Internet et à travers le réseau des Alliances françaises. Cette institution d’apprentissage du français a été initialement créée en 18838>J. Horne, «‘To Spread the French Language Is to Extend the Patrie’: The Colonial Mission of the Alliance Française», French Historical Studies (2017) 40 (1): 95–127. afin de renforcer la colonisation à travers l’extension de l’utilisation de la langue du colonisateur par les populations colonisées. Ce schéma rappelle ce que le chercheur Jan Padios désigne comme le «colonial recall»9>J.M. Padios, A Nation on the Line, Duke University Press, avril 2018.. Les anciens pays colonisés disposent de compétences linguistiques et d’une proximité culturelle avec les pays donneurs d’ordres dont bénéficient les entreprises de services.
Derrière l’explosion récente des projets d’IA commercialisés dans les pays du nord, on retrouve un nombre croissant de travailleurs de la donnée. Alors que la récente controverse autour des «caméras intelligentes», prévues par le projet de loi relatif aux Jeux olympiques de Paris, s’est principalement focalisée sur les risques matière de surveillance généralisée10>«Loi JO 2024: la vidéosurveillance algorithmique menace-t-elle nos libertés?», France Culture, 25 janv. 2023., il nous semble nécessaire de mieux prendre en compte le travail humain indispensable à l’entraînement des modèles, tant il soulève de nouvelles questions relatives aux conditions de travail et au respect de la vie privée.
Rendre visible l’implication de ces travailleurs c’est questionner des chaînes de production mondialisées, bien connues dans l’industrie manufacturière, mais qui existent aussi dans le secteur du numérique. Ces travailleurs étant nécessaires au fonctionnement de nos infrastructures numériques, ils sont les rouages invisibles de nos vies numériques.
C’est aussi rendre visible les conséquences de leur travail sur les modèles. Une partie des biais algorithmiques résident en effet dans le travail des données, pourtant encore largement invisibilisé par les entreprises11>M. Miceli et al., «Studying Up Machine Learning Data: Why Talk About Bias When We Mean Power?», Cornell University, 16 sept. 2021.. Une IA réellement éthique doit donc passer par une éthique du travail12>A. Williams et al., «The Exploited Labor Behind Artificial Intelligence», Noema Magazine, 13 oct. 2022. de l’IA.
Notes