[Science-friction] Derrière le succès de ChatGPT, les petites mains cachées de la tech

Les vidéos, images et descriptions de meurtre, agression sexuelle et autre actes violents sont légions sur Internet. Et les données utilisées pour entrainer le modèle d'intelligence artificielle ChatGPT, tirées du web, n'en étaient pas exemptes. Pour les purger des contenus toxiques, OpenAI a chargé une société d’étiqueter les données. Dans une longue enquête, le journal Time rapporte les faibles rémunérations et les conditions de travail difficiles des salariés kenyans qui y ont oeuvré.

Léna Corot

Publié le 26 janvier 2023 à 09h00

Réservé aux abonnés

Pour bon nombre de personnes, l’intelligence artificielle suppose une technologie qui fonctionne de façon autonome. Pourtant, le développement de ces systèmes demande l'implication de nombreux travailleurs. Certains, derrière les algorithmes eux-mêmes, sortent des meilleures écoles et laboratoires de recherches. Contrairement aux travailleurs dits de "l’industrie du clic", qui réalisent des tâches parfois éprouvantes psychologiquement mais indispensables au bon fonctionnement des algorithmes.

OpenAI, l’entreprise derrière l’agent conversationnel ChatGPT qui a fait le tour du Web en générant des textes sur n’importe quel sujet, ne fait pas exception. Elle a eu recours à des travailleurs kényans rémunérés moins de 2 dollars par heure pour rendre le système moins toxiques en le purgeant des contenus haineux, racistes et violents. Une enquête du site Time met en lumière l’éprouvant travail d’étiquetage des contenus (images et texte) utilisés pour entraîner le modèle d’IA.

Quelle réglementation s’applique à ChatGPT ?

La réglementation sur la modération d’un tel outil semble assez floue. «Pour l’instant les outils comme ChatGPT semblent être dans un angle mort des réglementations européennes», analyse Winston Maxwell, directeur d’études en droit et numérique à Télécom Paris. Le Digital Services Act (DSA) qui réglemente les activités des plateformes, et en particulier celles des GAFAM, vise notamment à concilier la liberté d’expression avec la suppression des contenus illégaux sur les moteurs de recherche et sites d’hébergement... ce que n'est pas ChatGPT.

De la même façon, la proposition de règlement sur l’intelligence artificielle, toujours en discussion, ne prend pas en compte ce type de système pouvant être utilisé par tout un chacun. «Mais il est encore possible de changer le tir pour intégrer ces outils» dans la réglementation, glisse Winston Maxwell.

L’étiquetage des contenus toxiques

Le modèle d’IA derrière ChatGPT est entraîné sur de très grandes bases de données collectées sur Internet. Cela constitue à la fois sa force, puisqu’il dispose de capacités linguistiques impressionnantes et peut converser sur de très nombreux sujets, et sa faiblesse puisque de très nombreux sites regorgent de contenus toxiques. Un modèle d’intelligence artificielle peut être chargé de détecter ces contenus. Il peut à la fois être intégré à ChatGPT lui-même, pour filtrer les contenus avant que la réponse parvienne aux utilisateurs, et pour nettoyer directement les bases de données.

Problème : pour fonctionner cet algorithme doit lui-même être entraîné à détecter des discours violent, haineux ou relatant des violences sexuelles ou pédocriminelles. C’est ici qu’interviennent les petites mains de la tech. Pour étiqueter ces contenus, OpenAI a signé un contrat de trois ans avec Sama, une entreprise basée à San Francisco qui emploie des personnes au Kenya, en Ouganda et en Inde pour des entreprises de la Silicon Valley comme Google, Meta et Microsoft.

Du contenu issu des recoins les plus sombres d'Internet

OpenAI a confirmé que des employés de Sama au Kenya ont participé au développement d’un outil conçu pour détecter les contenus toxiques qui a été intégré à ChatGPT. Dès novembre 2021 OpenAI a envoyé des milliers de textes à cette entreprise. Le contenu, selon le Time, vient des recoins les plus sombres d’Internet. Certains décrivent des abus sexuels d’enfants, des meurtres, des suicides, des actes de tortures ou d’automutilation, de l’inceste…«Classifier et filtrer les contenus blessants (texte et images) est une étape nécessaire pour diminuer le nombre de contenus violents et sexuels présents dans les bases de données d’entraînement et créer des outils qui peuvent détecter ces contenus», a justifié OpenAI.

Trois contrats pour un montant de 200 000 dollars ont été signés avec Sama – qui s’est concentré sur l’étiquetage des agressions sexuelles, des discours haineux, et des contenus violents. Les contrats stipulent qu’OpenAI paye 12,50 dollars par heure pour le travail effectué, soit 6 à 9 fois ce que touchaient les employés en bout de chaîne. Ces derniers ont témoigné devoir lire et étiqueter entre 150 à 250 extraits de texte en neuf heures de travail. Ceux-ci pouvaient comprendre de 100... à plus de 1 000 mots. Le tout pour un salaire allant de 1,32 à 2 dollars de l’heure, selon leur ancienneté et leur performance. Sama s’est défendu et affirmant que les salariés devaient labelliser 70 extraits de texte en neuf heures, et qu’ils peuvent gagner entre 1,46 et 3,74 dollars par heure après les taxes. Une bataille sur les chiffres et également sur l'éthique.

Des travailleurs payés à la tache

OpenAI ne donne pas les noms de ses partenaires extérieurs. Il est ainsi difficile de savoir si elle travaille avec d’autres entreprises. La discrétion autour de ces travailleurs, qui jouent pourtant un rôle fondamental dans le secteur, contribue à mettre en avant l’efficacité d’une technologie qui n’a d’artificielle que le nom. Les entreprises technologiques sont pourtant dépendantes de ces petites mains étiquetant les données ou vérifiant que les modèles d’IA ne se trompent pas.

Les entreprises de la tech se tournent vers des prestataires comme Sama ou des plateformes comme Mechanical Turk (MTurk) d’Amazon. Cette dernière permet d’embaucher des indépendants pour une tâche précise. Elle est très largement utilisée pour de l’étiquetage de données. Un travail fastidieux et mal rémunéré. Un article de Vice évoque le déséquilibre entre les travailleurs qui réalisent des tâches via Mechanical Turk et les entreprises qui les emploient. Les premiers peuvent facilement ne pas être rémunérés par des entreprises décidant unilatéralement que le travail n’a pas été correctement réalisé. Les recours sont complexes pour un travail qui rapporte peu.

Autant de sujets qui interrogent la place de l’éthique dans le développement des modèles d’IA. Externaliser des tâches auprès d’une main d’œuvre à bas coût n’est pas nouveau. Cette pratique est largement répandue dans d’autres secteurs industriels. Le monde de demain reprend finalement les codes du monde d’aujourd’hui. Une répétition de l'histoire dommageable : mieux rémunérer ces travailleurs pourrait aboutir à des bases de données étiquetées plus consciencieusement. Et contribuer à améliorer les algorithmes.

[Science-friction] Derrière le succès de ChatGPT, les petites mains cachées de la tech

Quelle réglementation s’applique à ChatGPT ?

L’étiquetage des contenus toxiques

Du contenu issu des recoins les plus sombres d'Internet

Des travailleurs payés à la tache

À lire aussi