[Succès et déboires de l’IA] ChatGPT, un outil bluffant grâce à un apprentissage dopé… à l’humain

Succès et déboires de l’IA. Episode 1/5. Pour le premier épisode de notre série sur les succès et déboires de l’intelligence artificielle en 2022, décryptage du chabot ChatGPT, publié par OpenIA. Impressionnant, l’outil a surtout progressé grâce à un apprentissage par renforcement basé sur des validations humaines, mais sans avoir vraiment gagné en intelligence.

Marion Garreau

Publié le 26 décembre 2022 à 14h00

Réservé aux abonnés

intelligence artificielle — Déjà remarquée avec son programme de génération d'images Dall-E, l'entreprise américaine OpenAI a créé le buzz fin 2022 avec son agent de conversion ChatGPT, accessible à tous gratuitement.

Il est depuis quelques semaines sur toutes les lèvres : ChatGPT, le nouvel agent conversationnel de l’entreprise américaine OpenAI. Utilisable gratuitement par n’importe qui, via la création d’un compte sur une plateforme en ligne, cet outil constitue la première vitrine pour le grand public des progrès réalisés depuis quelques années par les programmes de traitement automatique du langage naturel, une approche mathématiques du langage où l'algorithme apprend à générer du texte en étant entraîné grâce à des corpus de milliards de textes.

Sur les réseaux sociaux, les commentaires sont dithyrambiques. Il faut dire que ChatGPT répond à n’importe quelle question par un texte cohérent. Capable donc de remplacer un moteur de recherche, il pourrait aussi participer à automatiser bien des tâches, de l’écriture d’un mail au résumé de texte. Son côté "bluffant" tient aussi à son caractère créatif. Un point que s’est amusé à tester un jeune papa de la rédaction de L’Usine Nouvelle !

Biais sexistes dès la première ligne

A la requête d’écrire un conte ayant pour héros un enfant nommé Nino, le chatbot a répondu par un texte d’une petite dizaine de lignes. Une fable avec morale bien construite et rédigée sans la moindre faute ! Si c’est impressionnant, il ne faut pas pour autant surestimer l’outil.

D’abord parce que comme le programme précédent et sur lequel il est basé, nommé GPT3, ChatGPT n’est pas exempt de biais. Ceux sexistes sont apparus tout de suite dans le test fait par L’Usine Nouvelle. Dans le premier conte, le héros de l’histoire est dès la première phrase qualifié de "garçon très curieux et déterminé". Nouvelle requête, mais en utilisant la version féminine du prénom. Cette fois-ci, ChatGPT met en scène une "fillette très jolie et très douce". De quoi rappeler que ChatGPT ne fait que reproduire ce que lui montrent les milliards de données textuelles qu’il a ingurgitées pour s’entraîner.

Entraîné à faire des réponses … jugées bonnes par l’humain

Cet entraînement a tout de même été optimisé et permet à ChatGPT de donner des résultats de plus en plus crédibles par rapport aux anciens modèles, juge Chloé Clavel, enseignante chercheuse à Télécom Paris. Mais cela en grande partie grâce … à davantage d’intervention humaine dans l’entraînement ! «Pour améliorer ChatGPT, les chercheurs d'OpenAI ont utilisé la même méthode que celle employée avec leur modèle InstructGPT [qui avait servi à améliorer GPT3] : recourir à une phase d'apprentissage par renforcement, une méthode qui récompense l'algorithme pour chaque bonne réponse afin de le pousser à s'améliorer, et ce avec une intégration poussée de l'humain dans la boucle, observe cette spécialiste du traitement automatique du langage. Sur leur site, ils expliquent avoir fait évaluer par des humains les réponses fournies par le modèle pour ensuite l’entraîner à nouveau en le récompensant quand ses réponses avaient été jugées pertinentes par les humains.» De quoi pousser le modèle à donner de plus en plus de réponses que nous, humains, jugeons bonnes !

« Pas de bond méthodologique »

«Cette méthode montre à ChatGPT comment mieux faire mais ne permet pas de retracer les raisonnements logiques sous-jacents aux réponses fournies, considère Chloé Clavel. On ne voit pas de bond en avant méthodologique dans ce qu’a fait ici OpenAI. Mais si on l’évalue, il sera peut-être quand même jugé meilleur que les programmes concurrents, du fait qu’il y ait beaucoup de données et d’humains derrière.»

Disposer d’énormément de données d’apprentissage est en effet un autre atout dans la manche d’OpenAI. En mettant ses outils à disposition d’une grosse communauté de chercheurs mais aussi d’entreprises, comme elle l’avait fait pour GPT3, l’entreprise initialement fondée par Elon Musk cumule les données d’apprentissage, bien utiles pour continuer à faire progresser ses modèles. «Il reste maintenant à évaluer scientifiquement ChatGPT, en mettant en place des protocoles expérimentaux, afin d’observer la qualité de ses résultats sur des tâches spécifiques et de pouvoir les comparer avec ceux des chatbots concurrents – que sont notamment LaMDA de Google, DialoGPT de Microsoft et BlenderBot de Meta», rappelle Chloé Clavel. Un point important pour bien comprendre à quels usages peuvent servir ces agents conversationnels. Une fois passé l’effet «wahou» de leur utilisation ludique.

[Succès et déboires de l’IA] ChatGPT, un outil bluffant grâce à un apprentissage dopé… à l’humain

Biais sexistes dès la première ligne

Entraîné à faire des réponses … jugées bonnes par l’humain

« Pas de bond méthodologique »

À lire aussi