Capable de rivaliser avec Hemingway comme d’associer les musulmans au terrorisme. Ultra-performante, l’IA GPT-3, développée par OpenAI, comporte aussi des biais. Entraîné par la lecture de près de 500 milliards de mots, dont nombre de documents publiés sur internet, ce générateur de textes a intégré nos biais sexistes, racistes et homophobes, ainsi que la violence.
Pour s’en affranchir, la firme fondée par Elon Musk et cofinancée par Microsoft a développé de nouveaux modèles, appelés InstructGPT, en se tournant vers les techniques d’alignement de l’IA. Une équipe humaine a noté les textes générés par un modèle bien entraîné de GPT-3 en fonction de leur qualité et de leur pertinence. De quoi créer un système de récompense, intégré à l’algorithme d’apprentissage par renforcement utilisé pour entraîner InstructGPT, et donc lui apprendre à privilégier les réponses proches de celles appréciées par les humains. Résultat : ses textes sont présentés comme « plus dignes de confiance et moins toxiques ».

Vous lisez un article publié dans le numéro 3704 de L'Usine Nouvelle - Mars 2022



