On l’a décrit capable « de rivaliser avec Ernest Hemingway », voire de « surclasser Virginia Woolf », mais aussi accusé d’associer les musulmans à la violence et au terrorisme, les juifs à l’amour de l’argent. Le modèle d’intelligence artificielle GPT-3, développé par l’américain OpenAI, avait fait couler beaucoup d’encre. Figurant parmi les IA les plus performantes au monde, il en symbolise le pire et le meilleur à la fois.
Des critiques qui ont poussé la firme, fondée par l’entrepreneur en série Elon Musk et cofinancée par Microsoft, à développer de nouveaux modèles, appelés Instruct-GPT. Dans un post de blog du 27 janvier, les écrits générés par ces modèles sont décrits comme « plus dignes de confiance et moins toxiques » que ceux produits par GPT-3.
Un double entraînement
Revenons d'abord à l’origine du problème. Afin d’apprendre à écrire, GPT-3 a lu près de 500 milliards de mots, soit plus de 150 fois l’encyclopédie Wikipédia dans toutes les langues. En apprenant notamment à partir de textes publiés sur Internet, le programme a aussi intégré leurs défauts : nos biais sexistes, racistes et homophobes, la désinformation et la violence. Pour résoudre ce souci, OpenAI a d’abord tenté de filtrer les « mauvais » éléments de langage des données d’apprentissage. Sauf que cela rendait aussi ses modèles moins performants, en particulier dans les cas où les données sont rares, comme les textes liés à des groupes minoritaires.
Pour développer leurs nouveaux modèles, les chercheurs d’OpenAI se sont finalement tournés vers les techniques dites d’alignement de l’IA. Ainsi, ils ont pris un modèle de GPT-3 parfaitement entraîné et ont enrichi sa formation en lui inculquant ensuite, via l'apprentissage par renforcement, ce qu'il doit dire et quand, en fonction des préférences des utilisateurs humains.
Des réponses évaluées ... par une équipe humaine
Précisément, une équipe humaine a évalué les réponses de GPT-3 à des instructions et les a notées en fonction de leur qualité et leur pertinence. Cela a permis de créer un système de récompense intégré à l’algorithme d'apprentissage par renforcement qui a ensuite entraîné InstructGPT, afin que ce dernier privilégie les réponses faites à la manière de celles appréciées par les humains.
Alors que InstructGPT est désormais le modèle par défaut de l’interface de programmation des applications (API) d’OpenAI, celle-ci affirme que ses clients préfèrent dans 70% des cas la nouvelle version à GPT-3. Un signe encourageant pour les techniques d’alignement de l’IA.



