Comment l'équipe Thoth de l'Inria tente d'établir les fondements théoriques du machine learning

Tout le dossier

À Grenoble, l'équipe Thoth de l'Inria se consacre à la théorie du machine learning. Objectif : mieux comprendre les réseaux de neurones pour assurer la robustesse des modèles et réduire leur besoin de calcul et de données.

Charlotte Mauger

Publié le 7 novembre 2024 à 10h00

Réservé aux abonnés

Equipe Thoth INRIA Grenoble — De gauche à droite, Julien Mairal, le responsable de l'équipe Thoth, Julien Zhou, doctorant, et Pierre Gaillard, chercheur.

« On ne tente pas de développer les prochains ChatGPT ou Midjourney, assure Julien Mairal, sur la terrasse de la cafétéria de l'Inria, à Grenoble, face au parc naturel de la Chartreuse. Ce qui nous intéresse, c'est de comprendre les principes de ces modèles géants et de savoir comment les exploiter une fois diffusés. » Depuis douze ans, le chercheur est à la tête de l'équipe Thoth -une trentaine de membres permanents, postdoctorants et doctorants, répartis dans une dizaine de bureaux-, qui étudie la théorie de l'apprentissage statistique, ou machine learning. « Le contexte de nos travaux n'est plus le même qu'en 2012 », sourit-il. Aujourd'hui, l'intelligence artificielle est sur toutes les lèvres.

L'importance des recherches de cette équipe se comprend aisément : « Dans l'apprentissage statistique, la pratique va plus vite que la théorie », résume Julien Mairal. Son essor impressionnant, depuis quinze ans, s'est fait essentiellement à coups de tâtonnements empiriques. « Et certains aspects théoriques nous échappent encore. Par exemple, on aimerait comprendre pourquoi ces gros réseaux de neurones fonctionnent aussi bien. »

Ouvrir les boîtes noires

Un ordinateur, un tableau blanc. Dans son bureau aussi sobre que celui de Julien Mairal, le chercheur Pierre Gaillard précise : « Certains modèles de machine learning simples peuvent être décrits par une ou plusieurs équations. » Son écran affiche la formule décrivant un algorithme d'apprentissage séquentiel visant à créer le meilleur trader possible. Une seule petite phrase mathématique, traduisant une recherche de minimum. « Mais les algorithmes de deep learning se comportent davantage comme des boîtes noires. Ils ne sont donc pas très bien compris et moins faciles à analyser. »

Cette quête de compréhension, de théorie, est cruciale pour assurer la robustesse des modèles d'apprentissage. Avec certains modèles, il n'est en effet pas rare qu'une donnée d'entrée subtilement modifiée perturbe fortement et de manière non contrôlée la sortie. L'origine de cette faille est encore mal comprise et pose d'énormes problèmes pour les applications critiques comme les transports. À Berkeley, en Californie, une équipe spécialisée dans la sécurité avait ainsi démontré que de petits autocollants anodins placés sur un panneau de signalisation pouvaient pousser une voiture Tesla à confondre un stop avec une limitation de vitesse.

Nous voulons construire des modèles avec des garanties théoriques, dont la sortie reste stable avec une entrée légèrement transformée
— Julien Mairal

Vers une IA frugale

L'appétit infini des grands modèles en termes de ressources de calcul et de données est une autre limite que la théorie pourrait permettre de dépasser. « On voudrait changer la trajectoire de l'IA dont l'entraînement demande des ressources énormes », annonce le chercheur. C'est d'ailleurs dans ce but qu'il a monté le projet Apheleia, doté d'une bourse européenne ERC consolidator grant. Pour atteindre une IA plus frugale, il souhaite encoder du savoir dans le modèle avant de l'entraîner. « On voudrait que le réseau de neurones n'apprenne pas ce qu'on connaît déjà, mais qu'il se concentre sur ce qu'on a du mal à modéliser. »

Imposer par exemple à un modèle générant des matériaux de respecter les lois physiques permet de le guider vers des résultats plus pertinents. Un tel modèle, inspiré par la physique (Pinn), sera probablement plus efficace en calcul et moins gourmand en données. « Et cela augmente le sentiment de confiance », ajoute le chercheur.

Apprentissage décentralisé

Hadrien Hendrikx travaille, lui, sur la représentation des données. « Une fois qu'on a défini le modèle, comment distribue-t-on la donnée sur les unités de calcul pour lui faire apprendre? Et quand ces unités communiquent-elles entre elles ? », interroge-t-il. Selon la puissance des unités de calcul et le niveau de confidentialité des données, la représentation idéale diffère, ce qui joue sur la rapidité de l'apprentissage.« Ce qui m'intéresse, c'est l'apprentissage décentralisé. En général, les unités de calcul communiquent avec un serveur central. Je développe des méthodes où les unités parlent à leurs voisines de proche en proche. »

La diversité des recherches menées par l'équipe Thoth est un atout. « Comme le machine learning est mal compris et mal décrit, c'est utile d'avoir un spectre vaste de sujets, indique Julien Mairal. D'autant que des liens peuvent apparaître entre deux questions de manière fortuite. » Cela pourrait in fine permettre de lever une part du mystère sur ces boîtes noires.