Mettre au point des modèles d’intelligence artificielle (IA) performants nécessite d’accéder aux bons jeux de données. Ce qui n’est pas toujours évident. Surtout lorsque des données personnelles ou confidentielles entrent en jeu. Le CEA-List, un institut de recherche rattaché au CEA, se penche sur ce sujet en mêlant apprentissage fédéré et blockchain. Ce projet, nommé Fantastyc, vise à mettre au point une plateforme permettant de faire se rencontrer des entreprises ou développeurs ayant des modèles d’IA à entraîner et les personnes possédant les données adaptées. L'objectif : permettre l’entraînement des modèles, sans avoir à partager les données. Chaque participant est rétribué à hauteur de sa participation.
Une solution plus robuste avec la blockchain
«L’objectif est de garantir la confidentialité des données utilisées pour entraîner les algorithmes sans altérer ces derniers», résume Cédric Gouy-Pailler, chef du laboratoire instrumentation intelligente, distribuée et embarquée (LIIDE). Pour cela, le CEA-List mise sur l’apprentissage fédéré. Cette solution «consiste à mettre en commun les connaissances de chacun sans partager les données», explique Cédric Gouy-Pailler. La tâche d’apprentissage est distribuée entre les acteurs détenant les données. Ces dernières n’ont pas à être partagées : le modèle vient apprendre directement sur chaque jeu de données, puis les paramètres appris sont remontés sur un serveur central qui unifie l’ensemble.
«Mais l’ensemble des paramètres ne sont pas partagés», ajoute Cédric Gouy-Pailler. A toutes ces précautions s'ajoute un système de bruitage : un modèle statistique mis au point par les équipes du CEA-List vient précisément dire quel degré de bruitage ajouter sans que les résultats ne soient dégradés. Cela permet d’éviter que les données originales soient retrouvées grâce à l’inversion du modèle. Autrement dit, qu'une personne malveillante tente d'inverser le traitement effectué pour retrouver les données originales. Même avec l’ajout de bruitage, il n’est pas nécessaire d’avoir une grosse quantité de données pour participer à la phase d’apprentissage. L’idée est de diversifier l’information.
Un intérêt en santé et... chez les fabricants de machines industrielles
Problème : si un participant est corrompu, il peut perturber le processus d’apprentissage et donc atténuer l’efficacité du modèle. Pour l'éviter, un système de vote vient compléter le processus : un comité central valide toutes les données et modèles qui transitent dans le réseau afin de garantir leur probité. Et les informations partagées par un participant sont comparées aux autres. Si elles sont très différentes, elles peuvent être retirées ouleur poids dans le modèle final atténuée. A noter que l’ajout d’une couche de blockchain renforce la robustesse de la plateforme en assurant la traçabilité de tout ce qui s'y passe. Cette même technologie doit servir à rétribuer les participants selon la connaissance partagée. Le but étant d’inciter un maximum de personnes à participer à l’apprentissage des modèles d’IA.
Au-delà des besoins évidents dans le domaine de la santé – la start-up française Owkin propose d’ailleurs des solutions dans ce secteur –, les fabricants de machines industrielles pourraient également bénéficier d’une telle plateforme. Les propriétaires de ces machines ont la maîtrise des données produites par leurs appareils, mais les fabricants auraient intérêt à y accéder pour améliorer leurs produits et en développer de nouveaux. Le contrôle non destructif dans le nucléaire pourrait aussi être un débouché comme globalement l’ensemble des secteurs qui réfléchissent actuellement à des solutions (comme le chiffrement par exemple) permettant le transfert des données confidentielles pour des sujets d’IA.
Le CEA-List assure avoir déjà travaillé avec des industriels sur certaines parties de son protocole. Un déploiement de la plateforme ouverte va avoir lieu en novembre pour éprouver les systèmes et obtenir un premier retour sur les briques technologiques. La commercialisation de la solution devrait suivre.



