L'intelligence artificielle générative se diffuse dans l'entreprise grâce au RAG

La vague ChatGPT a aussi déferlé sur les entreprises, sans prévenir. Par sa simplicité d'usage et son accès libre, l'agent conversationnel d'OpenAI avait déjà conquis 100millionsd'utilisateurs en janvier 2023, un mois après son lancement. Dans les entreprises, nombre de cols blancs ont rapidement testé, voire adopté, l'outil pour rédiger des notes de synthèse, traduire des textes complexes et même trouver des idées pour alimenter leurs PowerPoint. Devant cette lame de fond, les directions des systèmes d'information (DSI) ont dû réagir. La version grand public de ChatGPT n'offrait aucune garantie quant à la confidentialité des données soumises au chatbot et celles-ci pouvaient être réutilisées dans l'entraînement des modèles.

La première réaction fut d'exploiter ChatGPT sur une instance privée sur le cloud Azure, Microsoft étant le partenaire numéro un d'OpenAI. C'est ce que firent Axa, dès août 2023, sur un périmètre restreint, et, quelques semaines plus tard, Veolia, qui a ouvert son Secure GPT à destination de ses 231 000 collaborateurs. De nombreuses alternatives existent désormais, notamment grâce à l'open source. Mais la première phase exploratoire des usages des grands modèles de langage (LLM) en a fait émerger un, aujourd'hui dominant dans l'entreprise : le RAG.

LE RAG pour Obtenir des réponses pertinentes... et leurs sources

L'acronyme de « retrieval augmented generation », que l'on peut traduire par « génération augmentée de récupération », désigne un agent conversationnel aux capacités accrues par une base de documents à sa disposition. L'essor du RAG tient au fait de pouvoir stocker les informations importantes de documents dans des bases de données dites vectorielles : les mots y sont représentés sous forme de vecteurs, dont la proximité traduit la proximité sémantique, ce qui permet de faire des recherches sémantiques.

Ainsi, une entreprise ayant chargé ses bases documentaires dans une base virtuelle pourra envoyer un chatbot piocher des documents utiles pour répondre à une question donnée [voir l'infographie ci-dessus]. L'intérêt est non seulement d'obtenir des réponses plus pertinentes, mais aussi les sources permettant d'en savoir plus et de vérifier l'exactitude de la réponse. Une précaution de rigueur, étant donné la tendance des LLM à halluciner.

L'architecture RAG

Plébiscitée par les grandes entreprises, l'architecture RAG (« retrieval augmented generation») permet d'enrichir les réponses d'un grand modèle de langage (LLM) avec les données issues d'un corpus de documents privés. Les informations de l'ensemble des documents sont stockées dans une base de données sous forme de vecteurs («embeddings»). En fonction de la proximité ou de l'éloignement sémantique de ces vecteurs par rapport au prompt de l'utilisateur, les fragments de textes correspondants (« chunks») sont fournis au LLM avec la requête. C'est la phase de récupération(«retrieval»). Le LLM va générer sa réponse en langage naturel en exploitant ces données additionnelles et en citant ses sources. L'atout majeur de cette approche est la rapidité et le faible coût de sa mise en œuvre, car il n'est pas nécessaire de se livrer à un réapprentissage du LLM.

La méthode offre enfin l'avantage d'une plus grande simplicité et d'un moindre coût : nul besoin en effet de réentraîner le LLM sur les données d'entreprise comme l'ont fait Bloomberg, avec un LLM de 50 milliards de paramètres entraîné sur les données financières, et Morgan Stanley, sur 100 000 documents internes. Une telle démarche est très consommatrice de ressources de calcul et peut aussi imposer un gros travail sur les documents, alourdissant les coûts.

Les systèmes de RAG peuvent tirer profit de la multitude de LLM, y compris ceux à taille réduite, développés pour réduire la consommation de calcul non seulement lors de leur entraînement mais aussi dans leur phase d'usage. L'évaluation des performances des modèles est alors cruciale. Elle peut s'appuyer sur un grand nombre de benchmarks pour LLM, comme GLUE et SuperGLUE pour la compréhension du langage naturel, BLEU (Bilingual evaluation understudy) pour la qualité des traductions, ROUGE (Recall-oriented understudy for gisting evaluation) pour les capacités de synthèse, entre autres. La création et l'usage de LLM spécialisés dans un domaine comme le droit ou la médecine marque aussi une tendance qui surfe sur le besoin de pertinence des réponses à moindre coût.

Enfin, de nouveaux usages de l'IA générative apparaissent dans les entreprises, en particulier pour la supply chain. Grâce à elle, la start-up Docloop revendique désormais 100% de reconnaissance automatique des adresses, y compris en Chine. De son côté, Vekia l'exploite pour générer de nouveaux scénarios de promotions commerciales et ainsi alimenter ses algorithmes d'optimisation pour la prévision de la demande.

Les ateliers ne sont pas en reste. En novembre 2023, Microsoft et SymphonyAI annonçaient Industrial LLM, le plus gros LLM dédié à l'industrie, censé pouvoir interagir avec les algorithmes prédictifs classiques ainsi qu'avec les données des progiciels, les systèmes de pilotage de la production (MES), les systèmes de gestion de la qualité (QMS) et les systèmes de gestion intégrés (ERP). Il serait ainsi théoriquement possible de demander à l'IA une recommandation selon les vibrations mesurées sur un moteur ou un diagnostic de panne en langage naturel.

L'IA générative pourrait bien aussi arriver en force dans les bureaux d'études, et plus seulement pour faire du knowledge management.Certains industriels songent déjà à des IA capables d'apprendre à dessiner des circuits électroniques ou des plans d'architecture... Tout semble possible. Les développeurs d'applications sont en train de montrer la voie. Les outils tels que GitHub Copilot peuvent générer un squelette d'application, aider le développeur à corriger les bugs et les failles de sécurité dans son code… McKinsey évoque une réduction de 35 à 45%du temps consacré à l'écriture du code source, de 45 à 50 % pour la documentation du code et de 20 à 30%pour la réécriture du code existant. Ces résultats obtenus avec une IA générative spécialisée sont-ils transposables à d'autres secteurs ? L'effervescence en la matière et l'arrivée quasi quotidienne de nouveaux LLM devraient rapidement le dire. D'ores et déjà, les entreprises accélèrent, à l'instar de Schneider Electric, Roquette et Suez Digital Solutions.

Schneider Electric : Optimiser la relation client

C'est le centre d'appels, le customer care center, qui est le premier à avoir bénéficié des capacités de l'IA générative chez Schneider Electric. Les agents ont accès à des FAQ dans lesquelles ils trouvent les informations nécessaires pour répondre aux questions des clients. « Nous avons vectorisé toutes ces connaissances qu'il y a dans nos FAQ, et notre knowledge bot envoie une proposition de réponse à l'agent en lui indiquant à partir de quels documents cette réponse a été élaborée, résume Philippe Rambach, directeur général responsable de l'IA de Schneider Electric. Il faut prêter attention à deux points lors d'un tel déploiement : d'une part le besoin d'adoption par les utilisateurs, raison pour laquelle nous indiquons les références dont est tirée la réponse, et d'autre part, le risque d'hallucination et d'erreur. » C'est pourquoi l'IA n'est pas en contact direct avec les clients et l'agent vérifie l'information retournée par l'IA avant de la communiquer au client.

L'application est utilisée dans la production en Amérique du Nord depuis octobre 2023. Elle a été déployée, depuis janvier, dans tous les pays anglophones, francophones et hispanophones (1 100 agents concernés). Les autres déploiements sont réalisés au niveau des directions RH et DSI. « L'objectif est de créer un chatbot doté d'un tel niveau de qualité de réponse et d'intégration aux systèmes internes que plus personne ne cherche à le “bypasser” pour avoir un interlocuteur humain. »

Un autre cas d'usage en cours d'expérimentation chez l'industriel est lié à la génération de textes. Il s'agit de la rédaction de rapports pour les techniciens d'intervention, ou encore de la rédaction de réponses aux appels d'offres. Ce deuxième cas est beaucoup plus complexe, mais c'est l'un des sujets sur lequel travaille aujourd'hui l'équipe IA de Schneider Electric. « Notre stratégie consiste à nous appuyer sur des solutions lorsqu'elles existent sur le marché, par exemple dans le développement de logiciels avec Github Copilot ou encore les Copilot Microsof t sur Teams pour la rédaction de comptes rendus de réunion. »

Enfin, Schneider Electric commence à embarquer l'IA générative dans ses produits. C'est le cas de sa solution EcoStruxure Resource Advisor. « L'IA générative nous permet de proposer une interface homme-machine en langage naturel extrêmement efficace. Plutôt que devoir dérouler des menus, cliquer sur de multiples options, l'utilisateur peut demander comment est générée son empreinte carbone en langage naturel et le système peut lui dire, usine par usine, où se trouvent les équipements les plus producteurs d'émissions de CO2 .»

Roquette : Réinventer le knowledge management

Leader mondial des ingrédients d'origine végétale et fournisseur majeur d'excipients pharmaceutiques, le groupe Roquette, qui compte 10 000 personnes, est présent dans plus de 100 pays. L'industriel a proposé à ses salariés RoqGPT, un chatbot équivalent de ChatGPT mais offrant des services correspondant à ce que les utilisateurs veulent faire le plus souvent, comme améliorer un texte en anglais avant de le diffuser. « Tous les prompts de nos collaborateurs étant confidentiels, nous avons lancé un sondage afin de remonter les besoins et les idées sur ce qu'ils voulaient trouver sur RoqGPT lors de la prochaine itération », explique Pierre-Louis Bescond, le responsable des données et analyses avancées.

« En analysant notre trafic réseau sur le premier trimestre 2023, nous avons constaté que nous avions, en interne, environ 500 utilisateurs réguliers de ChatGPT. Nous avons alors pris conscience que nous devions leur proposer l'équivalent dans un environnement sécurisé. Nous avions déjà un partenariat avec Azure, et quand Microsoft a ouvert des accès à Azure OpenAI, nous avons souscrit à cette offre. Dès lors, nous avons commencé à ouvrir les accès à notre solution interne que nous avons rebaptisée RoqGPT. »

PIERRE-LOUIS BESCOND, Responsable des données et analyses avancées de Roquette

Un premier cas d'usage a été développé pour le service R&D qui dispose d'un corpus de plusieurs milliers de documents. « Le knowledge management tel qu'il était pratiqué jusqu'à présent rendait ce type de recherche relativement compliquée, alors que le RAG permet de poser les questions en langage naturel. » Pour le responsable, les RAG sont de mieux en mieux packagés parles fournisseurs de services et s'il y a sept ou huit mois il fallait implémenter des technologies telles que LangChain pour mettre en œuvre ce type de solution, aujourd'hui, c'est une fonctionnalité qui est accessible sur Azure en quasiment un clic.

« L'approche s'est considérablement simplifiée, comme pour les algorithmes de datascience et de machine learning qui sont devenus une commodité sur les plateformes cloud. Il y a encore cinq ans les datascientists pouvaient être très fiers de leurs modèles car cela demandait un travail très spécifique. » Aujourd'hui, ceux-ci disposent de modèles pré-entraînés accessibles via des API et leur savoir-faire va de plus en plus se concentrer sur la compréhension des besoins métiers et moins sur l'apprentissage et la gestion de réseaux de neurones. Cependant, il reste encore des défis, notamment concernant la confidentialité des données. Chaque application doit garantir une parfaite étanchéité des données qu'elle traite.

Autre sujet sur lequel Pierre-Louis Bescond a consacré beaucoup d'efforts: l'évaluation de la pertinence des réponses du modèle dans la durée. « Une approche classique consiste à dresser une liste de questions-réponses avec un ou plusieurs experts et ensuite à analyser les réponses du modèle pour en évaluer la qualité. Ce travail sur la qualité des réponses nous permettra à l'avenir de benchmarker d'autres modèles, notamment les LLM open source tels que LLama ou Mistral et de ne pas dépendre d'un écosystème unique. »

Suez Digital Solutions : Cap sur les données non structurées

Suez a commencé à exploiter des modèles d'IA il y a une dizaine d'années, avec des modèles de machine learning qui exploitaient les données structurées du groupe, notamment celles issues des capteurs et installations industrielles. « Nous avions déjà beaucoup travaillé sur le volet analyse de patterns, notamment l'analyse vibratoire dans le cadre de la maintenance préventive puis prédictive de nos équipements industriels », explique Frédéric Charles, directeur smart cities solutions. « L'IA générative va nous permettre de traiter des cas d'usage complémentaires à ceux déjà traités par nos datascientists et par des algorithmes déjà en place, notamment des algorithmes de machine learning ou de deep learning. »

Pour le responsable, aborder l'IA générative implique de s'appuyer sur un socle technique et une gouvernance de la donnée déjà bien établie. « Nos IA non génératives exploitaient jusqu'à maintenant des données structurées, mais l'IA générative va nous permettre de faire le lien avec le multimédia.» L'industrie la identifié de nombreux cas d'usage de l'IA générative amenée à traiter des sons, images et vidéos.

Pour l'heure, Suez exploite ChatGPT sur Microsoft Azure, afin d'avoir la garantie que les données restent bien dans un environnement Suez fermé et sécurisé. « Les premiers cas d'usage de l'IA générative demandés par un grand nombre d'entités métiers sont apparus dans le partage de la connaissance et l'analyse de documents, ajoute Claire Mathieu, la directrice data &IA. Il s'agit de pouvoir interagir avec la documentation technique, contractuelle, l'analyse des appels d'offres ou encore la création de contenus, notamment de la synthèse de documents. » Pour le service juridique, la responsable s'apprête aussi à tester une IA d'aide à la rédaction des propositions de clauses contractuelles sur la base des contrats passés.

Suez a également mis en œuvre un usage moins conventionnel de l'IA générative : la génération de données synthétiques. « L'IA générative peut aussi être précieuse pour nos datascientists pour alimenter l'apprentissage des modèles d'IA. Ainsi, dans le domaine de la vision par ordinateur, nous avons créé des images de déchets non conformes par IA générative afin de pallier le manque d'images disponibles. Nous avons démarré par l'image car ce sont des projets qui sont au plus proche de la phase de déploiement, mais nous ouvrirons le champ des possibles sur d'autres médias dans l'avenir. » En outre, si Suez exploite de nombreuses installations industrielles, il conçoit aussi des usines et des installations industrielles. « Lorsqu'on livre un ouvrage, il faut réaliser toute une intégration documentaire sur l'ensemble de l'installation et de ses équipements, explique Frédéric Charles. L'IA générative va nous aider à générer la documentation d'installations industrielles parfois très complexes et fournir un assistant à ceux qui livrent des unités de production. »

Rechercher le meilleur compromis entre la taille du modèle et son efficacité

LAURENT DAUDET Cofondateur et directeur général de LightOn

Aujourd'hui, nous estimons que le meilleur compromis entre la taille du LLM et son efficacité se situe autour de 40 milliards de paramètres, soit la taille de notre modèle Alfred. Nous pouvons le déployer avec tout son environnement Paradigm sur l'architecture informatique d'un industriel. Ce que nous avons notamment fait chez Safran, pour une application RAG sur leurs documentations techniques, avec de grosses volumétries de données et un jargon très particulier. Entraînée sur 500 milliards de mots, celle-ci a démontré une performance de l'ordre de celle de GPT 3.5 Instruct, un modèle très puissant sans être énorme. Les modèles qui dépassent 100 milliards de paramètres sont très lourds à opérer. Ils nécessitent énormément de serveurs, les temps de réponse sont très longs et très coûteux en exploitation. D'autres industriels, notamment dans les transports, envisagent de tels déploiements pour les techniciens de maintenance, sur tablette numérique. Il s'agit de systèmes connectés. Des demandes émergent pour des déploiements en local, ce qui va nécessiter des modèles plus petits et adaptés à ces nouveaux cas d'usage.

L'intelligence artificielle générative se diffuse dans l'entreprise grâce au RAG

LE RAG pour Obtenir des réponses pertinentes... et leurs sources

L'architecture RAG

Rechercher le meilleur compromis entre la taille du modèle et son efficacité

À lire aussi