IA générative dans l'entreprise : adopter un grand modèle de langage open source en 6 étapes

Le futur de l'IA générative en entreprise passera probablement par des grands modèles de langage adaptés aux besoins et contraintes de l'entreprise. Le recours aux modèles open source, qui foisonnent, est une voie séduisante. Mode d’emploi en six étapes.

Kevin Poireault

Publié le 14 décembre 2023 à 10h00

Réservé aux abonnés

Image d'illustration de l'article — Toute une gamme de modèles open source est aujourd’hui disponible pour un usage sur sa propre machine. Leur performance, ici mesurée par le classement OpenLLM de HuggingFace (score sur 100), est en général corrélée à la taille de la mémoire vive nécessaire à leur exécution. Mais pas toujours !

Si l'IA générative est pleine de promesses, il y a fort à parier qu'en entreprise, celles-ci ne seront pas tant réalisées par des ChatGPT ou des Gemini, mais davantage par des grands modèles de langage (LLM) sur mesure. Par leur gigantisme - GPT-4 contiendrait 1000 mille milliards de paramètres - et en raison du modèle économique de leurs créateurs, les plus grands LLM commerciaux ne sont disponibles que via des interfaces de programmation (API) dans le cloud.

Les LLM open source, eux, sont généralement beaucoup plus petits, avec des versions à 3, 7, 13, 30 ou 40 millions de paramètres, notamment. Ils requièrent donc beaucoup moins de puissance de calcul pour l’inférence, peuvent être entraînés sur un jeu de données maison et hébergés en local – ce qui minimise aussi les risques pour la sécurité et la protection des données. En revanche, ils sont aussi bien moins performants que les mastodontes commerciaux. Voici les six étapes pour tirer profit de la puissance des LLM en entreprise, de l’expérimentation individuelle à l’industrialisation en passant par la preuve de concept (PoC) et le produit minimum viable (MVP).

Étape 1 : ChatGPT en mode playground

Le premier enjeu est de pouvoir mettre à la disposition de ses employés une version sécurisée d’un agent conversationnel de type ChatGPT ou Bard. Les plus aventureux pourront même se frotter à des fonctions relativement avancées, comme le mode playground, qui permet de développer un petit cas d’usage en boucle fermée, ou aux plug-in, qui permettent de connecter le chatbot à des applications.

Étape 2 : Tester un LLM open source

En amont d’une véritable PoC, l’équipe chargée de développer l’usage de LLM peut commencer à se faire la main sur de petits LLM open source. HuggingFace, le GitHub de l’IA générative, est idéal pour explorer les modèles. Des logiciels comme LM Studio, Faraday.dev aident à l’installation d’un modèle et sont garnis d’informations utiles.

Étape 3 : La PoC, seul ou accompagné

Il est temps de décider vraiment quel LLM déployer. Un choix qui doit prendre en compte les exigences techniques du modèle (besoins en puissance de calcul et stockage, intégration dans l’environnement de travail…), sa licence (utilisation commerciale, non commerciale, conditions…), son adaptabilité (il existe par exemple des modèles fine-tunés pour suivre des instructions et d’autres pour répondre à des questions). En cas de manque de développeurs en interne, il est possible de se faire accompagner par des entreprises comme LightOn ou Vellum, qui proposent des cas d’usages tout prêts, comme l’utilisation de chatbots connectés à des documents internes.

Étape 4 : Préparer son stack LLM pour un MVP

Une fois la PoC réussie, il s’agit de développer le stack (pile de composants) LLM, d’affiner le modèle avec des techniques de fine-tuning, voire de l’optimiser avec des techniques de compression comme la « quantization » ou la « low-rank adaptation » (LoRA).

Étape 5 : Industrialiser ses cas d'usage

Place au déploiement. Comme l’intelligence est dans le prompt – et que tous les employés ne seront pas des prompt engineers –, il faudra certainement intégrer une bibliothèque de prompts dans le stack LLM.

Étape 6 : Chaining et agents autonomes pour les pro

Les LLM sont adoptés. Aller plus loin passe par l’expérimentation de procédés avancés, comme le « chaining » – combinaison de plusieurs LLM – sur LangChain ou le développement d’agents autonomes avec des techniques comme AutoPrompt, Prefix Tunig et P-tuning.