LLM, Token, RAG... Notre antisèche magique pour comprendre les nouveaux mots de l'IA

Token, LLM, RAG... Derrière les outils d'OpenAI ou de Google, un nouveau vocabulaire fleurit avec l'intelligence artificielle. L'Usine Nouvelle vous propose une courte antisèche pour y voir plus clair.

Léna Corot

Publié le 8 juin 2024 à 11h00

Réservé aux abonnés

ChatGPT OpenAI — ChatGPT est une IA générative qui utilise un LLM. Un peu compliqué ? Jetez un oeil à notre antisèche.

En quelques années, l'intelligence artificielle est devenue incontournable dans les conversations et s'immisce petit à petit dans le monde du travail et de la vie quotidienne. Si la plupart d'entre-nous comprend ce qu'est ChatGPT et à quoi il sert, il est plus difficile d'expliquer d'autres termes plus sophistiqués qui sont liés à l'IA. L'Usine Nouvelle vous propose une antisèche... Écrite par une main humaine.

IA générative

Propulsée sur le devant de la scène par ChatGPT, cette brique de l’IA concerne les réseaux de neurones capables de générer du contenu (texte, image, vidéo, code, son, molécule...).

LLM

Un grand modèle de langage (LLM, pour Large language model) est un réseau de neurones entraîné sur de très grandes quantités de données à l’aide de techniques d’apprentissage non supervisé ou semi-supervisé. Les plus connus sont GPT-4, de l’américain OpenAI ; Mixtral 8x7B, du français Mistral AI ; et Llama-3, de Meta.

Token

Cette unité – qui correspond à un mot, une partie de mot, une syllabe ou un caractère – est exploitée par le modèle pour apprendre une tâche et pour représenter le langage naturel dans les IA génératives. Ce sont les algorithmes qui découpent le texte en tokens.

Prompt

C’est l’instruction, la requête ou la question transmise au modèle. Il doit être exprimé en langage naturel dans une langue comprise par le modèle.

Hallucinations

Une hallucination correspond à une réponse incorrecte émise par un grand modèle de langage. Une IA générative peut inventer un fait manquant, comme un chiffre d’affaires, ou donner une définition à une expression inexistante, imaginée par son interlocuteur, par exemple.

Modèle open source

La définition d’un modèle open source diffère de celle d’un logiciel open source et suscite encore le débat. Les éléments publiés peuvent englober l’architecture, les paramètres et certaines informations sur les données d’entraînement. Ce type de modèle est par définition plus transparent et façonnable par les entreprises.

RAG

La génération augmentée de récupération (retrieval augmented generation - RAG, en anglais) consiste à étendre les capacités d’un LLM en le connectant à une base de données, souvent interne à une entreprise. Le LLM accède alors au vocabulaire spécifique d’un domaine et met à jour ses connaissances. Une méthode souvent utilisée pour créer des outils de recherche documentaire.

Fine-tuning

Ce procédé consiste à spécialiser un LLM sur une tâche spécifique en l’entraînant sur un nouveau jeu de données (appartenant souvent à l’entreprise). Cette technique est plus complexe, longue et coûteuse que le RAG.