En quelques années, l'intelligence artificielle est devenue incontournable dans les conversations et s'immisce petit à petit dans le monde du travail et de la vie quotidienne. Si la plupart d'entre-nous comprend ce qu'est ChatGPT et à quoi il sert, il est plus difficile d'expliquer d'autres termes plus sophistiqués qui sont liés à l'IA. L'Usine Nouvelle vous propose une antisèche... Écrite par une main humaine.
IA générative
Propulsée sur le devant de la scène par ChatGPT, cette brique de l’IA concerne les réseaux de neurones capables de générer du contenu (texte, image, vidéo, code, son, molécule...).
LLM
Un grand modèle de langage (LLM, pour Large language model) est un réseau de neurones entraîné sur de très grandes quantités de données à l’aide de techniques d’apprentissage non supervisé ou semi-supervisé. Les plus connus sont GPT-4, de l’américain OpenAI ; Mixtral 8x7B, du français Mistral AI ; et Llama-3, de Meta.
Token
Cette unité – qui correspond à un mot, une partie de mot, une syllabe ou un caractère – est exploitée par le modèle pour apprendre une tâche et pour représenter le langage naturel dans les IA génératives. Ce sont les algorithmes qui découpent le texte en tokens.
Prompt
C’est l’instruction, la requête ou la question transmise au modèle. Il doit être exprimé en langage naturel dans une langue comprise par le modèle.
Hallucinations
Une hallucination correspond à une réponse incorrecte émise par un grand modèle de langage. Une IA générative peut inventer un fait manquant, comme un chiffre d’affaires, ou donner une définition à une expression inexistante, imaginée par son interlocuteur, par exemple.
Modèle open source
La définition d’un modèle open source diffère de celle d’un logiciel open source et suscite encore le débat. Les éléments publiés peuvent englober l’architecture, les paramètres et certaines informations sur les données d’entraînement. Ce type de modèle est par définition plus transparent et façonnable par les entreprises.
RAG
La génération augmentée de récupération (retrieval augmented generation - RAG, en anglais) consiste à étendre les capacités d’un LLM en le connectant à une base de données, souvent interne à une entreprise. Le LLM accède alors au vocabulaire spécifique d’un domaine et met à jour ses connaissances. Une méthode souvent utilisée pour créer des outils de recherche documentaire.
Fine-tuning
Ce procédé consiste à spécialiser un LLM sur une tâche spécifique en l’entraînant sur un nouveau jeu de données (appartenant souvent à l’entreprise). Cette technique est plus complexe, longue et coûteuse que le RAG.



