Venu de Chine, Deepseek s’est abattu tel un dragon sur le monde de l’IA, à forte imprégnation américaine. Plus précisément le modèle de raisonnement Deepseek-R1, disponible depuis le 24 janvier dernier, qui donne une leçon d’humilité à ChatGPT et consorts. Ses réponses aux requêtes des utilisateurs sont aussi précises et fiables, voire plus, malgré la consommation énergétique relativement modérée requise pour l’apprentissage.
Deepseek-R1 est en effet issu du grand modèle de langage (LLM) Deepseek v3 sorti un mois plus tôt. Lequel, à en croire ses auteurs, n’aurait mobilisé que 2,8 millions d’heures de calcul sur plusieurs milliers de puces graphiques (GPU) de Nvidia. Des chiffres qui sont toujours à relativiser, car ils ne tiennent pas compte les heures passées à exécuter tout ou partie des algorithmes pour tester leur fonctionnement.
Quoi qu’il en soit, c’est environ un dixième de la durée d’entraînement de Lama 3.1 de Meta, aux performances comparables... En considérant un coût de 2 dollars par heure d’utilisation d’un GPU, Deepseek v3 n’aurait coûté que 5,5 millions de dollars, une somme dérisoire dans le secteur.
Poids et code en accès libre
De plus, les accélérateurs graphiques en question, référencés H800 et réservés au marché chinois (en raison des restrictions imposées par le gouvernement américain), sont une version moins avancée des H100 de Nvidia commercialisés ailleurs dans le monde : la bande passante des communications inter-GPU est délibérément réduite. Une prouesse qui a fait plonger le cours boursier de Nvidia.
Certes, les chercheurs à l’origine de Deepseek v3 auraient fait usage de systèmes H100, contrairement aux données de leur article scientifique visible sur Arxiv. Un point que « la communauté pourra vérifier car c’est un modèle open source, indique Laurent Daudet, cofondateur et DG de Lighton, entreprise française spécialisée dans les LLM. Les poids du réseau de neurones et le code appliqué lors de l’apprentissage sont en accès libre ».
Cependant, la controverse ne doit pas occulter la combinaison d’innovations expliquant la grande efficacité de Deepseek v3. Au premier chef son architecture reposant sur les techniques MoE (mixture of experts) et MLA (multi-headed latent attention). La v2 de Deepseek, sortie en mai 2024 (sans faire autant de bruit), a servi à valider cette approche, selon l’article scientifique.
Place aux experts
« Plutôt qu’un seul gros modèle (Deepseek v3 contient 671 milliards de paramètres, ndlr), on crée plusieurs petits modèles qui interagissent, explique Laurent Daudet pour résumer le MoE. Dans le cas de Deepseek, seuls 37 milliards de paramètres sont activés à un moment donné pour produire une réponse. »
Ces « experts » sont des sous-modèles qui remplacent les couches denses des réseaux de neurones dans l’architecture Transformer, le moteur des LLM. On parle parfois de modèle clairsemé (ou sparse, en anglais).
Leur nom se justifie par leur spécialisation réalisée durant la phase d’entraînement, à partir de banques de données spécifiques (mathématiques, codage informatique, littérature, etc).
A l’inférence, un « routeur » aiguille les données en entrée du réseau, activant les experts adéquats pour formuler la réponse. On gagne en temps de calcul. Par ailleurs, selon Laurent Daudet, « la phase d’entraînement est plus économe », ce qui signifie qu’il faut moins d’itérations.
Il n’y a aucun bénéfice en matière d’occupation d’espace mémoire, en revanche. « Tous les coefficients du modèle doivent être chargés en mémoire », poursuit Laurent Daudet. Car tous les experts finiront par être sollicités.
La technique MoE, antérieure même à l’ère du deep learning, a été utilisée par le français Mistral pour son modèle Mixtral, fin 2023. « Mais Deepseek le fait avec un ordre de grandeur supérieur, souligne Laurent Daudet. Ce n’est pas trivial. » GPT-4 fait également appel au MoE.
Un mécanisme d'attention moins pesant
L’autre rouage majeur de Deepseek v3 est donc le MLA, « une optimisation du mécanisme d’attention », précise-t-il. Pour rappel, le mécanisme d’attention est le cœur de l’architecture Transformer à laquelle les LLM doivent leurs performances et leur succès.
Il sert à préserver le contexte d’une information, par exemple les premiers mots d’une phrase lors d’une traduction, qui sinon sont «oubliés ». Pour ce faire, des données sont prélevées à chaque couche du réseau de neurones, quand celui-ci opère en inférence, puis mémorisées.
D’où la nécessité d’une mémoire-cache (KV cache, ou key-value caching) dont le traitement accapare du temps de calcul. Et cet espace mémoire grossit en même temps que le contexte. Plusieurs méthodes existent pour le compresser, mais aucune n’a été aussi efficace (compression de 93,3%) que le MLA, introduit par les chercheurs chinois dans la v2 de Deepseek. Ce qui, au final, réduit le coût calculatoire de chaque inférence.
Laurent Daudet relève également « des optimisations concernant les communications multi-GPU, contrebalançant les restrictions de bande passante des H800 », ainsi qu’ « une majorité de calculs effectuée en précision réduite FP8 ». C’est-à-dire que les calculs, lors de l’entraînement, sont réalisés sur des nombres représentés en 8 bits en virgule flottante, au lieu de 16 bits habituellement.
La réduction de la précision, ou quantification, est une tendance dans l’apprentissage automatique, car elle réduit l’espace mémoire utilisé pour stocker les paramètres du réseau de neurones et augmente la vitesse du calcul, celui-ci étant moins complexe.
Des lois d'échelle remises en cause ?
Mais elle abaisse de facto la précision et ces erreurs se propagent de couche en couche dans le réseau de neurones. D’autre part, elle augmente le risque d’explosion du gradient.
Une expression qui reflète l’instabilité due au fait que les valeurs trop grandes ou trop petites issues de la rétropropagation du gradient (qui actualise les poids du réseau depuis la dernière couche vers la première) ne peuvent plus être représentées.
Un inconvénient que les auteurs de Deepseek sont parvenus à gommer en affinant la quantification et en hybridant plusieurs niveaux de précision pour la représentation des valeurs.
Pour Laurent Daudet, l’arrivée de Deepseek est une bonne nouvelle : « On a acheté du temps sur les lois d’échelle qui prédisent la progression des modèles en fonction de la puissance de calcul. C’est la preuve que de petits acteurs (comparés aux Gafam, ndlr) peuvent faire des choses plus économes et innovantes ». Il sera intéressant d’observer la réaction de ces géants du numérique…



