CroissantLLM, l’IA générative dédiée la langue française, utilisable en open-source sur PC et smartphone

CentraleSupélec a développé son propre grand modèle de langage (LLM), tourné vers la culture française grâce à des données d’entraînement autant françaises que anglaises. CroissantLLM est open source et demande moins de puissance de calcul pour fonctionner que les modèles d'OpenAI ou de Mistral AI.

Léna Corot

Publié le 13 mars 2024 à 11h00

Réservé aux abonnés

Supercalculateur Jean Zay CNRS — CroissantLLM a bénéficié de 100 000 heures de travail effectuées par le supercalculateur Jean Zay du CNRS.

Un grand modèle de langage (LLM) tourné vers la culture française. CroissantLLM intègre de grandes quantités de données en langue française à son corpus d’entraînement pour proposer un outil moins orienté par les connaissances anglo-saxonnes. Ce LLM, dévoilé début mars, a été développé dans le cadre des travaux de thèse de Manuel Faysse encadré par les équipes du laboratoire MICS de CentraleSupélec et la start-up Illuin Technology. Explications.

Un corpus d’entraînement de 3 000 milliards de tokens

Dans le détail, plus de 303 milliards de tokens en langue française – correspondant à 1,3 téraoctet de données – ainsi que 36 milliards de tokens de données de traduction français-anglais ont été collectés et combinés avec des informations en anglais et du code. Le token est l’unité utilisée pour standardiser le texte. Elle correspond à un mot, une partie de mot ou un caractère. Pour CroissantLLM, un ensemble de 3000 milliards de tokens a été retenu pour l’entraînement. «Ce n’était pas facile de récolter suffisamment de données en français», souffle Manuel Faysse lors de la présentation de CroissantLLM. Son objectif : utiliser autant de contenus français que de contenus anglais. Et entraîner CroissantLLM uniquement sur des données avec des licences permissives.

La base comprend des données culturelles, dont des podcasts et des chansons retranscrits, des informations commerciales avec des textes de loi, des débats parlementaires, mais aussi des informations provenant d’encyclopédies, de manuels scolaires et de publications scientifiques. Il a aussi fallu trouver des données de traduction pour les intégrer dès le pré-entraînement afin d’en faire un modèle bilingue. Enfin, diverses données provenant d’internet, nombreuses mais pas toujours de qualité, et du code complètent le corpus.

Cette base d’entraînement étant conséquente, il était impossible de la traiter manuellement. Des tâches de prétraitement ont été réalisées pour éviter la duplication d’une donnée et filtrer le corpus pour détecter les contenus toxique ou violent, etc. L’équipe assure que les données sont publiques et traçables. Un gage de transparence.

Beaucoup moins de paramètres que chez OpenAI ou Mistral AI

Dès le départ, l’axe industriel a été pris en compte. «Nous voulons proposer un LLM véritablement utilisé, résume Gautier Viaud, responsable de la R&D chez Illuin Technology. Il fallait mettre au point un modèle petit, utilisable sur des tâches très variées et pouvant s’exécuter sur des smartphones et ordinateurs personnels.» Et non pas en sollicitant des GPU plus coûteux, énergivores et complexes à trouver. «Le plus grand goulot d'étranglement dans l'adoption généralisée des modèles est la difficulté de faire fonctionner rapidement les modèles sur du matériel grand public», écrit Manuel Faysse dans un poste de présentation de CroissantLLM.

La base d’entraînement conséquente permet donc de contrebalancer le plus faible nombre de paramètres du modèle. CroissantLLM compte seulement 1,3 milliard de paramètres contre plus de 180 milliards pour GPT 3.5 d’OpenAI, 7 milliards pour Mixtral 8x7B de Mistral AI et 70 milliards pour Llama2-70 de Meta. L’avantage ? CroissantLLM fonctionne extrêmement rapidement sur des serveurs GPU et peut aussi être utilisé sur des CPU de smartphone ou PC portable à une vitesse raisonnable.

Un entraînement sur le supercalculateur Jean Zay

De la taille du modèle et des quantités de données d’entraînement ou tokens, il est possible de prédire la performance du modèle final... «CroissantLLM est un petit modèle, mais il a été beaucoup plus entraîné pour être performant», assure Manuel Faysse. Le supercalculateur Jean Zay est à la manœuvre pour cet entraînement. «Nous avons obtenu plus de 100 000 heures de calculs sur Jean Zay, notamment sur ses 240 GPU A100, s’exclame Manuel Faysse. Cela correspond à 17 jours d’entraînement de manière ininterrompue sur la période de Noël où le supercalculateur était disponible.» Une aubaine pour le doctorant ! «Sur un cloud propriétaire cela aurait coûté près de 500 000 euros si l’heure de calcul sur les GPU est facturée 4 euros», ajoute-t-il.

«CroissantLLM est une modèle plus léger et performant donc intéressant d’un point de vue industriel», résume Gautier Viaud d’Illuin Technology. Pour les équipes, ce modèle peut alimenter des applications industrielles ciblées. Il peut être utilisé pour faire des résumés de documents, de la correction orthographique, de la traduction ou être fine-tuner, c’est-à-dire entraîné sur des données spécifiques pour réaliser des tâches précises. CroissantLLM est disponible sur la plateforme de la start-up française Hugging Face. Algorithmes, modèles et jeux de données sont accessibles en open source. A l'inverse de la démarche d'autres acteurs du secteur comme Mistral AI ou OpenAI.

CroissantLLM, l’IA générative dédiée la langue française, utilisable en open-source sur PC et smartphone

Un corpus d’entraînement de 3 000 milliards de tokens

Beaucoup moins de paramètres que chez OpenAI ou Mistral AI

Un entraînement sur le supercalculateur Jean Zay

À lire aussi