Comment Facebook a mis au point une IA capable de traduire 100 langues en 100 autres

Le géant du numérique Facebook a dévoilé lundi 19 octobre un modèle d'apprentissage profond pour la traduction automatique, publié en open source. Capable de traduire 100 différentes langues sans passer par une étape intermédiaire en anglais, ce modèle développé au sein du laboratoire Facebook AI research (Fair) vise notamment à améliorer la qualité des traductions automatiques entre langues rares.

Nathan Mann

Publié le 19 octobre 2020 à 17h00

Réservé aux abonnés

Lire automatiquement un texte étranger dans sa langue. Si l’expérience est désormais commune sur internet, où un seul clic suffit pour traduire un texte anglais en français lisible, la traduction entre des langues plus rares reste laborieuse et les textes finaux truffés d’erreurs. En cause ? L’absence de données pour entraîner les modèles automatiques de traduction qui, pour passer d'une langue rare à une autre, utilisent l’anglais comme langue intermédiaire. Au détriment de la qualité de la traduction.

C'est pour la faire progresser et améliorer ses services que le département de recherche en intelligence artificielle du groupe, Facebook AI research (Fair) dont une antenne est à Paris, a annoncé lundi 19 octobre avoir conçu un nouveau modèle de traduction multilingue capable de traduire directement cent langues vers cent autres.

9900 combinaisons de langues

Baptisé M2M100, le modèle de Facebook AI Research (Fair) propose de traduire 100 langues vers 100 autres, autrement dit de couvrir 9900 combinaisons différentes (si l'on compte le sens de traduction). Mieux : selon le géant numérique, ce modèle permettrait déjà d'obtenir de meilleures performances que les outils de traduction existants, bien que les performances dépendent de chaque couple de langue considéré. M2M100, ainsi que la base de données utilisée pour l’entraîner, sont disponibles en open source.

Si ce modèle doit encore subir de nombreux tests de conformité avant d’être utilisé par le réseau social au profit de ses utilisateurs, il pourrait venir améliorer la qualité des 20 milliards de traductions qu’opère Facebook chaque jour. Autre usage possible : traduire des messages en langues rares vers des langues connues, comme l'anglais, pour permettre aux algorithmes de modération des contenus du réseau social de les comprendre.

Représentation mathématique du langage

Comme la plupart des autres modèles de traduction, celui utilisé est basé sur l’apprentissage profond (deep learning). Il s’appuie sur la progression des algorithmes de traitement automatique du langage naturel, qui permettent de simuler l’écriture d’une langue par des moyens statistiques.

“Pour résumer, notre modèle lit un texte dans une première langue, par exemple le chinois, qu’il convertit en représentation mathématique, mot par mot, puis qu’il transfère vers la langue cible, par exemple le français”, détaille Angela Fan, une chercheuse au sein de Facebook AI Research qui a participé aux travaux.

“C’est un travail d’ingénierie très intéressant en raison de l'échelle, mais l'architecture utilisée est connue", commente le chercheur au CNRS François Yvon, qui étudie ces questions dans le Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (LIMSI) et n’a pas participé à l’étude. Pour traduire, "le modèle est entraîné pour associer à des suites de caractères une représentation numérique. Ainsi, deux phrases qui sont des traductions mutuelles auront des représentations proches", résume le scientifique.

Plusieurs années pour construire une base de données

Pourquoi ne pas utiliser l’anglais comme langue charnière et préférer des traductions directes ? “Nous constatons que les modèles multilingues offrent une meilleure qualité de traduction, assure Angéla Fan. Par ailleurs, il est plus rapide d’opérer des maintenances sur un seul modèle, même imposant, plutôt que sur des centaines”.

Mais construire ce type de modèles n’est pas simple. Pour être efficaces, les algorithmes d’intelligence artificielle, dont l’approche est essentiellement statistique, nécessitent de grandes quantités de données. Et il est plus simple de trouver des textes traduits du chinois à l’anglais, que du suédois au wolof, ou même que du chinois au français.

Les scientifiques de Facebook ont donc passé plusieurs années à construire une base de données utilisable. Pour cela, ils ont combiné différentes bases existantes, tout en améliorant un de leurs protocole de minage, "Laser", capable de repérer automatiquement des phrases traduites, ou simplement similaires, dans différentes langues. S’ils se sont concentrés sur les langues les plus utilisées, les scientifiques ont aussi composé des “groupes” de langues en fonction de leur proximité culturelle et linguistique, au sein desquels ils ont cherché le maximum de paires de phrases pour optimiser la traduction. Allant même dans certains cas jusqu’à utiliser leurs propres outils de traduction pour générer des phrases traduites... et les mettre à profit pour entraîner ses modèles.

De quoi créer une base de données comportant 7,5 milliards de phrases traduites en différentes langues pour entraîner son modèle. Une somme. “A titre de comparaison, une année entière du journal Le Monde ne comporte que quelques centaines de milliers de phrases”, pointe François Yvon.

15 milliards de paramètres

Pour limiter les ressources consommées par leur modèle, les scientifiques de Facebook l'ont aussi optimisé, allouant à chaque langue une sous-partie spécifique du modèle. “Un travail nécessaire pour pouvoir utiliser le modèle, explique Angela Fan. Sans cela un modèle multilangues deviendrait très lent”. L’entraînement même du modèle, qui avec 15 milliards de paramètres n’aurait pu se faire sur un seul accélérateur graphique, a lui aussi été distribué et parallélisé.

“Aujourd’hui, les grands opérateurs, comme Microsoft ou OpenAI, ont tendance à construire des modèles de plus en plus grands, en se basant sur d’énormes centres de calculs pour extraire de l’information de grandes masses de données", décrit François Yvon. Une dynamique dont les défis scientifiques sont “passionnants” juge le chercheur, mais qui “orientent la traduction automatique dans une certaine direction, pour répondre aux besoins des géants du net, qui ne sont pas ceux d’une traduction de haute qualité, qui requiert de s’intéresser à la syntaxe, au style ou au raisonnement”, modère-t-il cependant. Autrement dit, si l'IA veut un jour remplacer la traduction professionnelle, il faudra passer par de nouveaux outils spécifiques.

Comment Facebook a mis au point une IA capable de traduire 100 langues en 100 autres

À lire aussi