[L’instant tech] Facebook et l’Inria font progresser la vision par ordinateur sur données brutes

Facebook et l’Inria ont présenté le 30 avril un modèle d’intelligence artificielle capable d’apprendre par lui-même à découvrir et segmenter les objets dans les images. Basé sur l’utilisation de Transformers, une architecture qui performe dans le langage naturel, ce projet est une avancée notable du deep learning sur des données non annotées.

Marion Garreau

Publié le 6 mai 2021 à 11h00

Réservé aux abonnés

intelligence artificielle IA facebook vision ordinateur transformers — Grâce à l'utilisation de Transformers, une architecture de réseaux de neurones découverte en 2017, Facebook et l'Inria font progresser l’apprentissage auto-supervisé dans la vision par ordinateur.

Etiqueter et annoter les données est un exercice long et coûteux. Pour s’en passer, une équipe du centre de recherche en intelligence artificielle de Facebook (FAIR), à Paris, a collaboré avec l’Institut national de recherche en informatique et en automatique (Inria) et Sorbonne Université pour développer un modèle de deep learning performant sur des données brutes.

Dino, dévoilé le 30 avril, est la combinaison de deux innovations majeures en intelligence artificielle : l’apprentissage auto-supervisé, selon lequel l’algorithme apprend tout seul sur des données brutes, et les Transformers, une architecture de réseaux de neurone à l’origine de multiples progrès dans le traitement naturel du langage (NLP, pour "natural langage processing") et qui arrive dans le domaine de la vision par ordinateur. «L’annotation des données est une problématique majeure en intelligence artificielle, notamment en termes de coût, souligne Mathilde Caron, doctorante à l’Inria et chez FAIR, qui a travaillé sur le projet de recherche. En appliquant l’apprentissage auto-supervisé à un algorithme de type Transformers, nous avons réussi à obtenir de très bonnes performances sur plusieurs usages.»

Vers une domination des Transformers dans la vision ?

En l’occurrence, le modèle Dino apprend par lui-même à segmenter un objet dans une image, détecter des copies, suivre un objet dans une séquence d’images... «L’algorithme est capable de se faire une représentation de l’image et de se focaliser sur ce qu’elle a de saillant», pointe Mathilde Caron.

Des performances remarquables dans le cadre d’un apprentissage auto-supervisé. Et meilleures que celles obtenues avec le même type d’apprentissage par les réseaux de neurones convolutionnels (CNN), découverts notamment par le Français Yann Le Cun et les utilisés aujourd’hui dans la vision par ordinateur.

«On est à un point de bascule, avec la question de savoir si les Transformers vont s’imposer en vision, comme ils l’ont déjà fait dans le NLP, souligne Mathilde Caron. Nos résultats poussent à continuer dans cette voie, avec le rêve d’avoir un jour une machine comme GPT-3 pour la vision» Une référence à l’intelligence artificielle d’OpenAI, aujourd’hui reconnue comme la machine à tout faire la plus performante dans le langage naturel. Mais qui n’a pas résolu les problèmes récurrents de l’IA, au premier chef desquels figurent la consommation énergétique et les biais.

[L’instant tech] Facebook et l’Inria font progresser la vision par ordinateur sur données brutes

À lire aussi

À lire aussi