Etiqueter et annoter les données est un exercice long et coûteux. Pour s’en passer, une équipe du centre de recherche en intelligence artificielle de Facebook (FAIR), à Paris, a collaboré avec l’Institut national de recherche en informatique et en automatique (Inria) et Sorbonne Université pour développer un modèle de deep learning performant sur des données brutes.
Dino, dévoilé le 30 avril, est la combinaison de deux innovations majeures en intelligence artificielle : l’apprentissage auto-supervisé, selon lequel l’algorithme apprend tout seul sur des données brutes, et les Transformers, une architecture de réseaux de neurone à l’origine de multiples progrès dans le traitement naturel du langage (NLP, pour "natural langage processing") et qui arrive dans le domaine de la vision par ordinateur. «L’annotation des données est une problématique majeure en intelligence artificielle, notamment en termes de coût, souligne Mathilde Caron, doctorante à l’Inria et chez FAIR, qui a travaillé sur le projet de recherche. En appliquant l’apprentissage auto-supervisé à un algorithme de type Transformers, nous avons réussi à obtenir de très bonnes performances sur plusieurs usages.»
Vers une domination des Transformers dans la vision ?
En l’occurrence, le modèle Dino apprend par lui-même à segmenter un objet dans une image, détecter des copies, suivre un objet dans une séquence d’images... «L’algorithme est capable de se faire une représentation de l’image et de se focaliser sur ce qu’elle a de saillant», pointe Mathilde Caron.
Des performances remarquables dans le cadre d’un apprentissage auto-supervisé. Et meilleures que celles obtenues avec le même type d’apprentissage par les réseaux de neurones convolutionnels (CNN), découverts notamment par le Français Yann Le Cun et les utilisés aujourd’hui dans la vision par ordinateur.
«On est à un point de bascule, avec la question de savoir si les Transformers vont s’imposer en vision, comme ils l’ont déjà fait dans le NLP, souligne Mathilde Caron. Nos résultats poussent à continuer dans cette voie, avec le rêve d’avoir un jour une machine comme GPT-3 pour la vision» Une référence à l’intelligence artificielle d’OpenAI, aujourd’hui reconnue comme la machine à tout faire la plus performante dans le langage naturel. Mais qui n’a pas résolu les problèmes récurrents de l’IA, au premier chef desquels figurent la consommation énergétique et les biais.



