Les peintres surréalistes ont trouvé un successeur. Adepte des projets sensationnels, OpenAI a dévoilé le 5 janvier sa nouvelle création : une intelligence artificielle capable de générer des images à partir de quelques mots. Avec ce type de travaux, l’entreprise américaine espère augmenter la performance et l’autonomie des IA.
Bébé radis en tutu et fraise bleue
Les ingénieurs derrière le projet ont baptisé le nouvel outil Dall-e, en référence à l’artiste Salvador Dalí et au film Wall-e des studios Pixar. Leur réseau de neurones artificiels s’appuie sur 12 milliards de paramètres et une vaste base de données d’images associées à du texte. En utilisant un moteur de rendu 3D et avec des techniques de traitement naturel du langage, Dall-e peut générer une série de visuels.
OpenAI Les chercheurs se sont amusés à soumettre différents sujets à l’IA, y compris les plus improbables : un bébé radis en tutu promenant un chien, un fauteuil en forme d’avocat ou encore un vitrail représentant une fraise bleue... Vous pouvez vous-mêmes expérimenter différentes variations sur le site d’OpenAI.
Une IA capable de “remplir les blancs”
Quelle différence avec un moteur de rendu 3D traditionnel ? “Contrairement à un moteur de rendu 3D, dont les entrées doivent être spécifiées sans ambiguïté et de manière très détaillée, Dall-e est souvent capable de ‘remplir les blancs’ lorsque la légende implique que l'image doit contenir un certain détail qui n'est pas explicitement indiqué”, affirment les chercheurs. Par exemple, à la mention du lever de soleil, Dall-e va jusqu’à dessiner les ombres qui s’étirent sous certains objets. “Nous constatons que Dall-e est capable de créer des images plausibles pour une grande variété de phrases qui explorent la structure compositionnelle du langage”, se réjouissent les chercheurs.
L’équipe a joué sur les mots pour éprouver les limites de l’IA. Elle a par exemple intégré des notions liées à l’époque de l’image ou à des effets d’optique. La machine-artiste peut toutefois s’emmêler les pinceaux si la description contient trop de détails.
OpenAI Comment fonctionne le génie créatif de Dall-e ? “Pour les êtres humains, chaque lettre est un jeton provenant d'un alphabet de 26 lettres. Le vocabulaire de Dall-e comporte des jetons à la fois pour les concepts de texte et d'image”, expliquent les ingénieurs. Dall-e “reçoit le texte et l'image comme un seul flux de données contenant jusqu'à 1280 jetons, et il est entraîné à générer tous les jetons, les uns après les autres, en utilisant le maximum de probabilités”.
Dépasser les contraintes de la vision par ordinateur
OpenAI se montre assez évasif sur les applications de cette technologie. En revanche, l’entreprise a aussi présenté le 5 janvier un outil baptisé Clip (pour Contrastive Language-Image Pre-training), un réseau de neurones artificiels capable de reconnaître des catégories d’objets dans des images en s’aidant d’une “supervision” en langage naturel.
OpenAI Comme Dall-e, Clip a démontré une grande capacité à associer des images à du texte. OpenAI décrit de grandes implications pour le domaine de la vision par ordinateur : “Même si le deep learning a révolutionné la vision par ordinateur, les approches actuelles présentent plusieurs problèmes majeurs : les ensembles de données classique sur la vision demandent beaucoup de travail et sont coûteux à créer tout en n'enseignant qu'un ensemble étroit de concepts visuels ; les modèles de vision standard sont bons pour une tâche et une seule, et ils nécessitent un effort important pour s'adapter à une nouvelle tâche.”



