A quoi pourrait ressembler une véritable usine de Noël ? Et si elle produisait des journaux ? Ou s’intégrait dans un monde steampunk ? Comme tant d’autres cette année, c’est une question un peu absurde – puis bien d’autres, poussés par les suggestions du logiciel proposant tour à tour des versions imitant la peinture à l’huile, le crayon de couleur ou l’art numérique – que nous nous sommes plongés dans l’interface de Dall-E. Conçu par l’entreprise américaine OpenAI, ce dernier (qui date de 2021 et dont la deuxième version a été publiée en septembre) est l’un des principaux algorithmes de génération automatique d’images dont les productions ont envahi internet cette année, aux-côtés d’autres grands noms. Tels l’IA de Google spécialisée dans le photoréalisme, Imagen, l’algorithme open source de la start-up StabilityAI, Stable Diffusion, ou le logiciel grand-public accessible sur la plateforme de discussion Discord, Midjourney.
Du gadget aux usages artistiques…
«La génération d’images a fait beaucoup de bruit car il y a un aspect un peu gadget à jouer avec et que les solutions commencent à fonctionner très correctement», commente la directrice de l’Institut d’intelligence artificielle de Paris (Prairie), Isabelle Ryl, en référence aux multiples images qui ont inondé le web et questionné le monde de l’art. Tout un chacun, quidam ou artiste, ayant la possibilité de s’inscrire à des versions test pour laisser libre cours à sa créativité. «Du point de vue scientifique, ce qui est intéressant est le lien entre texte et image, sur lequel les chercheurs travaillent depuis longtemps et dont les résultats sont devenus bluffants cette année», continue-t-elle.
Dans le détail, la génération d’images à partir de commandes textuelles bénéficie de plusieurs avancées de l’apprentissage profond, explique Matthieu Cord, chercheur en apprentissage automatique à Sorbonne Université. Au-delà de la masse de données disponibles, plusieurs briques entrent en jeu. D’abord : les transformers – ces mécanismes donnant à l’IA une capacité d’attention et un souci du détail – permettent de comprendre les textes et sont très adaptés pour faire des liens avec des données visuelles.
Longtemps basée sur des modèles adversariaux (ou GAN, appelés ainsi car deux modèles s'affrontent et s'améliorent mutuellement, l'un créant des faux que l'autre essaie de reconnaître), la génération visuelle «produit désormais des résultats impressionnants et surtout bien plus divers grâce à des diffusion models, nommés ainsi en raison des équations différentielles qu’ils utilisent», ajoute Matthieu Cord en mentionnant que «la recherche s’attaque déjà aux vidéos». Il pointe que «le monde de l’art s’en est emparé», et donne l’exemple du collectif Obvious Art, qui s’est amusé à reproduire les sept merveilles du monde à partir des textes de description d’époque. Le résultat, esthétique, manque cependant du réalisme que rechercheraient des historiens.
…Aux biais sexistes
Mais le conte de Noël s'arrête là. Certes, ces modèles pré-entraînés sur de larges banques de données et mis à disposition des développeurs ont permis aux applications grand public d'exploser fin 2022. Mais en démocratisant la génération et la modification d’images, ils en ont aussi disséminé les dangers et les biais. Comme le reste des algorithmes d'apprentissage automatique, ces modèles sont en effet dépendants des instructions qu'on leur donne, et apprennent mécaniquement à partir des millions d’exemples qui leur sont fournis, sans discernement quant à leur qualité ou leur provenance.
Internet ne dérogeant pas à la règle 42, de nombreux sites de génération d’images à caractère pornographiques sont apparus, rapporte le site américain Techcrunch. Donnant naissance à des contenus dont l’origine et la relative uniformité posent des questions juridiques et éthiques. De manière générale, «vous obtenez les résultats les plus blancs et les plus hétérosexuels auxquels la machine peut penser, sauf si vous précisez expressément de ne pas le faire», décrit par exemple le peintre trans Milo Wissig, qui a expérimenté de tels outils, dans les colonnes du site spécialisé.
Mais même au-delà de ces applications spécifiques, les biais racistes ou sexistes pour lesquels nombre d'IA ont déjà été épinglées se retrouvent dans la plupart des images, notait en novembre la chercheuse en IA au sein de l’entreprise Hugging Face, Sasha Luccioni. A partir d’exemples concrets, elle a montré que l’outil Stable Diffusion «amplifie les stéréotypes» et ne conçoit, par exemple, que des pompiers blancs et des hommes de ménage noirs.
Des clichés face auxquels il est possible de mettre des garde-fous au sein des algorithmes, précise la chercheuse en mentionnant notamment le travail d’OpenAI sur le sujet. Mais que l’on retrouvait encore dans l’application Lensa, propulsée au top des téléchargements d’applications entre novembre et début décembre et qui permet de générer des avatars dessinés à partir de photos. Celle-ci a cependant très vite fait controverse, alors que ses utilisateurs constataient sa propension à rajeunir et amincir les femmes ainsi qu'à les doter de fortes poitrines. Des biais classiques, que le saut en qualité graphique des algorithmes de génération d’images n’a pas fait disparaître.



