La conception numérique des matériaux se dope à l'intelligence artificielle

L'utilisation de l’intelligence artificielle, de l’apprentissage automatique et du minage de données constitue pour la science des matériaux un nouveau paradigme : celui de la data-driven science, soit, littéralement, la science guidée par les données. Pour en mesurer les apports, il importe de retracer les évolutions précédentes des méthodes et concepts scientifiques.

Auteur

Gian-Marco Rignanese, professeur à l’École polytechnique de Louvain, directeur de recherche FNRS

1. De la science empirique à la science computationnelle

L’approche expérimentale a été la première utilisée par l’humanité et est longtemps restée celle privilégiée. Cette science empirique, où les avancées résultent de nombreux essais et erreurs et dépendent d’un important facteur chance, est parfaitement illustrée par l’exemple de la lampe à incandescence. Lors de sa mise au point en 1879, Edison a testé comme filament près de 3 000 matériaux différents (y compris du papier, du carbone, de l’écorce d’arbre et même un poil de barbe de son assistant). Après ces diverses tentatives, il a retenu une fibre de coton carbonisée. Ce n’est que quelques années plus tard que le tungstène a fait son apparition comme filament. Il a pourtant été le matériau longtemps utilisé dans nos lampes à incandescence. Cet exemple montre une limite importante de l’empirisme. En effet, Edison n’a testé que les matériaux qu’il avait sous la main et est donc passé à côté du tungstène.

Vers la fin du XVIe siècle, des lois physiques et chimiques ont petit à petit été établies pour mieux décrire les phénomènes se déroulant aux différentes échelles. La science théorique (fig. 1) est ainsi devenue le deuxième paradigme utilisé pour approcher les sciences en général. En science des matériaux, il s’agit d’établir des lois scientifiques de cause à effet entre le procédé utilisé, la structure qui en résulte, les propriétés qui en dérivent, et finalement la performance qui en découle dans une application particulière (fig. 2).

Image d'illustration de l'article — CT Conception materiaux fig 1 CT Conception materiaux fig 1

Ces lois scientifiques impliquent des phénomènes et des échelles de longueur et de temps différentes. Pour la capture de la lumière par un module photovoltaïque, le système de départ est à l’échelle du mètre. En descendant en dimension dans la connaissance du système, il y a, à l’échelle du centimètre (10-10 m), la cellule photovoltaïque, puis les grains de silicium. À l’échelle du micromètre (10-6 m) vient la section de la cellule photovoltaïque puis les empilements de couches de matériaux et les joints de grain du silicium. À l’échelle du nanomètre (10-9 m), il y a les atomes. Il n’est pas nécessaire de descendre à des échelles plus petites pour essayer de comprendre les propriétés des matériaux. En revanche, selon l’échelle à laquelle on se place, il est important de comprendre que les phénomènes qui se déroulent sont différents, et il en est de même pour les échelles de temps. À titre d’exemple, certains phénomènes peuvent se dérouler sur une durée de l’ordre de la femtoseconde, soit un millionième de milliardième de seconde.

Le développement des ordinateurs puis des supercalculateurs a révolutionné le monde, et la science. En science des matériaux, les supercalculateurs ont permis de numériser les lois physiques et donc de réaliser des expériences virtuelles. Il est ainsi devenu possible de faire des prédictions, ce qui a induit un nouveau changement de paradigme : le passage à la science computationnelle. Différentes échelles de longueur/temps peuvent être simulées à partir de différentes méthodes selon la précision requise (fig. 3).

Le calcul ab initio est la technique la plus précise. Il nécessite de prendre en compte explicitement le comportement des atomes et de leurs électrons par le biais des lois de la mécanique quantique et de l’électromagnétisme, sans avoir recours à des données expérimentales. Cette technique permet de prédire toute une série de propriétés des matériaux avec un très bon accord avec celles mesurées expérimentalement. Toutefois, cette précision va de pair avec un temps de calcul nécessaire fort important, même sur des supercalculateurs. Dès lors, les systèmes qui peuvent être ainsi simulés sont typiquement constitués de quelques centaines d’atomes, soit sur une échelle allant de l’angström (1 Å = 10-10 m) au nanomètre (10-9 m), et ce, sur une échelle de temps également très faible, celle des femtosecondes (10-15 secondes).

Pour passer à des échelles de longueur et de temps supérieures, il n’est plus possible de considérer les électrons explicitement : il faut traiter les atomes dans leur ensemble. La technique de simulation de choix est la dynamique moléculaire « atomique ». En acceptant de perdre en précision suite à l’approximation des interactions interatomiques par des potentiels empiriques ou au mieux semi-empiriques, il est possible de gagner en termes d’échelles de longueur (pour atteindre quasiment le micromètre, 10-6 m) et de temps (pour simuler jusqu’à quelques nanosecondes, 10-9 secondes). En sacrifiant encore la fidélité du modèle en ne traitant plus que les interactions entre groupes d’atomes par le biais de la dynamique moléculaire « grossière », les échelles sont encore augmentées pour atteindre des longueurs de quelques centaines de micromètres et des durées proches de la milliseconde. Finalement, afin d’atteindre des échelles de longueur et de temps encore plus élevées, il devient nécessaire de considérer les matériaux comme des milieux continus (sans même traiter les atomes de façon explicite) et d’avoir recours à la méthode des « éléments finis ». Elle permet de simuler des matériaux à des dimensions qu’on peut voir à l’œil nu, mais elle requiert d’introduire divers paramètres dans les modèles dont la valeur est obtenue empiriquement, ce qui réduit encore la précision.

2. Le calcul ab initio à haut débit pour la conception de matériaux

La conception de matériaux vise à trouver ceux dont les propriétés respectent un ensemble de critères liés à une application particulière. Par exemple, le matériau qui constitue les écrans des téléphones portables doit être à la fois transparent à la lumière (afin que nous puissions voir les informations qui apparaissent dessus) et conducteur (pour permettre la transmission de signaux électriques au contact de nos doigts). Comme illustré pour le cas de la lampe à incandescence, l’approche par essais et erreurs peut être longue et coûteuse. Aujourd’hui, le calcul ab initio a atteint une maturité telle qu’il permet d’accélérer fortement ce processus de sélection grâce au criblage à haut débit.

En effet, ayant vu le jour dans les années 1980, le calcul ab initio s’est fortement développé dans les années 2000. Alors qu’au début, une thèse de recherche fondée sur cette approche permettait d’étudier quelques propriétés pour un seul matériau, de nos jours, grâce à l’augmentation de la puissance des supercalculateurs, à la stabilité des programmes informatiques et à une automatisation des calculs, il est possible de prédire de nombreuses propriétés pour plusieurs milliers, voire centaines de milliers de matériaux. Typiquement, le criblage à haut débit agit comme un entonnoir (fig. 4 a). La propriété requise la moins coûteuse en temps calcul (propriété 1) est déterminée pour tous les matériaux envisagés (de l’ordre de 103 à 105). Ne sont retenus à l’étape suivante que ceux pour lesquels la propriété 1 rencontre le critère de sélection, ce qui réduit le nombre de matériaux qui seront considérés pour le calcul de la propriété 2. Au fur et à mesure que de nouvelles propriétés sont calculées, les critères de sélection se font de plus en plus stricts et le nombre de matériaux diminue considérablement (ce qui permet au passage de faire des calculs plus complexes et donc plus coûteux).

Ce tri se termine généralement avec de l’ordre d’une dizaine à quelques centaines de matériaux qui remplissent tous les critères et qui peuvent donc être proposés aux expérimentateurs pour qu’ils soient validés. Le dernier mot revient à l’approche expérimentale, qui reste donc toujours très importante. L’émergence d’un nouveau paradigme de recherche ne fait pas disparaître les anciens. Mais si le travail de simulation a été bien fait, cette technique fait gagner beaucoup de temps aux expérimentateurs qui font ensuite la synthèse et caractérisent les matériaux triés. Le haut débit (le fait de pouvoir traiter beaucoup de matériaux en un temps restreint) est fondamental dans cette démarche. C’est lui qui permet d’accélérer la conception. Il est atteint grâce à l’automatisation des calculs. C’est ainsi que, s’inspirant de l’approche développée par les biologistes pour le séquençage du génome humain, la Materials genome initiative (MGI) for global competitiveness a été déployée à grande échelle en 2011 sous l’administration Obama aux États-Unis avec notamment le lancement du Materials Project par le MIT visant à accélérer la découverte et le développement de nouveaux matériaux.

Exemple d’application pour les cellules photovoltaïques

Afin d’illustrer cette approche, prenons l’exemple de la conception de matériaux absorbeurs des cellules photovoltaïques. Ces matériaux constituent la couche qui capture la lumière du soleil et la convertit en électricité. Pour que cela soit possible, ils doivent avoir des propriétés qui respectent toute une série de critères. Ainsi, au niveau de leurs propriétés électroniques, la bande interdite doit être suffisamment petite pour permettre de capturer des photons. Mais ils doivent aussi être stables thermiquement, être de bons conducteurs et idéalement être peu sensibles à la présence de défauts qui limitent la production électrique. Ces différentes propriétés seront donc calculées les unes après les autres et permettront un filtrage tout au long de l’entonnoir de criblage (fig. 4 b). Dans une étude publiée en 2021, il s’agissait de cribler près de 8 000 matériaux à base de cuivre (un élément assez abondant sur Terre). En bout de course, il n’en est resté plus que 6. Il arrive qu’une même propriété soit calculée plusieurs fois au cours du processus avec une précision différente (voir la couleur des bords de l’entonnoir dans la fig. 4 b : le premier calcul de faible précision – effectué pour beaucoup de matériaux – permet de faire un tri grossier, tandis que le calcul de grande précision – pour nettement moins de matériaux – conduit à un tri plus fin). Cette étude a depuis été étendue à quelque 40 000 matériaux inorganiques conduisant à l’identification d’un phosphure Zintl BaCd2P2 comme matériau absorbeur prometteur ainsi qu’à sa confirmation expérimentale.

Suite à un tel criblage, il se peut qu’un matériau ait été écarté à tort (les calculs ne sont pas toujours fiables à 100 %). Cependant, les matériaux qui sortent de l’entonnoir sont ceux pour lesquels les certitudes sont les plus fortes. Outre les critères sur leurs propriétés, d’autres contraintes peuvent être prises en compte. Ainsi, dans l’étude citée plus haut, des indicateurs liés au développement durable avaient également été pris en compte. Ces matériaux sont-ils disponibles à différents endroits du globe ? Sont-ils accessibles pour tout le monde ? Y a-t-il des difficultés à les extraire ? Y en a-t-il suffisamment sur la croûte terrestre ? Pour répondre à ces questions, l’efficacité théorique calculée pour la conversion de la lumière en électricité est mise en rapport, pour les différents matériaux, avec l’indice de Herfindahl-Hirschman qui mesure la concentration du marché, c’est-à-dire du nombre d’entreprises qui produisent le matériau considéré. De surcroît, les différents matériaux sont considérés en fonction de leur « compagnonnage » qui indique la mesure dans laquelle les éléments qui le constituent ont été obtenus en grande partie ou entièrement en tant que sous-produit de l’extraction d’autres éléments à partir de minerais géologiques. Un matériau de faible compagnonnage est constitué d’éléments qui sont principalement exploités pour eux-mêmes et, à l’inverse, un matériau de haut compagnonnage est constitué d’éléments qui sont obtenus comme les sous-produits de l’exploitation d’autres éléments (par exemple, plus de 90 % des approvisionnements en sélénium et en tellure sont associés au cuivre). Tous les indicateurs disponibles peuvent être pris en compte lors du criblage afin de proposer à l’expérimentation les matériaux

les plus pertinents.

Le consortium OPTIMADE pour exploiter les bases de données en ligne

Tous les calculs effectués au cours du criblage ne sont pas perdus, même si un matériau n’est pas retenu au bout du compte. En effet, les résultats sont stockés dans des bases de données qui peuvent être mises à disposition en ligne. Citons par exemple Aflow, COD, Jarvis, the Materials Cloud, the Materials Project, Nomad, ou OQMD. Chacune d’elles ayant ses spécificités, il est intéressant de pouvoir les combiner pour en exploiter pleinement le potentiel. C’est ce que le consortium OPTIMADE, dont la première ébauche remonte à 2016, s’est attaché à faire en définissant un protocole unique pour interroger toutes ces bases de données. Cela contribue à rendre les données plus facilement « trouvables » (findable), « accessibles » (accessible), « interopérables » (interoperable), « réutilisables » (reusable) : c’est le concept des « Fair-data » qui a pris de l’ampleur dernièrement. Car pouvoir obtenir le maximum de données est très important pour les modèles de machine learning.

3. Quatrième paradigme : la science des données

Cette multiplication de bases de données de propriétés des matériaux a rendu possible l’utilisation de l’intelligence artificielle, de l’apprentissage automatique et du minage de données. Cette évolution a conduit au quatrième changement de paradigme apparu au début des années 2000 : la science guidée par les données.

Intelligence artificielle prédictive

En science des matériaux, les techniques de régression de l’apprentissage automatique (machine learning) permettent d’établir des modèles pour les relations entre le procédé, la structure, les propriétés et les performances. Il est ainsi possible de faire des prédictions en une fraction de seconde, ce qui constitue une accélération considérable par rapport aux calculs ab initio. L’apprentissage automatique facilite également la connexion entre les différentes échelles de longueurs et de temps (fig. 3). Par exemple, pour la dynamique moléculaire atomique, des potentiels décrivant les interactions entre les atomes peuvent être « appris » sur la base de calculs ab initio en utilisant de l’apprentissage automatique. De même, pour passer à l’échelle supérieure, les paramètres nécessaires peuvent être appris au départ d’une série de simulations de dynamique moléculaire. L’avantage principal est d’avoir à l’échelle supérieure des calculs de précision quasi similaire à celle de l’échelle inférieure, mais avec une vitesse nettement supérieure.

La puissance de la science guidée par les données dépend cependant fortement de la quantité et de la qualité des données disponibles pour entraîner les modèles. Les données expérimentales sont à cet égard précieuses (car plus précises), mais le temps long nécessaire à leur obtention limite leur quantité. Les bases de données tirées des calculs ab initio contiennent typiquement plus de données, mais la quantité de données varie d’une propriété à une autre et d’un matériau à l’autre. En effet le coût calculatoire de la détermination d’une propriété d’un matériau par le calcul ab initio augmente de façon non linéaire avec la taille du système et varie en fonction de la complexité de la propriété d’intérêt. La quantité de données disponible peut donc rester assez réduite dans certains cas (fig. 5). En outre, les résultats des calculs étant en général d’autant plus longs que le calcul est précis, les bases de données ne contiennent qu’une petite quantité de données à haute précision et une quantité de plusieurs ordres de grandeur supérieure de données de basse précision. Or la précision des prédictions des modèles dépend évidemment de la précision des données d’entraînement.

Il faut donc toujours trouver un compromis entre quantité et qualité des données, et surtout viser à exploiter toutes les données disponibles. Parmi les pistes explorées pour contrecarrer la faible quantité de données figure la mise au point d’un score de pertinence-redondance entre les données d’entrées et le modèle à entraîner. Grâce à celui-ci, il est possible d’extraire des données des descripteurs ou « features », les plus pertinents et intégrant les connaissances et contraintes physiques, qui vont servir à entraîner le modèle. Ce jeu de descripteurs étant de dimension plus réduite que le jeu de données initial, le modèle peut être entraîné avec moins de données. De même, des approches dites de multi-fidélités sont développées pour exploiter au mieux un ensemble de données de précisions différentes. Par exemple en entraînant séquentiellement un modèle sur différents jeux de données ordonnés selon leur précision, ou sur différents mélanges de ces jeux de données. Enfin, afin de déterminer les données les plus pertinentes à acquérir lorsqu’elles sont manquantes, l’« active learning » est une méthode de choix. Elle repose sur l’utilisation de modèles capables de réaliser non seulement des prédictions d’une propriété mais aussi de quantifier l’incertitude sur celles-ci. Cela permet d’utiliser l’optimisation bayésienne pour identifier (par le biais d’une fonction d’acquisition) les matériaux les plus pertinents pour lesquels une nouvelle expérience ou un nouveau calcul ab initio doit être effectué, afin de réinjecter la propriété ainsi déterminée dans le jeu de données initial et réitérer l’entraînement. En répétant ce processus, il est possible soit, en mode « exploration », d’aboutir à une réduction globale de l’incertitude, soit, en mode « exploitation », de déterminer le matériau optimum (en général, celui qui maximise une propriété ou qui se trouve sur le front de Pareto quand plusieurs propriétés sont considérées simultanément).

Intelligence artificielle générative

L’intelligence artificielle peut aussi être utilisée pour faire de la conception de matériaux dite « inversée », à savoir d’inverser le sens des relations de la fig. 2. Par exemple, déterminer quel est le procédé à mettre en œuvre pour obtenir une propriété désirée. Ceci pourrait être rendu possible grâce à l’intelligence artificielle générative développée à partir du milieu des années 2010. Ce type d’approche repose sur un apprentissage de la structure des données d’entrée : il s’agit de trouver un espace de dimension la plus réduite possible qui permette néanmoins la description la plus complète des données. Un tel apprentissage peut typiquement être réalisé par un auto-encodeur, soit un réseau de neurones composé d’un encodeur, qui transforme l’entrée en une représentation dans un espace de plus petite dimension (appelé espace latent), et d’un décodeur, qui prédit une sortie à partir de la représentation latente. Ce réseau de neurones est entraîné à reproduire à l’identique chaque donnée d’entrée, par exemple une structure cristalline, ce qui le conduit à développer une représentation latente performante (une sorte de bonne traduction compressée) des structures cristallines. L’intérêt est que cette représentation latente peut permettre une manipulation plus aisée des données et de générer un nouveau contenu similaire aux données d’apprentissage, ici de nouvelles structures cristallines, mais avec un certain degré de nouveauté en partant de nouveaux points dans l’espace latent. Les auto-encodeurs variationnels et les réseaux de neurones adversaires (GAN, generative adversarial networks) ont longtemps été les outils de choix. En particulier, les GAN ont été largement utilisés pour générer des images. Ainsi, au début 2019, Nvidia a proposé le modèle StyleGAN permettant de générer des visages réalistes de personnes sans existence, avec la possibilité d’influencer sur le résultat en leur appliquant des styles en se déplaçant dans l’espace latent. Plus récemment, ils ont été supplantés par les modèles de diffusion (tels DALL-E ou Stable Diffusion) et les transformeurs génératifs pré-entraînés (GPT, generative pretrained transformers).

La fig. 6 montre l’espace latent dans lequel est encodée la structure d’un grand nombre d’images de visages, en le représentant en deux dimensions pour rendre les choses plus compréhensibles (le nombre de dimensions est bien plus élevé en pratique). En considérant les images représentant des femmes et des hommes, il est possible d’identifier un axe « féminité-masculinité ». En se déplaçant sur cet axe dans l’espace latent, au départ d’une image de visage (existant ou non), il est possible de générer de nouvelles images de visages dont la masculinité est augmentée. En pratique (vu que le nombre de dimensions est plus élevé), on peut aussi changer divers autres attributs tels que la longueur des cheveux, ou l’âge de la personne... Des recherches actuelles visent précisément à faire la même chose en science des matériaux. Il faut trouver l’espace latent pour les matériaux et identifier les dimensions, les directions qui permettront de changer les propriétés des matériaux de façon générative. Par exemple, le matériau devrait être « plus dur », « plus bleu », « plus léger »...

Références

A. Jain et al., « The Materials Project: A materials genome approach to accelerating materials innovation », APL Materials 1, 011002, 2013. www.materialsproject.org
D. Dahliah, G. Brunin, J. George, V.?A. Ha, G.?M. Rignanese, and G. Hautier, « High-throughput computational search for high carrier lifetime, defect-tolerant solar absorbers », Energy & Environmental Science 14, 5057 (2021)
Consortium OPTIMADE, https://www.optimage.org ; https://optimade.science
V. Trinquet, M. L. Evans, C. J. Hargreaves, P.-P. De Breuck, G.-M. Rignanese, « Optical materials discovery and design with federated databases and machine learning, Faraday Discuss. », advance article (2024)