Si le repliement des protéines est moins connu que Starcraft II, les performances des algorithmes de Deepmind – la filiale de Google dédiée à l’intelligence artificielle (IA) – y sont tout aussi impressionnantes. Et sûrement bien plus utiles. Lundi 30 novembre, cette dernière a annoncé pouvoir prédire avec précision la structure d’une protéine à partir de sa séquence. Un défi qui travaille la communauté scientifique depuis plusieurs décennies.
Car la structure des protéines – des molécules composées de longues chaînes d’acides aminés qui se replient et se tordent sur elles-mêmes – est à la fois complexe… et cruciale pour en prédire l’effet. Les progrès annoncés par le géant américain pourraient donc chambouler les sciences du vivant, que ce soit pour la recherche d’enzymes pour le recyclage industriel, ou pour la découverte de médicaments, note Deepmind dans un post de blog publié à l’occasion.
Grand challenge depuis 1994
Le repliement des protéines obéit à des lois physiques. Mais le nombre d’acides aminés et surtout la multitude de positions intermédiaires que prend une molécule avant d’atteindre son état stable rend la modélisation du processus très complexe. Il est pourtant crucial, car de la mobilité cellulaire à la catalyse de réactions chimiques, les protéines assurent de nombreuses fonctions du vivant, qui dépendent en large partie de leurs structure. Face au Covid-19 par exemple, comprendre les protéines composant le virus et leur action était l'une des priorités scientifiques. Comme en témoigne l'engouement pour le projet de calcul performance (HPC) décentralisé Folding@Home, qui a fait parler de lui en rassemblant des centaines de milliers de joueurs mettant à disposition leur puissance de calcul pour accélérer la recherche sur les virus.
Rappelant que le problème du repliement des protéines travaille la communauté scientifique depuis 50 ans, Deepmind ne boude pas son plaisir. Son algorithme, Alphafold 2, a remporté haut la main la quatorzième édition de CASP. Un concours créé en 1994 et qui rassemble une centaine d’équipes de recherche dans le monde pour leur permettre de comparer à l’aveugle leurs méthodes de prédiction du repliement des molécules.
Apprentissage profond
En 2018 déjà, lors de la treizième édition du concours, la première version d’Alphafold présentée par Deepmind avait obtenu de beaux résultats. Mais elle restait alors loin des méthodes expérimentales basées, par exemple, sur la cristallographie à rayons x, ou sur la cryo-microscopie électronique. Des méthodes longues, faisant appel à des instruments coûteux, mais relativement efficaces.
Cette-fois, Deepmind rattrape son retard et peut prédire la structure d’une protéine avec une précision moyenne de l’ordre de l’épaisseur d’un atome. Si l’IA peine encore à modéliser certaines protéines, elle devient donc un outil compétitif avec les méthodes expérimentales dans de nombreux cas.
Pour obtenir ces performances, les scientifiques ont traduit les protéines pliées sous formes de graphiques dans l’espace. Ils ont utilisé un réseau de neurones basé sur l’attention, capable de se focaliser sur certaines données pour augmenter son efficacité et de prendre en compte la structure du graphique qu'il construit en se basant notamment sur les résultats d'autres séquences proches.
Entraîné sur un ensemble de bases de données rassemblant quelques 170 000 protéines, Alphafold peut ainsi prédire les structures des protéines à partir de séquences protéiniques en quelques jours, affirme Deepmind, qui cite plusieurs applications, par exemple pour la découverte de médicaments, ou d'enzymes de recyclage. Une percée dont on mesurera l'influence sur la biologie dans les années qui viennent.



