Pour les chimistes, la révolution de l’IA n’a pas encore eu lieu

Protéine cancéreuse.  Modèle informatique de l'enzyme protéine tyrosine kinase, impliquée dans la formation des cellules cancéreuses.

Il y a plus de 20 ans, l’économiseur d’écran pour la recherche sur le cancer exploitait la puissance de calcul distribuée pour évaluer l’activité anticancéreuse des molécules.Crédit : James King-Holmes/SPL

De nombreuses personnes craignent que l’intelligence artificielle (IA) soit allée trop loin ou risque de le faire. Prenez Geoffrey Hinton, une figure éminente de l’IA, qui a récemment démissionné de son poste chez Google, invoquant le désir de s’exprimer sur les risques potentiels des technologies pour la société et le bien-être humain.

Mais face à ces préoccupations générales, dans de nombreux domaines scientifiques, vous entendrez une frustration différente s’exprimer plus discrètement : que l’IA n’est pas encore allée assez loin. L’un de ces domaines est la chimie, pour laquelle les outils d’apprentissage automatique promettent une révolution dans la façon dont les chercheurs recherchent et synthétisent de nouvelles substances utiles. Mais une révolution globale n’a pas encore eu lieu en raison du manque de données disponibles pour alimenter des systèmes d’IA affamés.

Tout système d’IA est aussi bon que les données sur lesquelles il est formé. Ces systèmes s’appuient sur ce qu’on appelle des réseaux de neurones, que leurs développeurs enseignent à l’aide d’ensembles de données d’entraînement qui doivent être volumineux, fiables et sans biais. Si les chimistes veulent exploiter tout le potentiel des outils d’IA générative, ils doivent aider à établir de tels ensembles de données de formation. Plus de données sont nécessaires, à la fois expérimentales et simulées, y compris des données historiques et des connaissances autrement obscures, telles que celles issues d’expériences infructueuses. Et les chercheurs doivent s’assurer que l’information qui en résulte est accessible. Cette tâche est toujours un travail en cours.

Prenez, par exemple, les outils d’IA qui effectuent la rétrosynthèse. Celles-ci commencent par une structure chimique qu’un chimiste souhaite créer, puis remontent pour déterminer les meilleurs matériaux de départ et la séquence d’étapes de réaction pour la créer. Les systèmes d’IA qui mettent en œuvre cette approche incluent 3N-MCTS, conçu par des chercheurs de l’Université de Mnster en Allemagne et de l’Université de Shanghai en Chine.1. Celui-ci combine un algorithme de recherche connu avec trois réseaux de neurones. De tels outils ont attiré l’attention, mais peu de chimistes les ont encore adoptés.

Pour faire des prédictions chimiques précises, un système d’IA a besoin d’une connaissance suffisante des structures chimiques spécifiques avec lesquelles différentes réactions fonctionnent. Les chimistes qui découvrent une nouvelle réaction publient généralement des résultats explorant cela, mais souvent ceux-ci ne sont pas exhaustifs. À moins que les systèmes d’IA n’aient une connaissance approfondie, ils pourraient finir par suggérer des matériaux de départ avec des structures qui empêcheraient les réactions de fonctionner ou conduiraient à des produits incorrects.2.

Un exemple de progrès mitigés vient de ce que les chercheurs en IA appellent la conception inverse. En chimie, cela implique de partir des propriétés physiques souhaitées, puis d’identifier les substances qui ont ces propriétés, et qui peuvent, idéalement, être fabriquées à moindre coût. Par exemple, la conception inverse basée sur l’IA a aidé les scientifiques à sélectionner les matériaux optimaux pour fabriquer des diodes électroluminescentes organiques phosphorescentes bleues3.

Les approches informatiques de la conception inverse, qui demandent à un modèle de suggérer des structures avec les caractéristiques souhaitées, sont déjà utilisées en chimie et leurs résultats sont régulièrement examinés par les chercheurs. Si l’IA doit surpasser les outils de calcul préexistants dans la conception inverse, elle a besoin de suffisamment de données de formation reliant les structures chimiques aux propriétés. Mais ce que l’on entend par suffisamment de données d’entraînement dans ce contexte dépend du type d’IA utilisé.

Un système généraliste d’IA générative tel que ChatGPT, développé par OpenAI à San Francisco, en Californie, est tout simplement gourmand en données. Pour appliquer un tel système d’IA générative à la chimie, des centaines de milliers, voire des millions de points de données seraient nécessaires.

Une approche d’IA plus axée sur la chimie entraîne le système sur les structures et les propriétés des molécules. Dans le langage de l’IA, les structures moléculaires sont des graphes. Dans les molécules, les liaisons chimiques relient les atomes tout comme les arêtes relient les nœuds dans les graphes. De tels systèmes d’IA alimentés par 5 000 à 10 000 points de données peuvent déjà battre les approches informatiques conventionnelles pour répondre aux questions chimiques4 . Le problème est que, dans de nombreux cas, même 5 000 points de données représentent bien plus que ce qui est actuellement disponible.

L’outil de prédiction de la structure des protéines AlphaFold5, sans doute l’application d’IA en chimie la plus réussie, utilise une telle approche de représentation graphique. Les créateurs d’AlphaFolds l’ont formé sur un formidable ensemble de données : les informations de la banque de données sur les protéines, qui a été créée en 1971 pour rassembler l’ensemble croissant de structures protéiques déterminées expérimentalement et contient actuellement plus de 200 000 structures. AlphaFold fournit un excellent exemple de la puissance que les systèmes d’IA peuvent avoir lorsqu’ils sont fournis avec suffisamment de données de haute qualité.

Alors, comment d’autres systèmes d’IA peuvent-ils créer ou accéder à des données chimiques plus nombreuses et de meilleure qualité ? Une solution possible consiste à mettre en place des systèmes qui extraient les données des articles de recherche publiés et des bases de données existantes, comme un algorithme créé par des chercheurs de l’Université de Cambridge, au Royaume-Uni, qui convertit les noms chimiques en structures.6. Cette approche a accéléré les progrès dans l’utilisation de l’IA en chimie organique.

Un autre moyen potentiel d’accélérer les choses est d’automatiser les systèmes de laboratoire. Les options existantes incluent des systèmes de manipulation de matériaux robotisés, qui peuvent être configurés pour fabriquer et mesurer des composés afin de tester les sorties du modèle d’IA7,8. Cependant, à l’heure actuelle, cette capacité est limitée, car les systèmes ne peuvent effectuer qu’une gamme relativement étroite de réactions chimiques par rapport à un chimiste humain.

Les développeurs d’IA peuvent former leurs modèles en utilisant à la fois des données réelles et simulées. Des chercheurs du Massachusetts Institute of Technology de Cambridge ont utilisé cette approche pour créer un modèle graphique capable de prédire les propriétés optiques des molécules, telles que leur couleur.9.

Il existe une autre solution, particulièrement évidente : les outils d’IA ont besoin de données ouvertes. La façon dont les gens publient leurs articles doit évoluer pour rendre les données plus accessibles. C’est une des raisons pour lesquelles Nature demande aux auteurs de déposer leur code et leurs données dans des référentiels ouverts. C’est aussi une raison de plus de se concentrer sur l’accessibilité des données, au-delà des crises scientifiques autour de la réplication des résultats et des rétractions médiatisées. Les chimistes abordent déjà ce problème avec des installations telles que l’Open Reaction Database.

Mais même cela pourrait ne pas être suffisant pour permettre aux outils d’IA d’atteindre leur plein potentiel. Les meilleurs ensembles de formation possibles incluraient également des données sur les résultats négatifs, tels que les conditions de réaction qui ne produisent pas les substances souhaitées. Et les données doivent être enregistrées dans des formats convenus et cohérents, ce qui n’est pas le cas actuellement.

Les applications de la chimie exigent que les modèles informatiques soient meilleurs que le meilleur scientifique humain. Ce n’est qu’en prenant des mesures pour collecter et partager des données que l’IA pourra répondre aux attentes en chimie et éviter de devenir un cas de battage médiatique au détriment de l’espoir.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite