Une subvention de 5 millions de dollars s’attaquera au défi de l’informatique pangénomique | Chronique de Cornell
Alors que les scientifiques continuent de cataloguer les variations génomiques dans tout, des plantes aux humains, les ordinateurs d’aujourd’hui ont du mal à fournir la puissance nécessaire pour découvrir les secrets cachés dans des quantités massives de données génomiques.
Une équipe dirigée par Christopher Batten, professeur agrégé à la School of Electrical and Computer Engineering, répond avec le projet Panorama, un effort sur cinq ans et 5 millions de dollars financé par la National Science Foundation pour créer le premier paradigme intégré d’accélération à l’échelle du rack spécifiquement pour le calcul pangénomique.
Le projet comprend sept chercheurs principaux de trois universités, dont Cornell, l’Université de Washington et le Centre des sciences de la santé de l’Université du Tennessee (UTHSC).
La génomique computationnelle subit un changement radical, a déclaré Batten. La méthode traditionnelle d’examen de l’ADN à l’aide d’un seul génome de référence linéaire cède rapidement la place à un nouveau paradigme utilisant des modèles basés sur des graphes qui peuvent traiter la séquence et la variation dans de grandes collections de génomes apparentés.
Avec un seul génome de référence, vous pouvez comprendre d’autres génomes liés à cette seule référence, a déclaré Batten, mais il est difficile de comprendre comment ils sont liés les uns aux autres et à tout le reste.
Les chercheurs en génétique seraient ravis d’étudier des graphiques de pangénome qui incluent des millions de génomes, mais pour l’instant, c’est impossible. La puissance de calcul nécessaire n’est tout simplement pas disponible. Les exigences de la pangénomique basée sur les graphes nécessitent de repenser l’ensemble de la pile logicielle/matérielle. Mais ce n’est pas simplement un gros problème de données.
Oui, les données sont volumineuses car il y a beaucoup de données, a déclaré Batten. C’est aussi clairsemé parce que c’est irrégulier; toutes les séquences ne sont pas identiques et des éléments manquent. C’est dynamique parce que les généticiens ajoutent chaque jour de nouveaux génomes séquencés. Et puisque chaque séquence d’ADN est unique à chaque personne, nous devons la garder privée.
Construire un système informatique capable d’obtenir des réponses à partir de cet ensemble de données volumineux, épars, dynamique et privé nécessite une approche collaborative de la part des chercheurs en systèmes informatiques travaillant simultanément sur différentes couches de la pile.
Nous devons repenser la façon dont nous construisons des ordinateurs, a déclaré Batten. C’est pourquoi ce projet est si ambitieux. Dans le passé, vous attendiez juste deux ans et vos ordinateurs devenaient naturellement plus rapides. Mais le ralentissement de la loi de Moores signifie que les améliorations inévitables des performances ne se produisent tout simplement plus. Vous avez donc besoin d’une approche croisée pour vraiment avoir un impact.
Cet impact prendra la forme d’un prototype d’ordinateur que l’équipe concevra et construira. La plupart des ordinateurs portables ont de quatre à 10 cœurs, ou unités centrales de traitement ; le prototype Panorama en aura 1 million. La vision du projet pour ce nouvel outil informatique puissant est analogue à l’impact du télescope spatial Hubble : il permettra aux biologistes informatiques d’observer ce qui était auparavant inobservable.
Équipe multidisciplinaire
L’équipe que Batten a réunie pour construire ce système révolutionnaire comprend des experts en biologie computationnelle ; langages de programmation et compilateurs; l’architecture des ordinateurs; et la sécurité et la confidentialité.
Tout a commencé par une rencontre fortuite lors d’une conférence sur les logiciels et le matériel open source à laquelle Batten a assisté en Belgique en janvier 2020 avec un ami de longue date et collaborateur de recherche Michael Taylor, professeur agrégé de génie électrique et informatique à l’Université de Washington. Là, ils se sont connectés avec le professeur assistant de l’UTHSC, Pjotr Prins, l’un des principaux chercheurs mondiaux en génomique computationnelle.
Les autres enquêteurs du projet incluent Erik Garrison de l’UTHSC; Zhiru Zhang et Ed Suh de Cornell ECE; et Adrian Sampson, professeur adjoint d’informatique au Cornell Ann S. Bowers College of Computing and Information Science.
En pangénomique, le but n’est pas de comprendre un seul individu mais d’analyser les génomes de toute une population et d’étudier les relations entre les individus.
Imaginez échantillonner 1 000 saumons d’une rivière donnée pour comprendre la biodiversité de cette rivière, a déclaré Sampson. Les chercheurs s’intéressent également à la façon dont chaque saumon individuel diffère de tous les autres saumons. Dans un échantillon de 1 000 saumons, il y a près de 500 000 couples de saumons à comparer les uns aux autres pour comprendre l’ensemble du pangénome.
Le projet Panorama introduit des défis totalement nouveaux dans la conception et la programmation du matériel.
Nous avons la possibilité de générer du matériel spécialisé à usage unique qui n’est vraiment capable que de résoudre ces énormes problèmes génomiques, a déclaré Sampson. Ce n’est pas une tâche facile, mais si nous pouvons y parvenir, eh bien aider les biologistes à résoudre des problèmes qu’ils ne peuvent même pas commencer à aborder avec les ordinateurs dont ils disposent aujourd’hui.
Une version de cette histoire apparaît sur le site Web du College of Engineering.
Eric Laine est spécialiste des communications à l’École de génie électrique et informatique.