Terra simplifie l’informatique omique dans le cloud

Recevez des mises à jour en temps réel directement sur votre appareil, abonnez-vous maintenant.

La recherche biomédicale produit des quantités massives de données. Mais en fait, les partager peut être un défi.

Peu importe à quel point vous êtes enthousiaste à l’idée de partager des données, le partage de données est en fait une douleur logistique, explique Elinor Karlsson, généticienne à la faculté de médecine Chan de l’Université du Massachusetts à Worcester.

Karlsson est co-responsable du noyau génétique du Dog Aging Project, une étude longitudinale financée par les National Institutes of Health (NIH) des États-Unis, qui vise à comprendre la génétique du vieillissement en bonne santé en analysant plusieurs milliers de séquences génomiques et de données de santé provenant de 100 000 animaux de compagnie.

Le projet implique des chercheurs de plusieurs institutions, qui doivent tous être en mesure d’accéder aux données et de les analyser. Les stratégies conventionnelles de partage de données telles que les serveurs partagés, les téléchargements de données et même l’expédition de disques physiques n’étaient tout simplement pas à la hauteur de la tâche, explique Karlsson.

Les progrès du séquençage de l’ADN signifient qu’il est beaucoup plus facile de collecter des données génétiques que de les analyser. Au fur et à mesure que les ensembles de données ont explosé, dit Karlsson, nous sommes passés du fait qu’il était peu pratique de copier des données sur mon serveur à un coût prohibitif. Les institutions n’avaient pas les moyens de suivre le rythme.

Le projet s’est donc tourné vers un système qui pouvait : Terra.

Terra a commencé sa vie en tant que service appelé FireCloud. Il a été développé par l’équipe Data Sciences Platform (DSP) du Broad Institute du MIT et de Harvard à Cambridge, Massachusetts, en collaboration avec Microsoft et Verily Life Sciences, une filiale de la société mère de Google, Alphabet. En 2019, il a été renommé et intégré au laboratoire-espace d’analyse, de visualisation et d’informatique des instituts nationaux de recherche sur le génome humain (AnVIL). L’interface Web de Terras offre un accès convivial à des workflows évolutifs, des outils de collaboration et d’analyse. Il permet aux chercheurs d’intégrer et d’analyser rapidement de vastes ensembles de données omiques sur la plate-forme Google Cloud. Plutôt que d’obliger les chercheurs à rechercher et télécharger des données pour les analyser localement, Terra leur permet de travailler sur les données in situ, en utilisant autant ou aussi peu de puissance de calcul que nécessaire.

Il s’agit vraiment d’augmenter l’accès et de briser [data kept in separate] des silos afin que vous puissiez faire de la science plus intéressante avec les données générées, explique Geraldine Van der Auwera, directrice de la communication pour le DSP au Broad Institute. Terra donne accès à des ensembles de données tels que le Cancer Genome Atlas, la Genome Aggregation Database et le All of Us Research Program, dont le dernier comprend à lui seul quelque 3,7 pétaoctets. Les utilisateurs peuvent également télécharger leurs propres données ; l’accès aux informations sensibles (personnellement identifiables) est limité aux personnes disposant d’une autorisation appropriée.

Terra peut être utilisé en mode batch, en exécutant des scripts écrits dans le Workflow Description Language (un outil pour spécifier les workflows de traitement des données) pour piloter n’importe quoi d’un à des dizaines de milliers d’ordinateurs virtuels. Les chercheurs peuvent également explorer les données de manière interactive à l’aide d’outils tels que Jupyter Notebook, RStudio et le moteur de flux de travail graphique Galaxy.

Michael Schatz, biologiste computationnel à l’Université Johns Hopkins de Baltimore, Maryland, faisait partie d’une équipe qui a utilisé Terra et d’autres composants AnVIL pour traiter les données du consortium Telomere-to-Telomere, qui en mai 2021 a documenté le premier assemblage sans espace. du génome humain. Cet assemblage ajoute quelque 200 millions de paires de bases d’ADN au génome humain, et le consortium Telomere-to-Telomere l’a utilisé pour rechercher des variantes dans les 3 202 génomes séquencés dans le cadre du projet 1000 génomes. Un cluster informatique au sein du Maryland Advanced Research Computing Center (MARCC) à Baltimore, une installation haute performance de plusieurs millions de dollars, aurait eu besoin d’un an pour effectuer ces analyses, estime Schatz. Mais en utilisant Terra, cela n’a pris que quelques semaines, y compris le temps d’optimisation. Si nous devions le refaire, nous pourrions probablement tout faire en une semaine environ, dit-il.

Pour Karlsson, Terra facilite l’accès aux données et les problèmes de collaboration. Son doctorante, Kathleen Morrill, a créé des scripts pour automatiser le téléchargement et l’analyse de nouveaux ensembles de données, par exemple pour déterminer le sexe des animaux séquencés. Les chercheurs qui souhaitent explorer davantage ces données peuvent simplement se connecter, copier son espace de travail partagé et se mettre au travail. Dans le laboratoire physique, vous rendriez vos données reproductibles grâce à votre cahier de laboratoire, explique Morrill. En ayant l’analyse sur le cloud dans ces espaces de travail Terra, cela devient quelque chose de plus facile à suivre, à partager et à reproduire.

C. Titus Brown, bioinformaticien à l’Université de Californie à Davis, et son équipe créent des didacticiels pour Terra dans le cadre de leur travail pour le NIH Common Fund Data Ecosystem, une initiative de réutilisation des données. Bien qu’il trouve la plate-forme prometteuse, Brown prévient que le cloud computing est encore nouveau et dit qu’il faudra un certain temps avant que ce ne soit la meilleure option pour tout le monde. Il y a une courbe d’adoption technologique, explique-t-il, et ils étaient encore [in the] stades très précoces. Peu de scientifiques sont à l’aise de travailler dans le cloud, même avec l’interface relativement conviviale de Terras. Et les chercheurs et les institutions sont plus habitués à acheter des ordinateurs qu’à louer du temps dessus.

Et puis il y a le fait que le coût du cloud computing peut être opaque. Alexander Bick, généticien humain au Vanderbilt University Medical Center à Nashville, Tennessee, se souvient d’un étudiant qui a par inadvertance demandé trop de ressources informatiques sur Terra, accumulant 500 $ US pour un travail qui n’aurait dû coûter que 5 $. C’était parmi les courses les plus chères que nous ayons eues, dit-il. Mais c’était aussi comparable à gaspiller une fiole d’anticorps, note-t-il. Tout est relatif.

Schatz conseille de commencer petit, par exemple en analysant quelques échantillons pour évaluer le coût par échantillon, puis en augmentant. Établissez des pare-feu pour que les flux de travail intensifs ne brûlent pas votre budget. Et optimisez votre flux de travail, ajoute Ryan Collins, généticien informaticien et doctorant à la Harvard Medical School de Boston. Chaque gigaoctet supplémentaire de RAM que vous demandez se traduira directement par un coût qui vous sera refacturé, dit-il.

Le site Web de Terras répertorie les espaces de travail qui regroupent différents flux de travail avec des données de modèle, y compris des détails sur les prix pour aider les utilisateurs à estimer le coût de leurs propres données. Quelque 56 espaces de travail de ce type ont été créés, selon Van der Auwera, dont deux issus du projet Human Cell Atlas.

Pour Brown, Terra brille lorsqu’il travaille avec des données sensibles ou extrêmement volumineuses. Les règles de confidentialité interdisent de travailler avec des données de santé sensibles sur des systèmes non sécurisés, note-t-il. Et le téléchargement de données depuis le cloud peut être coûteux, certains ensembles de données coûtant des dizaines de milliers de dollars à télécharger en raison de leur taille. Si au lieu de cela, vous pouvez dépenser 3 000 $ sur Terra pour faire votre calcul, c’est clairement une victoire.

En outre, dans de nombreux cas, il n’y a pas d’autre option pratique, note Karlsson, même pour les institutions disposant de ressources informatiques locales hautes performances. Les clusters sur site puissants, tels que MARCC, peuvent toujours avoir des difficultés avec les ensembles de données génomiques modernes. Que ce soit Terra ou autre chose, nous avons besoin de quelque chose pour accéder à cet énorme environnement à l’échelle des données, dit-elle.

www.actusduweb.com
Suivez Actusduweb sur Google News


Recevez des mises à jour en temps réel directement sur votre appareil, abonnez-vous maintenant.

commentaires

Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite