Doug Fuller, vice-président du génie logiciel chez Cornelis Networks – Série d’entrevues

En tant que vice-président du génie logiciel, Doug est responsable de tous les aspects de la pile logicielle de Cornelis Networks, y compris les pilotes de l’architecture Omni-Path, les logiciels de messagerie et les systèmes de contrôle de périphériques intégrés. Avant de rejoindre Cornelis Networks, Doug a dirigé des équipes d’ingénierie logicielle chez Red Hat dans le domaine du stockage cloud et des services de données. La carrière de Doug dans le HPC et l’informatique en nuage a commencé au laboratoire d’informatique évolutive des laboratoires nationaux d’Ames. Après plusieurs rôles dans la recherche universitaire en informatique, Doug a rejoint le laboratoire national du département américain de l’énergie d’Oak Ridge en 2009, où il a développé et intégré de nouvelles technologies à l’Oak Ridge Leadership Computing Facility de classe mondiale.

Cornelis Networks est un leader technologique qui fournit des tissus hautes performances spécialement conçus pour le calcul haute performance (HPC), l’analyse de données haute performance (HPDA) et l’intelligence artificielle (IA) aux principales organisations commerciales, scientifiques, universitaires et gouvernementales.

Qu’est-ce qui vous a d’abord attiré vers l’informatique ?

Je semblais juste aimer travailler avec la technologie. J’ai aimé travailler avec les ordinateurs en grandissant; nous avions un modem dans notre école qui m’a permis d’essayer Internet et j’ai trouvé cela intéressant. En tant qu’étudiant de première année à l’université, j’ai rencontré un informaticien de l’USDOE alors que je faisais du bénévolat pour le National Science Bowl. Il m’a invité à visiter son laboratoire HPC et j’ai été conquis. Depuis, je suis un geek des supercalculateurs.

Vous avez travaillé chez Red Hat de 2015 à 2019, quels ont été certains des projets sur lesquels vous avez travaillé et vos principaux enseignements de cette expérience ?

Mon projet principal chez Red Hat était le stockage distribué Ceph. Auparavant, je me concentrais entièrement sur le HPC, ce qui m’a donné l’opportunité de travailler sur des technologies essentielles à l’infrastructure cloud. Ça rime. De nombreux principes d’évolutivité, de gérabilité et de fiabilité sont extrêmement similaires, même s’ils visent à résoudre des problèmes légèrement différents. En termes de technologie, ce que je retiens le plus, c’est que le cloud et le HPC ont beaucoup à apprendre l’un de l’autre. Nous construisons de plus en plus de projets différents avec le même set Lego. Cela m’a vraiment aidé à comprendre comment les technologies habilitantes, y compris les fabrics, peuvent avoir une incidence sur les applications HPC, cloud et IA. C’est aussi là que j’ai vraiment compris la valeur de l’Open Source et comment exécuter la philosophie de développement logiciel Open Source, d’abord en amont, que j’ai apportée à Cornelis Networks. Personnellement, Red Hat a été l’endroit où j’ai vraiment grandi et mûri en tant que leader.

Vous êtes actuellement vice-président du génie logiciel chez Cornelis Networks, quelles sont certaines de vos responsabilités et à quoi ressemble votre journée moyenne ?

En tant que vice-président du génie logiciel, je suis responsable de tous les aspects de la pile logicielle de Cornelis Networks, y compris les pilotes de l’architecture Omni-Path, le logiciel de messagerie, la gestion de la structure et les systèmes de contrôle des périphériques intégrés. Cornelis Networks est un endroit passionnant, surtout en ce moment et sur ce marché. À cause de cela, je ne suis pas sûr d’avoir une journée « moyenne ». Certains jours, je travaille avec mon équipe pour résoudre le dernier défi technologique. D’autres jours, j’interagis avec nos architectes matériels pour m’assurer que nos produits de nouvelle génération seront à la hauteur de nos clients. Je suis souvent sur le terrain pour rencontrer notre incroyable communauté de clients et de collaborateurs afin de m’assurer que nous comprenons et anticipons leurs besoins.

Cornelis Networks propose une mise en réseau de nouvelle génération pour les applications de calcul haute performance et d’intelligence artificielle, pourriez-vous partager quelques détails sur le matériel proposé ?

Notre matériel consiste en une solution de tissu réseau de type tissu commuté hautes performances. À cette fin, nous fournissons tous les appareils nécessaires pour intégrer pleinement les structures HPC, cloud et IA. L’interface Omni-Path Host-Fabric (HFI) est une carte PCIe à profil bas pour les périphériques d’extrémité. Nous produisons également un commutateur « top-of-rack » 1U à 48 ports. Pour les déploiements plus importants, nous fabriquons deux commutateurs « de classe directeur » entièrement intégrés ; un qui contient 288 ports en 7U et un périphérique 1152 ports, 20U.

Pouvez-vous discuter du logiciel qui gère cette infrastructure et comment il est conçu pour diminuer la latence ?

Tout d’abord, notre plate-forme de gestion intégrée permet une installation et une configuration faciles ainsi qu’un accès à une grande variété de mesures de performances et de configuration produites par nos commutateurs ASIC.

Notre logiciel pilote est développé dans le cadre du noyau Linux. En fait, nous soumettons directement tous nos correctifs logiciels à la communauté du noyau Linux. Cela garantit que tous nos clients bénéficient d’une compatibilité maximale entre les distributions Linux et d’une intégration facile avec d’autres logiciels tels que Lustre. Bien qu’il ne soit pas dans le chemin de la latence, le fait d’avoir un pilote dans l’arborescence réduit considérablement la complexité de l’installation.

Le gestionnaire de fabric Omni-Path (FM) configure et achemine un fabric Omni-Path. En optimisant les routes de trafic et en récupérant rapidement des pannes, le FM offre des performances et une fiabilité de pointe sur les structures de dizaines à des milliers de nœuds.

Omni-Path Express (OPX) est notre logiciel de messagerie hautes performances, récemment lancé en novembre 2022. Il a été spécialement conçu pour réduire la latence par rapport à notre logiciel de messagerie précédent. Nous avons effectué des simulations au cycle précis de nos chemins de code d’envoi et de réception afin de minimiser le nombre d’instructions et l’utilisation du cache. Cela a produit des résultats spectaculaires : lorsque vous êtes dans le régime de la microseconde, chaque cycle compte !

Nous avons également intégré les interfaces OpenFabrics (OFI), une norme ouverte produite par l’OpenFabrics Alliance. L’architecture modulaire d’OFI aide à minimiser la latence en permettant aux logiciels de niveau supérieur, tels que MPI, d’exploiter les fonctionnalités de la structure sans appels de fonction supplémentaires.

L’ensemble du réseau est également conçu pour augmenter l’évolutivité, pourriez-vous partager quelques détails sur la façon dont il est capable d’évoluer si bien ?

L’évolutivité est au cœur des principes de conception d’Omni-Path. Aux niveaux les plus bas, nous utilisons la technologie de couche de liaison Cray pour corriger les erreurs de liaison sans impact sur la latence. Cela affecte les fabrics à toutes les échelles, mais est particulièrement important pour les fabrics à grande échelle, qui subissent naturellement plus d’erreurs de liaison. Notre fabric manager s’attache à la fois à programmer des tables de routage optimales et à le faire de manière rapide. Cela garantit que le routage, même pour les tissus les plus grands, peut être effectué en un minimum de temps.

L’évolutivité est également un composant essentiel d’OPX. La minimisation de l’utilisation du cache améliore l’évolutivité sur les nœuds individuels avec un grand nombre de cœurs. La minimisation de la latence améliore également l’évolutivité en améliorant le temps d’exécution des algorithmes collectifs. L’utilisation plus efficace de nos ressources d’interface hôte-fabric permet à chaque cœur de communiquer avec davantage de pairs distants. Le choix stratégique de libfabric nous permet de tirer parti de fonctionnalités logicielles telles que des terminaux évolutifs utilisant des interfaces standard.

Pourriez-vous partager quelques détails sur la façon dont l’IA est intégrée dans certains flux de travail chez Cornelis Networks ?

Nous ne sommes pas tout à fait prêts à parler à l’extérieur de nos utilisations internes et de nos plans pour l’IA. Cela dit, nous mangeons notre propre nourriture pour chien, nous pouvons donc profiter des améliorations de latence et d’évolutivité que nous avons apportées à Omni-Path pour prendre en charge les charges de travail d’IA. Cela nous rend d’autant plus enthousiastes à l’idée de partager ces avantages avec nos clients et partenaires. Nous avons certainement observé que, comme dans le HPC traditionnel, la mise à l’échelle de l’infrastructure est la seule voie à suivre, mais le défi est que les performances du réseau sont facilement étouffées par Ethernet et d’autres réseaux traditionnels.

Quels sont les changements que vous prévoyez dans l’industrie avec l’avènement de l’IA générative ?

Tout d’abord, l’utilisation de l’IA générative rendra les gens plus productifs, aucune technologie dans l’histoire n’a rendu les êtres humains obsolètes. Toutes les évolutions et révolutions technologiques que nous avons eues, de l’égreneuse à coton au métier à tisser automatique en passant par le téléphone, Internet et au-delà, ont rendu certains emplois plus efficaces, mais nous n’avons pas éliminé l’humanité.

Grâce à l’application de l’IA générative, je pense que les entreprises progresseront technologiquement à un rythme plus rapide, car ceux qui dirigent l’entreprise auront plus de temps libre pour se concentrer sur ces avancées. Par exemple, si l’IA générative fournit des prévisions, des rapports, une planification, etc. plus précis, les entreprises peuvent se concentrer sur l’innovation dans leur domaine d’expertise

Je pense spécifiquement que l’IA fera de chacun de nous un expert multidisciplinaire. Par exemple, en tant qu’expert en logiciels évolutifs, je comprends les liens entre les applications HPC, Big Data, cloud et IA qui les poussent vers des solutions comme Omni-Path. Équipé d’un assistant IA génératif, je peux approfondir le signification des applications utilisées par nos clients. Je suis convaincu que cela nous aidera à concevoir du matériel et des logiciels encore plus efficaces pour les marchés et les clients que nous desservons.

Je prévois également une amélioration globale de la qualité des logiciels. L’IA peut fonctionner efficacement comme « une autre paire d’yeux » pour analyser statiquement le code et développer des informations sur les bogues et les problèmes de performances. Cela sera particulièrement intéressant à grande échelle où les problèmes de performances peuvent être particulièrement difficiles à repérer et coûteux à reproduire.

Enfin, j’espère et je crois que l’IA générative aidera notre industrie à former et à intégrer davantage de professionnels du logiciel sans expérience préalable en IA et en HPC. Notre domaine peut sembler intimidant pour beaucoup et cela peut prendre du temps pour apprendre à « penser en parallèle ». Fondamentalement, tout comme les machines ont facilité la fabrication des choses, l’IA générative facilitera la réflexion et le raisonnement sur les concepts.

Y a-t-il autre chose que vous aimeriez partager à propos de votre travail ou de Cornelis Networks en général ?

J’aimerais encourager toute personne intéressée à poursuivre une carrière en informatique, en particulier dans le HPC et l’IA. Dans ce domaine, nous sommes équipés des moyens de calcul les plus puissants jamais construits et nous les mettons au service des plus grands défis de l’humanité. C’est un endroit passionnant, et j’ai apprécié chaque étape du chemin. L’IA générative amène notre domaine à des sommets encore plus élevés alors que la demande d’augmentation des capacités augmente considérablement. J’ai hâte de voir où nous allons ensuite.

Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter Cornelis Networks.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite