#image_title

Les jumeaux numériques de la Terre et le défi informatique de l’interaction humaine – Nature Computational Science

La couche supérieure de la figure 1 apprendrait des données et des prévisions climatiques abstraites et pourrait être affinée pour des tâches de prévision spécifiques. Nous choisirions une configuration dans laquelle le modèle est pré-entraîné une fois avec des simulations numériques, dans une campagne très coûteuse, pour obtenir une abstraction générale des données climatiques, similaire à l’exemple de prévision météorologique entraîné avec des réanalyses.8. Il serait ensuite affiné à moindre coût pour produire des prévisions, une quantification des incertitudes ou de futures statistiques climatiques.

Pour illustrer les implications informatiques du grand modèle d’instruction pré-entraîné étendu, nous avons choisi la configuration de ClimaXdixcar ses principes de conception reflètent étroitement ceux des modèles dits fondamentaux dans le domaine météorologique et climatique.

Les données d’entrée seraient des champs variables provenant de données de capteurs clairsemées, ainsi que de prévisions météorologiques régionales ou mondiales ou de simulations climatiques. Les différentes variables physiques désignent les modes dans le modèle. On pourrait utiliser une architecture de transformateur de vision (ViT11) pour représenter les régions géographiques et les modes. L’objectif de pré-formation pourrait être une prévision aléatoire comme dans ClimaX. ClimaX utilise 48 variables d’entrée sur une grille de 128 256 et une dimension intérieure de 1 024. Avec une précision en virgule flottante de 32 bits, la taille du tenseur résultante est de 6,4 Gibioctets. ClimaX réduit cette charge de gestion de la mémoire en fusionnant les variables dans une représentation distribuée de la dimension interne avec un total d’environ 50 millions de paramètres, ce qui représente un petit modèle par rapport aux normes actuelles.

La limite supérieure des ressources informatiques serait probablement définie par des données d’entrée globales à résolution km. Cela se traduirait approximativement par une grille de 17 520 à 36 000 habitants. De plus, nous nous attendrions à ce qu’une grande dimension interne (plus grande que celle de ClimaX) améliore considérablement les compétences du modèle. Si nous choisissons la dimension intérieure de 12 288 du GPT-3, nous aurions besoin d’un tenseur d’entrée de taille 48 17 520 36 000 12 288 = 1,5 Exbioctets et d’un réseau conséquent avec près de 100 couches dans notre exemple. Cela n’est clairement pas réalisable et il faudrait adapter le modèle de données physiques à des configurations plus petites. Cela pourrait être réalisé en couplant le modèle de données avec des simulations physiques numériques explicites pour tirer parti de la nature déterministe de ces simulations ou en précalculant les données de simulation et en demandant au modèle d’impact d’interroger les données. D’autres options incluraient des méthodes standard de compression de modèles d’intelligence artificielle telles que la quantification ou la sparsification qui peuvent fournir une compression 10 100x. Des données d’entrée (ensemble) à résolution spatiale plus faible réduiraient également la taille du tenseur d’entrée, mais s’accompagneraient d’autres incertitudes du modèle.

L’impact socio-économique et socio-écologique ainsi que les composants du modèle d’instruction (la couche inférieure de la figure 1) interrogeraient le modèle physique et les données et accepteraient une invite d’un utilisateur. L’invite serait écrite en langage humain, par exemple : Comment les débits d’eau du Rhin limiteraient-ils le trafic de marchandises pendant une année moyenne dans les années 2050 ? une requête qui nécessite une compréhension du changement climatique mondial et régional, des connaissances sur la gestion de l’eau et les infrastructures, ainsi qu’une connaissance des règles et réglementations dans au moins trois pays. La question porterait sur la première partie, et peut-être sur la deuxième partie, mais probablement pas sur la troisième car elle concerne le droit et la gouvernance. Le modèle interpréterait ensuite l’invite, interrogerait le modèle physique et les données et générerait une réponse. Cela représente une tâche ardue car elle nécessite plusieurs modèles d’instruction multimodaux interconnectés. Ceux-ci n’apparaissent que pour interroger des images maintenant12.

Une architecture prometteuse serait d’alimenter une représentation du domaine (soit de procéder préalablement à une intégration par un modèle expert tel que COCO Légende13 ou directement comme dans ViT) dans un transformateur génératif pré-entraîné. OpenAIs GPT-4 a démontré des capacités prometteuses à cet égard, mais les détails de l’architecture ne sont pas publics. Premiers modèles d’instruction visuelle (VIM), similaires au MiniGPT-414et LLaVA a lié des modèles gelés en grand langage (LLM) tels que LAMA15 avec des encodeurs d’images, peut réaliser une compréhension visuelle et une réponse aux questions.

Un autre problème avec les données climatiques est le grand nombre de modes (variables climatiques). Ce problème pourrait être résolu par un schéma similaire à ImageBind, dans lequel un mode est utilisé comme ancre pour lier les autres. ImageBind-LLM16 a démontré des résultats prometteurs pour l’enseignement multimodal et les agents conversationnels. Compte tenu de la dimension des données climatiques d’ensemble à résolution modérée à élevée, nous nous attendons à avoir besoin d’un modèle comportant au moins plusieurs dizaines de milliards de paramètres, ce qui est similaire à ce que LLaMA est capable de gérer aujourd’hui.

Nous pourrions utiliser des incorporations de variables du modèle physique directement (en tant qu’experts) avec un modèle d’adaptateur, ou former un modèle séparé en tant qu’encodeur visuel. On pourrait également insérer des jetons de style ViT directement dans l’invite du modèle de langage. Dans tous les cas, le modèle doit être entraîné pour les applications climatiques, ce qui nécessite une quantité importante de données d’entraînement. L’ajustement précis de l’interaction humaine et des instructions nécessite entre 10 000 et 500 000 exemples d’interaction. Nous nous attendons à ce que nos exigences se situent dans la partie supérieure de cette fourchette, car les sciences du climat sont un domaine spécialisé et bénéficient donc moins de la base de connaissances Internet générale de la composante LLM.

Bien que cela ne fasse qu’illustrer l’ampleur de la tâche et identifier des solutions logicielles possibles, l’évolution rapide de ce domaine promet de nombreuses opportunités pour une adaptation rapide aux applications météorologiques et climatiques.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepteLire la suite