Que signifie TOPS et est-ce important lorsque j’achète un ordinateur portable ?
Les nouvelles technologies apportent toujours beaucoup de nouveau jargon, et la soi-disant révolution de l’IA pousse chaque fabricant d’ordinateurs et de puces à en lancer un nouveau : TOPS. Bien que comprendre TOPS ne soit pas essentiel pour comprendre comment les outils d’IA fonctionneront entièrement sur vos téléphones et ordinateurs ou sur le traitement hybride cloud/local, cela peut s’avérer une mesure utile à prendre en compte lors de l’achat, tout autant que quelque chose comme le couple lors de l’achat d’une voiture. , Mo/s lors de l’achat d’un stockage informatique, ou GHz lors de l’achat d’un processeur. Aucun de ces éléments n’est parfait, surtout compte tenu de la rapidité avec laquelle la technologie évolue.
Que signifie TOPS ?
TOPS est un simple acronyme pour Tera Operations Per Second ou Trillion Operations Per Second. Ce sont les mêmes parce que « tera » est le préfixe de trillion. Et les opérations ? Ici, ce sont des opérations sur des entiers 8 bits (INT8) ; en d’autres termes, le type de données et les mathématiques utilisées par un processeur neuronal sur puce pour l’accélération de l’IA.
Étant donné que TOPS est une mesure de vitesse, vous verrez généralement cette spécification répertoriée à côté de la récente vague d’unités de traitement neuronal apparaissant dans les ordinateurs portables et les téléphones ; Les NPU sont moins importants sur les ordinateurs de bureau, car ils sont destinés aux appareils où les économies d’énergie sont importantes. Ils sont plus lents que le GPU (unité de traitement graphique), qu’il soit intégré à la puce ou discret, qui peut également faire le calcul des nombres entiers, mais ils consomment beaucoup moins d’énergie.
Les NPU sont également destinés à exécuter des modèles auxquels vous accédez localement sur votre appareil plutôt que de compter sur le cloud : c’est une question de coût. Comme l’a récemment déclaré un dirigeant à propos de l’exécution de l’IA de base dans le cloud, « quelqu’un doit payer pour ces serveurs ». Il permet également aux spécialistes du marketing d’apaiser vos craintes concernant la confidentialité et la sécurité : « il ne fonctionne que localement et n’est pas téléchargé ! »

Du côté des fabricants, il s’agit du débit théorique maximal, il sera donc toujours indiqué comme « jusqu’à » quoi que ce soit. Comme le GHz pour les processeurs, il est là pour suggérer un certain niveau de performances que vous pouvez attendre de la puce. Dans un scénario comparable, la puce dotée de la spécification TOPS la plus élevée devrait accomplir les tâches d’IA plus rapidement, ce qui pourrait faire une grande différence dans l’utilité et la réactivité de divers outils d’IA, tels que la reconnaissance d’images, la génération de texte ou un certain nombre d’autres. technologies d’assistance à l’IA.
Performances du NPU
NPU TOPS (jusqu’à) | |
Intel Core Ultra (2023) | 11.5 |
AMD Ryzen série 8040 (2023) | 16 |
Série Apple M3 (2023) | 18 |
Pomme M4 (2024) | 38 |
Série Snapdragon X (2024) | 45 |
Lac lunaire Intel (2024) | 48 |
Série AMD 300 (2024) | 50 |
Pourquoi TOPS est soudainement important
Les TOP sont devenus un gros problème lorsque Microsoft et Qualcomm ont lancé la plate-forme Copilot Plus de Microsoft pour Windows, où 40 NPU TOPS constituent la ligne de démarcation, rendant chaque puce d’ordinateur portable grand public plus ancienne non qualifiée pour la plate-forme. En effet, les PC Copilot Plus utilisent un ensemble spécifique d’interfaces de programmation Windows pour accélérer certaines fonctionnalités de base liées à l’IA et certains modèles sur l’appareil, non seulement ceux de Windows, mais également ceux des logiciels d’autres développeurs. Les premiers systèmes proposant cela sont construits autour des puces Snapdragon X Elite et X Plus de Qualcomm, qui disposent d’un NPU Hexagon personnalisé capable de jusqu’à 45 TOPS.
Moins d’un mois après le lancement de Qualcomm, nous avons déjà entendu parler du nouveau Série AMD Ryzen AI 300 (à venir en juillet) et Lac lunaire Intel CPU (à venir au troisième trimestre) avec des NPU réarchitectes. Ils utilisent un type de données appelé bloc à virgule flottante, qui combine efficacement une représentation compressée de virgule flottante 16 bits – un type de données qui permet le stockage et la manipulation de nombres beaucoup plus grands et plus petits que INT8 – avec INT8.

Regarde ça: Microsoft annonce les premiers PC Surface Copilot Plus alimentés par Qualcomm
Cela leur permet de faire passer leurs performances NPU dans la zone Copilot Plus. L’Apple M4 a été mis à niveau vers la dernière version du noyau Arm, qui utilise également le bloc FP ; d’où son amélioration par rapport au M3. (Voir l’explication de Nvidia sur la parcimonie, qui concerne les mathématiques matricielles effectuées par ses cœurs Tensor. Ce n’est pas la même chose que le bloc FP, mais vous donne un exemple de la façon dont la compression peut fonctionner.)
Au-delà de Copilot Plus
Bien que NPU TOPS soit utile pour voir à quelle vitesse vous pourrez peut-être exécuter les expériences pilotées par Copilot de Microsoft (comme Rappel), ce n’est pas la performance ultime. Tous les processus d’IA ne peuvent pas utiliser confortablement les mathématiques entières et, par conséquent, la mesure INT8 TOPS ne peut refléter que la rapidité avec laquelle une puce gérera les bases. Cela n’inclut pas l’IA générative géniale qui peut créer des images et des vidéos détaillées à partir d’invites textuelles.
Non seulement les processeurs graphiques dédiés peuvent déjà atteindre des vitesses beaucoup plus élevées, mais les GPU de la série RTX 40 de Nvidia offrent des centaines de TOPS, même à partir de ses GPU mobiles de niveau inférieur. Le CPU peut gérer les calculs, bien que beaucoup plus lentement que le NPU dans certains cas.

TOPS cède donc déjà la place à la plateforme TOPS en tant que mesure plus impressionnante sur le plan marketing. Platform TOPS est une mesure des performances globales de tous les processeurs du système : CPU, NPU et GPU(s). Lorsque vous le voyez, n’oubliez pas qu’il peut varier considérablement selon que vous êtes sur secteur ou sur batterie.
D’un autre côté, si un système dispose d’un TOPS de plate-forme élevée mais n’a pas de NPU, cela exclut la prise en charge de tout Expériences Copilot Plus sous Windows, vous vous en soucierez peut-être, du moins pour le moment.
N’importe quel GPU peut fonctionner avec plusieurs types de données. La plupart des outils génératifs sérieux sont écrits en pensant aux mathématiques à virgule flottante. Si un outil s’appuie sur des opérations à virgule flottante (FP16 et FP32), vous recherchez plutôt une métrique TFLOPS : des opérations à virgule flottante d’un billion/téra. Ensuite, il y a les extensions matricielles introduites dans les puces CPU, qui effectuent les mêmes types d’opérations que les cœurs Tensor dédiés. Ces deux éléments sont bien plus importants pour les éléments de grande puissance, comme la formation des modèles plutôt que de simplement les exécuter. Nous nous attendons à ce que la mesure des performances de l’IA d’un PC évolue encore avant de pouvoir nous habituer à celle-ci.