Avec son cœur Cortex-A320 à architecture Armv9, Arm ouvre résolument la voie à une IA massive pour l’IoT dans l’Edge

« Pour la première fois, nous voyons un processeur à architecture Armv9 spécifiquement optimisé pour les applications IoT, réunissant efficacité ultra-élevée et capacités d'IA avancées, choses qui n'étaient pas possible d’imaginer jusqu'à présent. Nous nous dirigeons vers un avenir où la prise de décision intelligente se produira au plus près du point de collecte des données, réduisant la latence et améliorant la confidentialité. Avec l’annonce aujourd’hui du cœur de processeur Cortex-A320 , il ne s’agit pas seulement d’une avancée progressive de nos technologies, mais d’un changement fondamental dans la façon dont nous allons aborder l’informatique en bordure de réseau (Edge) et le traitement de l’IA ». 

C’est ainsi que Arm, dans un blog signé de Paul Willamson Senior Vice President et general manager de la IoT Line of Bussiness d’Arm, présente l’arrivée sur le marché du Cortex-A320, la plus petite implantation de l’architecture Armv9 d’Arm, dévoilée en 2021 et qui offre des capacités intrinsèques d’accélération d’algorithmes d’intelligence artificielle (IA), de sécurité et de virtualisation.

Le Cortex-A320 est un processeur 64 bits (prise en charge des jeux d'instructions AArch64) dont la microarchitecture est dérivée du Cortex-A520, destiné au marché automobile, mais qui a été optimisée pour améliorer la surface et la puissance apportant des améliorations en termes d’efficacité de plus de 50 %, selon Arm. Des améliorations du système de mémoire ont également amélioré les performances scalaires du Cortex-A320, de plus de 30 % par rapport à son prédécesseur, le Cortex-A35.

Plus important encore, selon Arm, en intégrant les améliorations Armv9 dans les technologies de traitement vectoriel Neon et SVE2 (Scalable Vector Extension), le Cortex-A320 affiche des amélioration du traitement des systèmes d’apprentissage automatique (ML, Machine Learning) d’un facteur 10 par rapport au Cortex-A35, et d’un facteur 6 fois par rapport au Cortex-A53, le processeur sur architectures Armv8 très répandu sur le terrain, et d’un facteur 8 par rapport au Cortex-M85, le processeur Cortex-M le plus performant.

Ces améliorations significatives des capacités ML, combinées à une surface et une efficacité énergétique élevées, qualifient selon Arm, le Cortex-A320 comme le cœur le plus efficace des applications ML sur tous les processeurs Arm Cortex-A. 

Côté mémoire, le Cortex-A320 prend en charge jusqu'à 64 Ko de caches L1 et jusqu'à 512 Ko de caches L2, et il dispose d'une interface AMBA5 AXI 256 bits vers la mémoire externe. Le cache L2 et le TLB L2 peuvent être partagés entre les processeurs Cortex-A320, et l'unité de traitement vectoriel qui implante les technologies NEON et SVE2 SIMD (Single Instruction, Multiple Data), peut être soit privée dans un complexe monocœur, soit partagée entre deux cœurs dans une implantation à deux ou quatre cœurs.

Grâce aux améliorations significatives apportées à l’apprentissage automatique dans l'architecture Armv9, un Cortex-A320 à quatre cœurs peut par exemple exécuter jusqu'à 256 Giga opérations/s lorsqu'il fonctionne à 2 GHz. Par conséquent, selon Arm, le Cortex-A320 peut exécuter des cas d'utilisation d’application de ML et d’IA directement sur le processeur, sans avoir besoin d'un accélérateur externe. Ce qui peut économiser de la surface, de la puissance et de la complexité du système, pour les appareils ciblant une large gamme d'applications. 

Le Cortex-A320 qui bénéficie d'un support étendu de Linux apporte aussi des améliorations significatives à la sécurité, essentielle pour tout système embarqué de l’IoT, comme l'extension de balisage de mémoire (MTE) qui offre une sécurité de mémoire améliorée, ainsi que l'authentification de pointeur (PAC) et l'identification de cible de branche (BTI), qui atténuent les attaques de programmation.

Selon Arm, le Cortex-A320 est adapté pour les applications où un Cortex-M hautes performances est traditionnellement utilisé, pour les application avec un systèmes d’exploitation temps réel qui nécessitent des fonctionnalités de gestion de la mémoire évoluées, ou pour des cas d'utilisation multicœurs hétérogènes qui combinent un Cortex-A avec un cœur de classe microcontrôleur, le Cortex-A320 permettant dans ce cas aux partenaires d'Arm d'utiliser un petit cœur compatible architecturalement aux côtés du plus gros processeur Cortex-A, de sorte que l'architecture mémoire est simplifiée.

Côté logiciel, le Cortex-A320 peut fournir un support Linux prêt à l'emploi et procure la portabilité logicielle pour Android ou tout autre système d'exploitation existant.

 

Au-delà, Arm met l’accent sur la compatibilité du Cortex-A320 avec le processeur neuronal Ethos-U85 d’Arm, annoncé en 2024, est conçu pour tolérer les mémoires à latence plus élevée généralement trouvées dans les systèmes fondé sur des Cortex-A. Dans ce cadre, le pilote de l’Ethos-U85 a été mis à jour pour qu'il puisse être piloté directement par un Cortex-A320, sans avoir besoin d'un îlot spécifique fondé sur un Cortex-M. Une mise à jour qui, selon Arm, améliore la latence et permet aux partenaires Arm de supprimer le coût et la complexité de l'utilisation d'un Cortex-M pour piloter le NPU. 

De plus, les performances d'accès à la mémoire et le système de mémoire amélioré du Cortex-A320 permettent l'exécution de modèles ML plus volumineux, tels que les modèles de langage volumineux (LLM) de plus d'un milliard de paramètres, qui ne peuvent pas fonctionner efficacement sur les systèmes à base de Cortex-M en raison de l'espace mémoire adressable limité. 

En apportant la sécurité de l'architecture Armv9 et des niveaux de performance d'IA sans précédent pour des Cortex-A, le Cortex-A320 offre ainsi, selon Arm, de nouvelles possibilités aux utilisateurs pour développer et déployer des cas d'utilisation exigeants, ouvrant une nouvelle ère pour les appareils d'IA mise en œuvre dans l’Edge en ciblant plusieurs marchés de l'IoT notamment dans l'automatisation industrielle.