Ambarella amène à son tour l’IA générative en périphérie (edge) pour satisfaire les applications industrielles[EDITION ABONNES] A l’instar de MediaTek, Ceva, Andes, Kneron, Quadric, Vsora, Kinara ou Nvidia, Ambarella, spécialiste des circuits intégrés de traitement vidéo et de vision artificielle à haute résolution et basse consommation, est certain que les technologies d’intelligence artificielle (IA) générative, initialement déployées sur des serveurs dans le cloud, vont gagner la périphérie de réseau (edge). A l’occasion du CES 2024 qui ouvre ses portes aujourd’hui 9 janvier à Las Vegas (Etats-Unis), la société de semi-conducteurs compte démontrer que les grands modèles de langage (LLM) multimodaux (aptes à traiter du texte, des images et du son) peuvent s’exécuter sur ses nouvelles puces-systèmes N1. Et ce pour une fraction de la consommation par inférence des principaux processeurs graphiques (GPU) disponibles aujourd’hui. La firme américaine a ainsi l’ambition d’apporter à terme l’IA générative aux terminaux edge et aux équipements sur site pour des applications telles que l'analyse pour la sécurité vidéo, la robotique et d'autres applications industrielles. Dans la pratique, Ambarella compte offrir dans un premier temps des capacités de traitement d'IA générative optimisées sur ses SoC de milieu et de haut de gamme, du modèle CV72 existant pour des consommations inférieures à 5 W, jusqu'à la nouvelle famille N1 pour des performances de classe serveur dans des enveloppes thermiques situées sous la barre des 50 W. « Pratiquement toutes les applications edge vont être améliorées grâce l'IA générative au cours des dix-huit prochains mois, assure Alexander Harrowell, analyste Advanced Computing pour la société d'études Omdia. Lorsque les charges de travail GenAI migrent vers la périphérie, les défis à relever portent sur les performances par watt et l'intégration avec le reste de l'écosystème edge, et pas seulement sur la capacité de traitement brute. » A ce titre, toutes les puces-systèmes dopées à l’IA d'Ambarella sont prises en charge par la nouvelle plateforme de développement Cooper de la société de semi-conducteurs. De plus, afin de réduire les délais de mise sur le marché, Ambarella a porté au préalable et optimisé des LLM populaires, tels que Llama-2 et le modèle LLava (Large Language and Video Assistant), pour un fonctionnement sur la puce N1 pour une analyse multimodale de la vision dans des systèmes équipés de 32 caméras au maximum. Ces modèles pré-entraînés et affinés seront disponibles pour téléchargement à partir de la bibliothèque en ligne Cooper Model Garden. Pour de nombreuses applications du monde réel, la saisie visuelle est une modalité clé, en plus du langage, et l'architecture SoC d'Ambarella est présentée comme nativement bien adaptée au traitement simultané de la vidéo et de l'IA à très faible consommation. Et ce tout en continuant à exécuter toutes les fonctions système, contrairement à un accélérateur d'IA autonome, affirme la société américaine. Selon Ambarella, l’IA générative sera à terme une fonction indispensable pour le traitement de la vision artificielle qui apportera une compréhension du contexte et de la scène à une variété d’équipements, depuis les installations de sécurité et les robots autonomes jusqu'aux applications industrielles. Parmi les applications ciblées, l’entreprise cite les recherches contextuelles intelligentes sur les images de sécurité, les robots pouvant être contrôlés avec des commandes en langage naturel, ou les assistants IA pouvant effectuer un peu tout et n’importe quoi, de la génération de code à la génération de texte et d'images. Reposant sur l’architecture CV3-AD d'Ambarella, initialement développée pour les applications de conduite autonome, la famille de SoC N1 serait en mesure de mettre en œuvre les performances associées pour exécuter des LLM multimodaux avec une empreinte énergétique extrêmement faible. A titre d’exemple, le SoC N1 peut exécuter le modèle Llama2-13B avec jusqu'à 25 tokens de sortie par seconde en mode mono-streaming pour une consommation inférieure à 50 W, détaille la société. Combinée à la facilité d'intégration des modèles préalablement portés sur la puce, cette nouvelle solution permettrait aux équipementiers de déployer l'IA générative dans n'importe quelle application dont la consommation doit être limitée, à l’instar d'un boîtier IA sur site ou d’un robot de livraison. Vous pouvez aussi suivre nos actualités sur la vitrine LinkedIN de L'Embarqué consacrée à l’intelligence artificielle dans l’embarqué : Embedded-IA |