La start-up Deep Vision signe un processeur IA éco-efficace pour la vision embarquée [EDITION ABONNES] La jeune société américaine Deep Vision, fondée en 2015 et basée à Los Altos en Californie, a récemment dévoilé un processeur d’inférence baptisé ARA-1, destiné à créer des applications qui tirent parti des technologies de l’intelligence artificielle. ...L'un des objectifs de la start-up est de proposer une architecture qui procure un équilibre optimal entre la puissance de calcul, la mémoire, l'efficacité énergétique (2 W typiquement) et de très faibles temps de latence, le tout dans un facteur de forme compact. Cibles visées : les caméras, les capteurs, ainsi que les serveurs en périphérie de réseau (edge computing) où besoins élevés en termes de calcul et efficacité énergétique doivent cohabiter. D’un point de vue technologique, le processeur ARA-1 s’appuie sur une architecture à flux de données (dataflow) polymorphe brevetée, capable de gérer des flots de données variés tout en minimisant les mouvements de ces données sur la puce. L'architecture prend en charge les instructions de chacun des modèles de réseau de neurones exécutés, ce qui permet, selon la société, de “mapper” de manière optimale n’importe quelle structure dataflow sur un modèle d'apprentissage profond. En d’autres termes, il s’agit ici de conserver des données à proximité des moteurs de calcul pour minimiser leur mouvement dans la puce, garantissant de ce fait une capacité d'inférence élevée, une faible latence et une plus grande efficacité énergétique, toujours selon Deep Vision. Plus précisément, l'architecture à flux de données est construite autour de plusieurs cœurs neuronaux liés à une mémoire et associés à un gestionnaire de tâches matériel (une sorte d’ordonnanceur). Dans ce contexte, les cœurs neuronaux exécutent un jeu d'instructions personnalisé conçu pour minimiser le mouvement des données. L’architecture est entièrement programmable, bien que la plupart des développeurs utilisent le compilateur de Deep Vision pour “mapper” les modèles sur les différents cœurs avec en arrière-plan un moteur spécifique, le TTE (Tensor Traversal Engine), qui coordonne les ressources de la puce pour optimiser l'utilisation du système. « Les architectures qui annoncent des débits de données élevés nécessitent un grand nombre de flux traités en simultané par l'accélérateur, afin d’utiliser pleinement le potentiel du matériel, que ce soit par le biais du traitement par lots ou de l'exécution en pipeline, explique Ravi Annavajjhala, le CEO de Deep Vision. C’est la seule façon pour eux d’obtenir ces fortes capacités. Le résultat, bien sûr, est une latence élevée pour les tâches individuelles ce qui en fait selon nous une mauvaise solution pour des cas d'usage en périphérie de réseau où les performances en temps réel sont essentielles. Dans notre conception, au lieu d'intégrer une stratégie d'accélération particulière dans le matériel, nous avons plutôt intégré les bonnes primitives programmables dans notre propre processeur, ce qui permet au logiciel de mapper tout type de flux de données, ou tout flot d'exécution, que vous pourriez trouver dans un graphe de réseau de réseau de neurones au-dessus d’un même ensemble de primitives de base. » Dans cette approche, le compilateur (qui est en fait le coeur du savoir-faire de Deep Vision) évalue automatiquement plusieurs modèles de flux de données pour chaque couche d'un réseau de neurones et choisit le modèle le plus performant avec la consommation la plus faible. Grâce à ce traitement multi-modèle simultané, le processeur ARA-1 peut également exécuter plusieurs modèles sans être pénalisé en termes de performance, avec une consommation d'énergie inférieure à celle d’autres processeurs sur ce créneau comme le circuit Asic Edge TPU de Google ou la puce Myriad X d’Intel/Movidius. Dans cette veine comparative, Deep Vision souligne que le processeur ARA-1 exécute des modèles d'apprentissage profond tels que ResNet-50 (réseau de neurones à convolution accessible en open source) avec une latence six fois inférieure par rapport à l'Edge TPU et quatre fois par rapport ou Myriad X. Intimement associé au processeur, le kit de développement logiciel (SDK) développé par Deep Vision procure aux ingénieurs un quantificateur, un simulateur et un profileur intégrés, outils qui aident à la prise en charge de l'exécution d'applications d'inférence complexes arithmétiquement. Ce SDK permet également, selon la start-up, une migration en douceur, semi-automatisée, entre un code issu du modèle d’apprentissage vers une application déployée en production. Enfin, Deep Vision, qui a déjà levé 19 millions de dollars, assure que sa technologie est capable de prendre en charge les les frameworks d’IA standard de l'industrie comme Caffe, TensorFlow, MXNET, PyTorch et des réseaux de neurones tels que Deep Lab V3, Resnet-50, Resnet-152, MobileNet-SSD, Yolo V3, Pose Estimation et UNET. Vous pouvez aussi suivre nos actualités sur la vitrine LinkedIN de L'Embarqué consacrée à l’intelligence artificielle dans l’embarqué : Embedded-IA

La start-up Deep Vision signe un processeur IA éco-efficace pour la vision embarquée

[EDITION ABONNES] La jeune société américaine Deep Vision, fondée en 2015 et basée à Los Altos en Californie, a récemment dévoilé un processeur d’inférence baptisé ARA-1, destiné à créer des applications qui tirent parti des technologies de l’intelligence artificielle. ...L'un des objectifs de la start-up est de proposer une architecture qui procure un équilibre optimal entre la puissance de calcul, la mémoire, l'efficacité énergétique (2 W typiquement) et de très faibles temps de latence, le tout dans un facteur de forme compact. Cibles visées : les caméras, les capteurs, ainsi que les serveurs en périphérie de réseau (edge computing) où besoins élevés en termes de calcul et efficacité énergétique doivent cohabiter.

D’un point de vue technologique, le processeur ARA-1 s’appuie sur une architecture à flux de données (dataflow) polymorphe brevetée, capable de gérer des flots de données variés tout en minimisant les mouvements de ces données sur la puce. L'architecture prend en charge les instructions de chacun des modèles de réseau de neurones exécutés, ce qui permet, selon la société, de “mapper” de manière optimale n’importe quelle structure dataflow sur un modèle d'apprentissage profond. En d’autres termes, il s’agit ici de conserver des données à proximité des moteurs de calcul pour minimiser leur mouvement dans la puce, garantissant de ce fait une capacité d'inférence élevée, une faible latence et une plus grande efficacité énergétique, toujours selon Deep Vision.

Plus précisément, l'architecture à flux de données est construite autour de plusieurs cœurs neuronaux liés à une mémoire et associés à un gestionnaire de tâches matériel (une sorte d’ordonnanceur). Dans ce contexte, les cœurs neuronaux exécutent un jeu d'instructions personnalisé conçu pour minimiser le mouvement des données. L’architecture est entièrement programmable, bien que la plupart des développeurs utilisent le compilateur de Deep Vision pour “mapper” les modèles sur les différents cœurs avec en arrière-plan un moteur spécifique, le TTE (Tensor Traversal Engine), qui coordonne les ressources de la puce pour optimiser l'utilisation du système.

« Les architectures qui annoncent des débits de données élevés nécessitent un grand nombre de flux traités en simultané par l'accélérateur, afin d’utiliser pleinement le potentiel du matériel, que ce soit par le biais du traitement par lots ou de l'exécution en pipeline, explique Ravi Annavajjhala, le CEO de Deep Vision. C’est la seule façon pour eux d’obtenir ces fortes capacités. Le résultat, bien sûr, est une latence élevée pour les tâches individuelles ce qui en fait selon nous une mauvaise solution pour des cas d'usage en périphérie de réseau où les performances en temps réel sont essentielles. Dans notre conception, au lieu d'intégrer une stratégie d'accélération particulière dans le matériel, nous avons plutôt intégré les bonnes primitives programmables dans notre propre processeur, ce qui permet au logiciel de mapper tout type de flux de données, ou tout flot d'exécution, que vous pourriez trouver dans un graphe de réseau de réseau de neurones au-dessus d’un même ensemble de primitives de base. »

Dans cette approche, le compilateur (qui est en fait le coeur du savoir-faire de Deep Vision) évalue automatiquement plusieurs modèles de flux de données pour chaque couche d'un réseau de neurones et choisit le modèle le plus performant avec la consommation la plus faible. Grâce à ce traitement multi-modèle simultané, le processeur ARA-1 peut également exécuter plusieurs modèles sans être pénalisé en termes de performance, avec une consommation d'énergie inférieure à celle d’autres processeurs sur ce créneau comme le circuit Asic Edge TPU de Google ou la puce Myriad X d’Intel/Movidius.

Dans cette veine comparative, Deep Vision souligne que le processeur ARA-1 exécute des modèles d'apprentissage profond tels que ResNet-50 (réseau de neurones à convolution accessible en open source) avec une latence six fois inférieure par rapport à l'Edge TPU et quatre fois par rapport ou Myriad X.

Intimement associé au processeur, le kit de développement logiciel (SDK) développé par Deep Vision procure aux ingénieurs un quantificateur, un simulateur et un profileur intégrés, outils qui aident à la prise en charge de l'exécution d'applications d'inférence complexes arithmétiquement. Ce SDK permet également, selon la start-up, une migration en douceur, semi-automatisée, entre un code issu du modèle d’apprentissage vers une application déployée en production.

Enfin, Deep Vision, qui a déjà levé 19 millions de dollars, assure que sa technologie est capable de prendre en charge les les frameworks d’IA standard de l'industrie comme Caffe, TensorFlow, MXNET, PyTorch et des réseaux de neurones tels que Deep Lab V3, Resnet-50, Resnet-152, MobileNet-SSD, Yolo V3, Pose Estimation et UNET.

Vous pouvez aussi suivre nos actualités sur la vitrine LinkedIN de L'Embarqué consacrée à l’intelligence artificielle dans l’embarqué : Embedded-IA