Répondre aux contraintes de taille vs énergie pour la mise en œuvre de l’IA/ML dans les appareils audio portables

Application Alif Semiconductor IA dans l'audio

[APPLICATION ALIF SEMICONDUCTOR] L’introduction des micrcontrôleurs sans fil optimisés par l’intelligence artificielle (IA) marque le début d'une nouvelle ère en matière d’audio portable. À mesure que la demande pour des capacités IA dans des appareils compacts et économes en énergie augmente, le marché répond avec des solutions innovantes qui permettent aux fabricants de mettre au point des produits performants au niveau de l’analyse du signal et plus autonomes. L’intégration de l’IA dans des puces-systèmes (SoC, System on Chip) d’appareils audio portables n’est donc pas une simple mise à niveau. Il s’agit d’une révolution qui promet de redéfinir l’expérience d’écoute. Explications d’Alif Semiconductor.

Auteur : Sree Durbha, Directeur sénior du Marketing produits, Alif Semiconductor

Les appareils audio portables compacts tels que les écouteurs et les aides auditives sont alimentés par des puces-systèmes (SoC) fondés sur un microcontrôleur qui constituent des merveilles d’ingénierie de par leur haut niveau d’intégration. Ces SoC intègrent des capacités de calcul à usage général et de traitement de signal numérique haute performance qui prennent en charge des fonctions audio critiques - traitement de codec (encodage/décodage de flux de données numériques), réduction de bruit, analyse FFT (Fast Fourier Transform), compression - ainsi que la fonctionnalité de réseau Bluetooth, la gestion de batterie et le contrôle du système. Ce niveau d’intégration permet non seulement de réduire la nomenclature des composants d’un produit, mais également pour les fabricants de proposer une qualité audio supérieure dans des formats portables minuscules. Cependant, la donne est sur le point de changer. La prochaine frontière en matière d’audio portable est l’intelligence artificielle (IA). En intégrant l’IA directement dans le SoC, les fabricants peuvent améliorer de manière spectaculaire des fonctions audio telles que l’annulation de bruit et l’annulation d’écho, et lancer des fonctions avancées telles que la reconnaissance et le traitement du langage naturel pour la reconnaissance de mots-clés (KWS, Key Word Spoting).

Toutefois, le défi consiste à mettre en œuvre l’IA sans toucher à l’encombrement réduit, l’efficacité énergétique ou le coût de ces appareils. L’IA peut révolutionner le marché des appareils audio portables L’annulation de bruit traditionnelle, appelée “annulation de bruit active” (ANC, Active Noise Cancellation), repose sur des algorithmes fixes qui traitent en continu le bruit ambiant et émettent une impulsion de phase opposée pour annuler ce signal de bruit ambiant.

Dépasser les limites des SoC traditionnels

Cette approche quoiqu’efficace, utilise une grande quantité d’énergie pour s'adapter à des environnements variés. En revanche, l’IA opère une annulation de bruit d’une façon différente et moins énergivore. En analysant le bruit ambiant et en identifiant sa signature unique, l’IA peut sélectionner de manière dynamique l’algorithme d’annulation de bruit le plus efficace à partir d'une bibliothèque de modèles pré-entraînés, en s’adaptant en temps réel à différents environnements.

Cette technique basée sur l’IA ne requiert pas d’écoute active continue de l’environnement pour capter le bruit ambiant via plusieurs microphones, ce qui permet d’économiser beaucoup d’énergie. Plusieurs entreprises sont déjà à l’avant-garde avec des logiciels IA d’annulation de bruit prêts-à-l’emploi, proposant des offres appelées annulation de bruit renforcée ou annulation de bruit IA. Leurs avantages sont clairs : l’annulation de bruit améliorée par l’IA non seulement s’adapte plus efficacement à des conditions auditives variables, mais réduit également significativement la consommation d’énergie en autorisant un échantillonnage de bruit périodique.

Une innovation qui prolonge l’autonomie des appareils portables, pour une utilisation plus longue sans perte de performance. L’intégration de l’IA dans d’autres fonctions DSP - telles que le traitement de la parole, la KWS, et l’annulation d’écho - offre en outre des avantages de transformation similaires.

Cependant, les tentatives d’exécution de ce type de modèle d'IA audio sur les SoC riches en DSP traditionnels présents dans les appareils portables se traduisent souvent par des performances médiocres. Les DSP et CPU tels que le cœur Arm Cortex-M7 sont optimisés pour des opérations séquentielles et sont donc inadaptés pour le calcul hautement parallélisé requis par les réseaux neuraux de l’IA. Ce décalage entraîne une plus grande consommation d’énergie et allonge les délais de réponse, notamment pour les fonctions critiques telles que la détection de mots clés.

On peut illustrer la différence frappante de performance entre un CPU standard et une combinaison de CPU et d’unité de traitement neural (NPU) lors de l’exécution de tâches d'IA courantes. Cette comparaison souligne la nécessité de disposer d’un NPU (processeur neuronal) optimisé pour les tâches IA, tel que le cœur neuronal Ethos d’Arm du fait de sa très faible consommation d’énergie et de son intégration fluide avec la gamme de cœurs de processeurs Cortex-M (M55 et au-delà).

Les perfomances indiqués ci-dessous portent sur celles du circuit Balletto d’Alif Semiconductor avec un cœur Arm Cortex-M55, l’extension vectorielle Helium M et le cœur NPU Ethos-U55 d’Arm. La comparaison porte sur les fonctions courantes de traitement audio : suppression du bruit, formation de faisceaux à deux micros, annulation d’écho et reconnaissance de mots-clés (KWS).

 

L’amélioration d’un SoC audio sans fil par des capacités de traitement d’algorithmes d’IA ne consiste pas simplement à ajouter un NPU. Pour exploiter pleinement le potentiel de l’IA tout en préservant l’efficacité énergétique, le SoC doit disposer d’une large mémoire étroitement interconnectée et d’un système de gestion d’alimentation avancé capable de désactiver de façon sélective des parties du micrcontrôleur lorsqu’elles ne sont pas utilisées.

Vers une conception de SoC pour des opérations d'IA optimales

A ce niveau, le choix du cœur de processeur généraliste est également crucial. À titre d’exemple, le cœur Cortex-M55, avec son extension vectorielle du profil M (MVE) Arm Helium propose des améliorations notables des fonctions d’apprentissage machine (ML) avec le concours de DSP, qui dépassent même les performances du cœur Cortex-M7 haut de gamme et affichant une performance pour les logiciels d’apprentissage automatique jusqu’à quatre fois supérieures et trois fois supérieures pour le DSP. La performance d'exécution de logiciels d' IA est ainsi maximale lorsqu'un NPU est ajouté. Le circuit d’Alif qui combine deux cœurs Cortex-M55 et deux NPU Ethos-U55, délivre ainsi des résultats exceptionnels dans l’exécution de l’inférence sur des modèles ML, dont un pour le KWS.

On voit ici l’augmentation de performance grâce à l’utilisation d’un NPU au sein d’une puce-système et à l’accélération mathématique vectorisée en plus du processeur par rapport au cœur CPU lui-même dans des fonctions IA classiques.

En ce qui concerne notamment les fabricants d’appareils audio sans fil, l’avantage d’opter pour un SoC basé sur Cortex-M55 avec un NPU Ethos associé apparaît ici clairement dans les résultats de test pour la référence AudioMark spécifiée par l’EEMBC (Embedded Microprocessor Benchmark Consortium). Selon cet organisme, AudioMark est la première référence audio de son genre intégrant un traitement de signal avancé, plusieurs types de données et un réseau neural convolutif dans une seule référence pour une empreinte de code réaliste. Cette référence vise à mesurer la performance des fonctions IA telles que le KWS, ainsi que les fonctions de traitement audio traditionnelles telles que la formation de faisceaux, l’annulation d’écho et de bruit.

Comme indiqué dans la figure ci-dessus, la combinaison du NPU Ethos-U55 et du MVE Helium, associés au cœur Am Cortex-M55 permet ici une amélioration notable de la performance de référence par rapport au Cortex-M55 exécutant l’inférence lui-même.

L’exemple de ce type d’architecture optimisée par l’IA est le micrcontrôleur Balletto B1 d’Alif Semiconductor. Installé dans un boîtier compact, le Balletto B1 intègre un cœur Arm Cortex-M55, un processeru neuronal Ethos-U55 et jusqu’à 2 Mo de mémoire SRAM étroitement interconnectée. Son sous-système radio à 2,4 GHz prend en charge le Bluetooth Low Energy (version 5.3) et le réseau 802.15.4, ce qui en fait une solution puissante et efficace pour les appareils audio portables pilotés par l’IA.