AMD veut démocratiser l’accès à des accélérateurs d’IA en s’intégrant à des infrastructures existantes à l’aide d’une carte graphiqueAvec le lancement de la carte PCIe Instinct MI350P, la fournisseur de semiconducteur AMD propose une solution capable de transformer n'importe quel serveur en un moteur d'IA générative. Selon AMD, à mesure que les entreprises adoptent l’IA, beaucoup constatent que leur infrastructure peine à suivre le rythme. Le déploiement de l’IA dans le cloud est une option, mais il peut engendrer des problèmes de confidentialité et des coûts imprévisibles. La mise à niveau de l’infrastructure sur site est une autre possibilité, mais la prise en charge de plateformes d’accélération GPU peut nécessiter, selon AMD, des refontes coûteuses de l’alimentation et du refroidissement des centres de données. Les cartes AMD Instinct MI350 PCIe visent à résoudre ce dilemme en proposant des performances d’IA de pointe conçues pour s’intégrer à l’infrastructure de centre de données déjà existants, et pour se préparer à l’arrivée de l’IA argentique. Ainsi, la carte apporte des capacités de gestion de l’IA - de type inférence ou pipelines RAG (Retrieval-Augmented Generation) liés à l’IA générative - sur des serveurs ou des stations de travail déjà en place dans les entreprises. En d’autres termes, cette carte à double emplacement (26,7 cm de longueur), compatible avec les serveurs standards refroidis par air, permet de déployer de l’inférence au sein d’une infrastructure existante au niveau des alimentation, du refroidissement et des racks installés.
D’un point de vue technique, la carte Instinct MI350 PCIe embarque un processeur graphique (GPU) et exploite l'architecture CDNA 4 d’AMD - gravée en 3 nm par le fondeur TSMC.Elle dispose jusqu’à 144 Go de mémoire HBM3E pour un débit de 4 To/s. Côté performances pour l’IA, AMD annonce de 2 299 à 4 600 téraflops (versions MXFP4 et MXFP6) et indique que la plate-forme prend en charge la technologie dite de sparsité qui consiste à ignorer les valeurs nulles dans les ensembles de données et les matrices, réduisant ainsi le temps de traitement. Côté logiciel, la carte supporte l'ensemble de la pile logicielle en open source ROCm proposée par AMD, une seule carte pouvant gérer des modèles de langage allant de 200 à 250 milliards de paramètres. La consommation annoncés est de 600 W par défaut, mais peut être limitée à 450 W pour des machines moins puissantes. |