Inspur Information lance le serveur d'inférence metabrain R1, capable de libérer la puissance du module DeepSeek 671B sur une seule machine
Le 11 février, Inspur Information a officiellement lancé le MetaBrain R1serveur d'inférenceGrâce à l'innovation système et à l'optimisation collaborative du matériel logiciel, le modèle DeepSeek R1 671B peut être déployé et exécuté sur une seule machine, aidant les clients à réduire considérablement la difficulté et le coût du déploiement du modèle de paramètres complets DeepSeek R1, à améliorer les performances du service d'inférence et à accélérer l'émergence de l'exploration intelligente dans divers secteurs.
Actuellement, DeepSeek est open source avec plusieurs versions de modèles, aidant diverses industries à accélérer l'application de la technologie des grands modèles pour promouvoir la mise à niveau et la transformation des entreprises. Parmi eux, le modèle DeepSeek R1 671B, en tant que grand modèle de base entièrement paramétré, a une capacité de généralisation plus forte, une plus grande précision et une meilleure capacité de compréhension du contexte par rapport au modèle de distillation. Cependant, il impose également des exigences plus élevées en matière de capacité de mémoire vidéo, de bande passante de mémoire vidéo, de bande passante d'interconnexion et de latence du système : au moins environ 800 Go de mémoire vidéo sont nécessaires pour la précision FP8, et plus de 1,4 To d'espace mémoire vidéo est requis pour la précision FP16/BF16 ; De plus, DeepSeek R1 est un modèle de chaîne de pensée longue typique avec les caractéristiques d'application d'une entrée courte et d'une sortie longue. L'étape de décodage d'inférence repose sur une bande passante de mémoire vidéo plus élevée et une latence de communication extrêmement faible. Sur la base des caractéristiques de puissance de calcul et des exigences système du modèle 671B, le serveur d'inférence metabrain R1 offre une capacité de mémoire vidéo, une bande passante de mémoire vidéo et une vitesse de communication de premier ordre, ce qui peut aider les entreprises à terminer efficacement le déploiement de localisation des modèles de paramètres complets DeepSeek.
Lemétacerveau R1Le serveur d'inférence NF5688G7 est une plate-forme de calcul d'IA haute performance de premier plan, native du moteur de calcul FP8, avec une vitesse de déploiement rapide et aucune perte de précision pour le modèle DeepSeek R1 671B. En termes de mémoire vidéo, une mémoire vidéo haute vitesse HBM3e de 1128 Go est fournie pour répondre à l'exigence d'au moins 800 Go de capacité de mémoire vidéo sous la précision FP8 du modèle 671B. Même lorsqu'une seule machine prend en charge l'inférence complète du modèle, un espace de cache KV suffisant est toujours réservé. La bande passante de la mémoire vidéo est aussi élevée que 4,8 To/s, correspondant parfaitement aux caractéristiques techniques du modèle DeepSeek R1 "short input long output, à la sensibilité de la bande passante de la mémoire vidéo", et peut atteindre une accélération ultime dans l'étape de décodage d'inférence. En termes de communication, la bande passante P2P du GPU atteint 900 Go/s, garantissant des performances de communication optimales pour un déploiement parallèle du tenseur sur une seule machine. Basé sur le dernier cadre d'inférence, une seule machine peut prendre en charge 20 à 30 utilisateurs simultanés. Dans le même temps, un seul NF5688G7 est équipé d'un réseau d'extension sans perte de 3200 Gbit/s, qui peut réaliser une extension agile en fonction de la croissance des besoins commerciaux des utilisateurs et fournir une solution clé en main de cluster de serveurs R1 mature.
Le serveur d'inférence metabrain R1 NF5868G8 est un serveur d'inférence à haut débit conçu spécifiquement pour les modèles de raisonnement de grande taille. Il est le premier du secteur à prendre en charge 16 cartes PCIe double largeur standard sur une seule machine, offrant jusqu'à 1536 Go de capacité de mémoire vidéo et prenant en charge le déploiement de modèles DeepSeek 671B sur une seule machine avec une précision FP16/BF16. Recherche et développement innovants d'une topologie entièrement interconnectée de 16 cartes basée sur PCIe Fabric, avec une bande passante de communication P2P allant jusqu'à 128 Go/s pour deux cartes quelconques, réduisant la latence de communication de plus de 60 %. Grâce à l'optimisation collaborative logicielle et matérielle, par rapport aux modèles PCIe traditionnels à 2 machines et 8 cartes, le NF5868G8 peut améliorer les performances d'inférence du modèle DeepSeek 671B de près de 40 % et prend actuellement en charge plusieurs options de cartes d'accélération de l'IA.
Inspur Information est un fournisseur mondial de premier plan de produits, solutions et services d'infrastructure informatique. En développant une nouvelle génération d'architecture informatique centrée sur le système, Inspur vise à créer des produits et solutions informatiques intelligents métabrain ouverts, diversifiés et écologiques. Inspur Information s'engage dans la recherche et l'innovation de plateformes informatiques IA, de plateformes de ressources et de plateformes d'algorithmes, et collabore avec des partenaires de premier plan par le biais de l'écosystème métabrain pour accélérer l'innovation et l'application de l'intelligence artificielle.
_________ L'article est extrait du compte officiel WeChat de Yuannao