SCMPによると、ファーウェイのAscend AIプロセッサが、DeepSeek R1人工知能モデルテストにおいてNVIDIA GPUの性能を上回ったことが新たな技術レポートで明らかになった。この結果は、米国からの技術統制命令に直面する中国企業にとって重要な前進となる。
ファーウェイとAIインフラスタートアップ企業SiliconFlowの研究者が共同執筆したこの論文は、CloudMatrix 384データセンターのアーキテクチャを詳細に解説しています。これは、大規模言語モデル(LLM)からの膨大なワークロードを処理するために特別に設計された「チップ上のAIスーパーシステム」です。
CloudMatrix 384は、384個のAscend 910Cプロセッサと192個のKunpeng CPUで構成され、低レイテンシ・高帯域幅の統合バスシステムで相互接続されています。ファーウェイはこのアーキテクチャによって、AIインフラストラクチャの基盤を再構築すると期待されています。
このプラットフォーム上に構築されたCloudMatrix-Inferシステムは、DeepSeek R1モデルの導入時に優れたパフォーマンスを発揮します。プレフィルフェーズでは、ユーザーからの4,000トークンのリクエストを処理する際に、NPUあたり6,688トークン/秒のスループットを達成しました。これは、TFLOPS(1兆演算/秒)あたり4.45トークン/秒に相当します。
デコードフェーズでは、CloudMatrixはNPUあたり1,943トークン/秒のスループットを記録し、トークンあたり50ミリ秒未満の応答時間を達成しました。この1.29トークン/秒(TFLOPSあたり)というパフォーマンスは、H100 GPUを搭載したNvidiaのSGLangシステムや、DeepSeek R1を実行するH800 GPUプラットフォームよりも高いものです。
本調査の筆頭著者であり、ファーウェイの「Genius Youth」プログラムのメンバーでもある左鵬飛氏によると、本レポートの目的は、中国が開発したAscend NPUの機能を業界が十分に理解できるようにすることです。Zhihuプラットフォーム上で、同氏は本レポートがHuawei CloudMatrixの技術力を明確に示すものであると断言しました。
ファーウェイがAscend 910C AIアクセラレータの技術的詳細を公開したのは今回が初めてです。また、この報道では、ファーウェイ創業者の任正非氏が最近、Ascendチップは米国製チップに比べて「まだ1世代遅れている」と発言したことが改めて強調されています。しかし、任氏は「スタッキングとクラスタリング」といった手法の適用により、ファーウェイは今日の最先端のAIシステムに匹敵するコンピューティング性能を実現していると主張しています。
一方、NvidiaのCEOであるジェンスン・フアン氏もCNBCとのインタビューで、AIは並列処理の問題であり、十分な計算能力がなければさらに多くのプロセッサが必要になると認めた。
出典: https://znews.vn/buoc-tien-lon-cua-huawei-post1562828.html
コメント (0)