画像001.jpg

GPUはAIコンピュータの頭脳です

簡単に言えば、グラフィックス プロセッシング ユニット (GPU) は AI コンピューターの頭脳として機能します。

ご存知の通り、中央処理装置(CPU)はコンピュータの頭脳です。GPUの利点は、複雑な計算を実行できる特殊なCPUであることです。これを実現する最も速い方法は、複数のGPUをまとめて問題解決に使うことです。しかし、AIモデルの学習には数週間、あるいは数ヶ月かかることもあります。AIモデルが構築されると、フロントエンドコンピューティングシステムに配置され、ユーザーはAIモデルに質問をすることができます。このプロセスは推論と呼ばれます。

複数のGPUを搭載したAIコンピュータ

AIの問題を解決するのに最適なアーキテクチャは、ラック内のGPUクラスタをラック上部のスイッチに接続して使用することです。複数のGPUラックを階層的なネットワークで接続できます。問題が複雑になるにつれてGPU要件は増加し、プロジェクトによっては数千台のGPUクラスタを導入する必要がある場合もあります。

各AIクラスターは小さなネットワークである

AI クラスターを構築する際には、GPU を接続して連携させ、効率的にデータを共有できるようにするための小規模なコンピュータ ネットワークをセットアップする必要があります。

画像002.jpg
AIクラスター

上の図はAIクラスターを示しています。下部の円はGPU上で実行されるワークフローを表しています。GPUはトップオブラック(ToR)スイッチに接続されています。ToRスイッチは、図の上部に示されているネットワークバックボーンスイッチにも接続されており、複数のGPUが関与する場合に必要な明確なネットワーク階層を示しています。

AI導入におけるネットワークのボトルネック
昨年秋、次世代の AI インフラストラクチャの構築に代表者が協力したオープン コンピュータ プロジェクト (OCP) グローバル サミットで、Marvell Technology の代表 Loi Nguyen 氏は、「ネットワークが新たなボトルネックになっている」という重要な点を指摘しました。

技術的には、ネットワークの輻輳によるパケット遅延やパケットロスの増加は、パケットの再送を引き起こし、ジョブ完了時間(JCT)を大幅に増加させる可能性があります。その結果、企業の数百万ドルから数千万ドル相当のGPUが非効率的なAIシステムのせいで無駄になり、収益と市場投入までの時間の両方に悪影響を及ぼします。

測定はAIネットワークの運用を成功させるための重要な条件である

AIクラスターを効果的に運用するには、GPUの能力を最大限に活用し、学習時間を短縮して学習モデルを効果的に活用し、投資収益率を最大化する必要があります。そのため、AIクラスターの性能をテスト・評価する必要があります(図2)。しかし、システムアーキテクチャの観点から見ると、GPUとネットワーク構造の間には多くの設定や関係があり、それらを相互に補完することで問題を解決しなければならないため、この作業は容易ではありません。

画像005.jpg
AIデータセンターテストプラットフォームとAIデータセンタークラスターのテスト方法

これにより、AI ネットワークの測定において多くの課題が生じます。

- コスト、設備、熟練したネットワーク AI エンジニアの不足、スペース、電力、温度などの制限により、ラボで実稼働ネットワーク全体を再現することが困難です。

- 生産システム上で測定を行うと、生産システム自体の利用可能な処理能力が低下します。

- 問題の規模や範囲の違いにより、問題を正確に再現することが困難です。

- GPU が集合的に接続される方法の複雑さ。

これらの課題に対処するため、企業は推奨設定のサブセットをラボ環境でテストし、ジョブ完了時間(JCT)、AIチームが達成できる帯域幅などの主要な指標をベンチマークし、スイッチングプラットフォームの使用率やキャッシュ使用率と比較することができます。このベンチマークは、GPU/プロセッシングワークロードとネットワーク設計/設定の適切なバランスを見つけるのに役立ちます。結果に満足したら、コンピューターアーキテクトとネットワークエンジニアはこれらの設定を本番環境に導入し、新たな結果を測定できます。

企業の研究機関、学術機関、そして大学は、特にベストプラクティスが進化し続ける中で、大規模ネットワークにおける課題に対処するため、効果的なAIネットワークの構築と運用のあらゆる側面を分析することに取り組んでいます。この協調的で反復可能なアプローチは、企業がAI向けネットワークの最適化の基盤となる、反復可能な測定と「what-if」シナリオの迅速なテストを実施するための唯一の方法です。

(出典:キーサイト・テクノロジーズ)