AIサーバーとパワーサプライユニット(PSU)の選び方。AIサーバーパワーサプライのソリューション

2023-10-04

AI技術の急速な成長と普及に伴い、サーバー市場はここ数年間で巨大な変化を遂げました。OpenAIがChatGPTを公開した後、言語モデル、スマートチャットボットのトレンドを起こしています。そしてChatGPTのバックグラウンドにある演算は強力な「AI Server（サーバー）」に依存していることが、AIサーバー市場への注目度を高めています。

AIサーバーとは？

AIサーバーとは、特殊設計と最適化がされたサーバーで、これらはGoogleのTensor Processing Units (TPU) や NVIDIAのAIアクセラレーターカードなど単独または複数の高性能GPU（グラフィクス・プロセッシング・ユニット）や専用のAIアクセラレーターです。これらハードウェア装置はAIアプリケーションに大きな並行処理能力を提供しています。ソフトウェアもAIサーバーの重要な構成部分です。これはAIと機械学習作業の負荷を最適化するための専用OSとAIアーキテクチャ（TensorFlow、PyTorch等）をサポートするプログラムライブラリとツールを含むことがあります。

なぜAIサーバーアプリケーションが必要なのか？

AIサーバーを必要とするのは、人工知能（AI）の計算ニーズが非常に高いためです。AIサーバーは専用に最適化されたハードウェアとソフトウェアでストレージと膨大なデータを処理することで、AIモデルのトレーニングと動作をサポートしています。AIサーバーのアプリケーション範囲は、画像と音声の識別、自然言語処理、予測分析、パーソナライズ・レコメンデーションシステム、自動運転（映像認識）、医療分野（スマート診断等）など非常に幅広いです。

AIサーバーと一般サーバーの違いは何ですか？

現在の最新仕様のAIサーバーは、1台あたり最大で6000ワットの電力を消費し、データセンターのエネルギー消費は世界全体のエネルギー使用量の約2％を占めています。ただし、AIサーバーのエネルギー効率は一般的なサーバーよりも高く、より環境に優しく、モデルトレーニング、AI推論、生成型AI（GAI、Generative AI）などのアプリケーションでは、処理速度が大幅に向上しています。大規模な言語モデルの背後にあるAIモデルトレーニングには、10億から数千億のパラメータが含まれており、今年（2024年）には1兆パラメータのレベルを超える可能性があります。AIサーバーは、技術の進歩を推進するための重要な役割を果たすでしょう。

AIサーバーと一般サーバーの主な違いは、設計と用途にあります。一般的なサーバーは、データの保管、プログラムの実行、ネットワークサービスなどに主に使用されますが、AIサーバーは人工知能のトレーニングと利用に特化しています。一般的なサーバーに比べて、AIサーバーにはより強力なCPU、GPU、またはその他のカスタムアクセラレータが搭載されており、AIサーバーはより強力な計算能力、大容量のメモリストレージ、高帯域幅、低遅延などの特性を持っています。また、AIサーバーには、先進的な熱管理技術や超高効率の電源モジュールも搭載されています。AIサーバーと過去に使用されていた一般サーバーとの主な違いは何ですか？それを表で比較してみましょう。

The differences between AI servers and general servers can be summarized as follows
	General Server	Entry-level Accelerated Server	High-end Accelerated Server
Workload	Traditional Machine Learning	Inference, Generative AI	Inference, Training
CPU	1 or 2 CPUs	1 CPU	2 or more CPUs
Accelerator	CPU Built-In	1-4 GPUs or other custom accelerators.	4~10 GPUs or other custom accelerators.
Memory	Registered DDR Memory	Registered DDR Memory+GDDR VRAM	Registered DDR Memory+ HBM
Network Transfer	10 or 25 Gbps Ethernet	100+ Gbps Ethernet	400+ Gbps Ethernet NIC, Infiniband
Power Module	1300W~2000Wx2	2000Wx3 or 3000Wx4	3000Wx6

現在主流のAIサーバーはNVIDIAのH100で、Hopper GPUアーキテクチャを採用しています。これは第九世代のデータセンターGPUであり、前世代のA100の性能を30倍に向上させることができます。大型言語モデルのトレーニングに非常に適していますが、消費電力も非常に高く、国際エネルギー機関（IEA）によると、1つのAIモデルをトレーニングするのに必要な電力は、100世帯の1年間の電力消費量を超えるとされています。これは、将来的にはデータセンターが電力消費の主要要因になることを示しています。AIサーバーはシステムの可用性を重視しており、トレーニング中に電力が中断すると成果が失われる可能性があるため、複数の高出力電源モジュールを並列して使用して、サーバーの運用を中断させないようにしています。

FSPは高出力電源モジュールの開発に多くの経験を持ち、製品ラインは従来の一般的なサーバーから最新のAIアクセラレーションサーバーまでをサポートしています。多くのブランドのサーバーがFSP製品を採用しています。FSPの電源モジュールは全デジタル設計を採用し、すべての効率は80PLUS Titaniumレベルの基準を満たしています。電源モジュールを並列して使用すると、高性能なAIサーバーで4〜10個のGPUが同期して動作し、AI計算能力の要件を満たすと同時に、節電効果を最大限に高めることができます。

今後、AIアクセラレーション計算の分野では、さらなる革新的な製品や新しいアーキテクチャが登場し、人工知能の分野の持続的な発展を支援することになるでしょう。これらの新技術により、計算がより効率的になる一方で、GPUの消費電力もさらに増加するため、電源モジュールへの需要も高まることが予想されます。FSPは業界のトレンドを引き続き注視し、対応する製品を提供しています。詳細については、https://www.fsp-group.com/jp/product/IPCPSU.html をご覧ください。

AIサーバーの優位性と将来性

VR/AR、超高画質、自動運転技術等の新興技術のニーズ発生に伴い、今世界は爆発的なトラフィックフローの時代にあります。IDCによる統計：世界のクラウドにおける情報量は2013年の4.4ZBから2023年には>50ZBとなり、10倍以上成長しています。　世界のクラウド情報量の飛躍的な成長のもと、AIサーバーは同時に大量の情報を処理することを得意とし、企業が大量のデータを保存するためのインフラとして、必然的に各社が競争する分野となっています。そして、AIサーバーに使われるパワーサプライ（PSU）はAIサーバーの性能に影響する大きなキーポイントとなっています。これはAIサーバーのハードウェアコンポーネントが電力の需要について一般のサーバーを超えていることによります。これにより、AIサーバーのパワーサプライ（PSU）は一般サーバ―と比べてより多くの電力を供給してこれら高性能コンポーネントを駆動しなければなりません。同時に十分な冗長電源で負荷の変化に対応し、データの渋滞を避ける必要があります。

AIサーバー電源の重要性（電源ワット数、安定性、信頼性）

優れたAIサーバーのパワーサプライ（PSU）を選択する前に、パワーサプライについて理解しましょう。AIサーバーは動作を安定させるために、その背後には強力かつ安定したパワーサプライによるサポートが必要です。　PSUはキーコンポーネントであり、グリッドの交流電力（AC）をサーバーの電子コンポーネントが必要とする直流電力（DC）に変換する役割を担っています。高性能のAIサーバーについて、PSUは十分かつ安定した電力を提供してCPU、GPUまたはAIアクセラレーターを駆動します。このほか、PSUの効率もキーポイントです。PSUは全体のエネルギー消費と放熱ニーズに直接影響します。高効率のPSUはエネルギーの無駄を最小限に抑えるとともに、放熱量も減少します。同時に、高効率のPSUはパワーサプライの寿命を延ばし、電源による問題から生じるサーバーのダウンタイムを減少します。

AIサーバーのパワーサプライ（PSU）の選び方？

AIサーバー用電源ユニット（PSU）の重要性を理解した後、良いPSUを選ぶ方法を見てみましょう。我々は、電力要件、効率評価、安定性と信頼性、保護機構、コネクタと寸法、熱放散、ノイズなどの側面を考慮することができます。

電力要件

まず第一に、PSUがすべてのハードウェアのニーズを満たすために十分な電力を供給し、システム障害を引き起こす可能性のある電力の変動や中断を防止することを確認してください。一般的には、要件をちょっと上回るワット数を選ぶことが最善であり、電力要求をちょうど満たすよりも高いワット数を選ぶことが望ましいです。計算システムがより複雑であればあるほど、必要なワット数が増えます。AIサーバーの合計電源供給ワット数は、最大18kWになることがあります。

効率評価

効率評価も重要な考慮事項です。効率が低い製品は電力の浪費、熱の増加を引き起こし、PSUの寿命を損なう可能性があります。効率評価システムは主に「80 Plus」のエネルギー効率評価に基づいており、電源供給ユニットは少なくとも80％の効率を保証できることを意味します。

80 PLUS Rating
Rating	Typical Load Efficiency
80 PLUS Bronze	85%
80 PLUS Silver	89%
80 PLUS Gold	92%
80 PLUS Platinum	94%
80 PLUS Titanium	96%
Source: Intel, compiled by the author

穩定性と信頼性

優れた電源供給装置（PSU）は、優れた安定性と信頼性を持っている必要があります。これにより、重要な保護機能が発揮されます。優れた電源供給装置メーカーは、PSUにさまざまな製品テストを行います。これには、出力電圧調整、電源調整率、負荷調整率などの機能テストが含まれます。

保護機構

電源供給装置が優れた保護機能を持っていることを確認するために、過負荷保護（OCP）、過熱保護（OTP）、過電圧保護（OVP）などの保護機能が重要です。これらの保護機能はすべて、ハードウェアの損傷を防止し、システムの安定した動作を確保するためにPSUに組み込まれています。過負荷保護（OCP）は、出力電流が制限を超えた場合にPSUを切断または制限してハードウェアの損傷を防ぎます。過熱保護（OTP）は、内部温度が高すぎるとPSUを自動的に切断して過熱を防ぎます。過電圧保護（OVP）は、出力電圧が制限を超えた場合にPSUを切断または制限してハードウェアを高電圧から保護します。

コネクタとサイズ

電源供給装置のケーブルデザインには、フルモジュールデザイン、ハーフモジュールデザイン、非モジュラーデザインの3種類があります。これらの違いは、ケーブルが取り外し可能かどうかであり、カスタマイズ可能かどうかに影響します。また、適切なサイズを選択することで、ケース内に十分なスペースが確保されます。

放熱と騒音

電源供給装置には冷却ファンが必要です。そのため、ファンの冷却効率と騒音はPSUを選ぶ際の考慮事項の1つとなります。電源供給装置のファンが高速で回るほど、冷却効率は向上しますが、より大きな騒音が発生する可能性があります。したがって、消費者はこれら2つの要素を考慮したり、専門メーカーが製造するPSUを選択したりする必要があります。

FSP AIサーバーパワーサプライソリューション

これらのニーズを考慮してFSPは一連のAIサーバーパワーサプライを発売しています。中でももっとも代表的なものがFSP3000-20FEです。本製品は極めて低い全高調波歪み（iTHD）、０℃から55℃までの動作温度範囲、標高5，000mまで適応可能な設計で、最高3000ワットまでの総電源容量を有しています。つまり、極端に劣悪な環境でも本製品はその強い適応力で十分にその性能を発揮して動作することが可能です。同時に本製品は回路の過電流保護（OCP）、過熱保護（OTP）、過電圧保護（OVP）設計で、さらに出力ショート保護と電源リセット機能でメインボードとの通信、安全性についての信頼性を高めています。これらの保護機能により、機器の過熱または過大な負荷による機器の故障を心配する必要はありません。AIサーバーについて、FSPは優れた製品を多く発売しています。例えばYSEC1600AM-2A00P10とYSEC2000AM-2A00P10はAIサーバー専用パワーサプライで、80 PLUS® Platinum認証を取得して最高効率は94％であり、PMBus 1.2テクノロジーを内蔵しています。その優位性はコンパクトさにあり、エッジコンピューティング装置への取り付けに適しています。同時にその高性能な変換効率と良好な放熱性能によって、長時間動作してもパワーサプライとエッジコンピューティング装置の安定した動作を保つことができます。

将来、エッジコンピューティングとAIテクノロジーの更なる発展に伴い、これらハードウェアのニーズはより一層高まります。そしてAIサーバーとそのパワーサプライは将来、より重要な役割を担います。適切なパワーサプライを選ぶことは、AIサーバーの円滑な動作を確保するだけではなく、AIアプリケーションの継続的な成長とイノベーションを保障することにもなります。