share_log

趋势洞察 | AI的尽头真的是光伏、储能和核能吗?— GTC归来,对AIDC的设计与建设思考(一)

トレンドインサイト | 人工知能の最先端は本当に太陽光発電、エネルギー蓄積、原子力エネルギーなのか?— GTCに参加して、AIDCの設計と建設について考える(1)

GDS ·  04/10 00:00

以下の記事はGDS PiloTalkからのもので、作者は剛氏です。

引用

「AIの究極目標はエネルギーです」という観点が出て以来、技術界の議論を引き起こしています。英伟达Blackwellアーキテクチャ単GPU性能が5倍に向上し、エネルギー効率が25倍に向上した「究極の」効果が発揮されていますが、この議論は続くでしょう。

データセンター企業にとって、エネルギー消費を減らし、エネルギー効率を向上させることは、永遠に続く課題です。今後、AIとIDCのさらなる範囲での展開が続くことにより、この問題への世間の関心は高まることは間違いありません。

もちろん、データセンターにおける考慮すべき「究極の」問題はエネルギーだけではありません。むしろ究極の問題は、私たちが既に認識している技術の限界に依存するのではなく、私たちが認識していない可能性があります。ここで、私たちはAIDCの発展傾向と現在のいくつかの極限について話し合いたいと思います。

1. AIチップの密度が急激に上昇している中で、サーバーの限界はどこにあるのでしょうか?

NVIDIAが最新のNVL72を発表し、単一キャビネットの最大消費電力は120kWで、冷板液冷冷却システムを採用しています。この120kWの単一キャビネットの電力には、約20kWの風冷却が必要ですが、これは既に部屋レベルの空調風冷却能力の上限に近づいています。GTCカンファレンス会場での情報によると、GPUチップの電力密度がさらに高くなる条件下では、次のクーリングシステムには、浸漬型と冷板液冷の両方のシステムが考えられ、単一キャビネットの電力は2〜3年以内に300kW/台に達すると予想されます。

実際、NVL72アーキテクチャについて調べると、この新製品は従来のチップ-サーバー-ネットワークアーキテクチャ思考による重複の単純なスタックではなく、最も基本的な物理原理に基づいて、最適な技術ソリューションを選択し、GPUの指数関数的な進化を推進する、革新的なアーキテクチャ再構築によって、重大な変革が起こりました。チップの密度が急激に上昇したことにより、液冷温排気の必要性が高まりました。同様に、冷板液冷温排気の効率的な使用が既存の古典的ネットワークアーキテクチャで使用されなくなった銅モジュールおよび光ケーブルの代わりになりました。これは「量の変化が質の変化を引き起こす」というクラシックな事件であり、基本的な技術の改良によって、トラディショナルな技術ソリューションが追いつくことができなくなり、次世代の新しい技術ソリューションが生まれることを示しています。

おそらく、何年後かには、単一のGPUがどのような熱排出能力を持つかではなく、配電システムのPDU、UPS、またはトランスがどのような容量上限を持つかが、単一のGPUの電力上限を決定する要因となるでしょう。単一のAIDCキャンパスの容量上限は、芯片演算能力の上限ではなく、発電所と送電網の容量上限によって決定されます。

2. 今日のデータセンターは、個々のマシンルーム、個別の建物、およびキャンパスのどのレベルで計画するのが最適でしょうか?

これまでのデータセンターはメガワットや10メガワットのレベルで必要な容量を求めていましたが、短い納品サイクルと小さな総需要によります。従って、DCキャンパスや個別の計画に基づいて、建物の設計要件、消防規制、10kV/110kV/220kVの電力容量、およびMEP設備、たとえばディーゼル発電機、冷却機、エアコンなどの設備の冗長性とコストに最適な比率が求められています。今日のAIGCビジネスの急速な発展は、実態的には、DC容量の需要が指数的に増大しているため、DCまたはキャンパスの容量に関する制限は、ネットワークアーキテクチャ上の限界容量とチップ密度によって主導されるようになりました。

現在の主要なクラウドプロバイダーやインターネット企業は、現在の普及しているアーキテクチャに基づいて、単一のキャンパスの規模を100〜200MWにまで拡大することができます。将来、芯片密度がさらに高いレベルに達するにつれ、単一のキャンパスの規模は300〜500MW以上に達する可能性があります。このような背景の下で、電力および土地条件に合わせて、データセンターの基盤設備リソースを計画する場合、GPU設計のように、コンピュータをデータセンターとして設計することが必要です。もし巨大なGPUの理想的な容量が100MWであれば、基敷の容量については、最適な粒度が100MWであるということです。しかしながら、芯片技術の進歩は目覚ましく、NVIDIAのGPUチップ効率は8年間で1000倍に増加しています。データセンターの投資建設およびリターンサイクルは10〜15年です。したがって、現在のチップ技術に基づいて単一のデータセンターのサイズを予測し、完璧な極限のデータセンターの計画に対応することは現実的でも科学的でもありません。

もしかしたら、私たちは基本的なインフラストラクチャの効率性が最適である観点から考える必要があり、合理的で実現可能で、コストをできるだけ抑えることを最終目標として、建物、消防規制、CAPEX初回投資比率、および後続の段階的投資などの課題を克服するために、IDC統合製品モデルを作成して、将来のビジネスの変化に適応できるようにすることが必要です。これが、データセンターの従業員が解決すべき実際の課題であり、IDC企業が自身の製品の中心的な競争力を構築するための重要な要素でもあります。

3. AIの究極の目標は、太陽光発電、蓄電技術、原子力エネルギーであるという考え方は妥当でしょうか?

これはおそらく、業界で最も注目されているトピックの1つであり、AIの将来は太陽光、蓄電池、原子力、トランスフォーマー、銅、電線などの各種エネルギー関連先物であり、本質的にはビジネスニーズの高速成長によるエネルギー需要の爆発的な増加をもたらします。

サイト選定 - 負荷中心から総合エネルギーセンターに移行する

エリア型総合エネルギーマネジメントシステムの整備は、データセンターの基盤設備ニーズと相まって、データセンター集積クラスターの規模が200 MW以上に達する場合、供給面では少なくとも220 kVステーションが必要になりますが、ゾーン全体での需要が500 MWを超える場合、1つの220 kVステーションでは対応できません。このような規模・体積のデータセンター集積クラスターの条件では、現存の電力網の容量が限られているため、データセンターのサイト選定は、十分に電力供給があるエネルギーセンターに周辺のより近くに移動しなければなりません。これによって生じる矛盾は、エネルギーセンターの大口投資が必要であり、データセンターのビジネスニーズが短期間に対応できない場合、大きな初期投資没収コストが発生します。

したがって、データセンター基盤設備ニーズに合わせたエリア型総合エネルギーマネジメントシステムが必要です。源波荷電儲蓄技術の適用により、地域内の各種エネルギーを効率的に利用して、経済性を確保します。さらに、エネルギーシステムの充実した供給保証と長期的な安定したOPEX保証によって、土木やMEPシステムよりもデータセンターの基盤設備の資産投資の確実性に多くの付加価値を提供できます。

現場 - 光と備蓄の一体化

風力や太陽光、蓄電池技術だけで、onsiteまたはoffsiteのどちらでも、データセンター自体とはあまり関係ありません。技術的には、市場および技術の状況によって、太陽光発電や蓄電池の適用とプロジェクトの場所が強く関連し、その電源が不安定な特性があるため、AIDC向けの単一のユーザー電源ソリューションとして使うことはできません。そのため、安定したエネルギーソリューションと組み合わせて使用する必要があります。onsiteの太陽光発電や蓄電池技術は、スペースの制限によりスケールメリットが難しく、ITおよび外部電源変換率を向上させ、一部のUPS予備電源装置を置き換え、追加の経済的な利益を発揮することができます。

未来 - 原子力技術の展望

私は原子力業界で多年間働いたIDC従業員として、これらの2つの業界が今日のホットトピックに結合することができるとは思いませんでした。最近、マイクロソフトとAWSの原子力業界の動向が多くの同僚の関心を引きました。今日、原子力とデータセンターについて見ると、エネルギー側と負荷側の両方に多くの共通点があり、非常に洗練されています。 1つは安定した入出力で、2つはロジックに似た安全冗 redundancyの設定です。

中国の原子力発電技術は多年の発展を経て、自主的に知的財産権を持つ華龍一号や国和一号などの先進的な三代の原子力発電技術を開発し、世界でもリードしています。中国の原子力供給チェーンが完全であるため、国産化比率は90%以上に達し、原子力発電単位kWのコストは1.5万元/kWに達し、海外の同種の堆型のコストの20%にも満たず、電力費用に換算しても現在0.4元にしかなりません。同時に、原子力発電所の設計寿命は40〜60年であり、太陽光発電または風力発電システムの寿命が10〜20年しかないことを考えると、電源の安定性や総合投資コストから見て、原子力は競争力が高くなると信じられます。技術的には、中国が自主的に開発した原子力発電小型堆のACP100は、すでに商業化の条件を備えており、小型のモジュール化原子炉SMR 100〜300MWの体積はAIDCパークの体積にほぼ一致しています。

しかし、核エネルギーとデータセンターの融合を実質的に解決するには、次のような考え方が必要です。

迅速な適合:先進的な3世代および4世代の核電技術自体は非常に成熟しており、その安全性は全く心配する必要がありません。しかしながら、現在の国際および国内の小型モジュール化原子炉型は、一般的に100 MWe前後であり、伝統的な百万キロワット級原子炉に比べて技術的に最適化されているものの、原子炉全体の基本的な構造は従来の原子力発電所構造に基づいており、独自の安全システムの設計が簡素化され、迅速に提供できる非動力型の小型または微小堆を開発することができます。そのため、体積は小さく、費用は高くなるかもしれませんが、速い複製能力があり、AIDCとの適合性が高くなると考えられます。実際、大堆は以前の小堆を基に開発されましたので、多くの成熟したソリューションがあり、ごみを宝に変えることができます。

通用性マッチング: 現在、原子力発電技術の標準体系は非常に完備しており、装置製造、設計建設の管理体系の面で、従来の民生プロジェクトと多くの差異があります。これらの差異は、関連する業界の障壁とプレミアムコストを形成しています。核発電所の建設速度とコストの競争力を高めるために、小型容量の小型炉モデルを採用する際に、現在市場で普及している製品レベルの材料をより良く代替利用する必要があります。安全性を確保しながら製品の普及率を高め、業界壁壁垒が引き起こすコストプレミアムを回避することが必要です。

適地条件合致: 原子力発電所の選定要件は、データセンターよりもはるかに高く、有質な原子力発電所の建設場所は非常に珍しい資源です。メリットとしては、原子力発電所は、気候条件に影響を受けない場所を選択でき、最新の技術が必ずしも海や川に依存して、放熱問題を解決する必要がありません。データセンター自体の選定に必要なネットワークや遅延問題に合わせることができれば、大きな問題はありません。

もう一つ: 発電所として動作する原子力発電所は、大量の余剰熱源をもたらし、冷暖房付電気の三連供を通じて、エネルギー変換効率と算力変換効率を向上させるWin-Winの状況を実現できます。PUEが問題になることはなくなるかもしれません。

エピローグ

以上、2024GTCで公開された重要製品、講演および交流から得られた情報、そして筆者がデータセンターと原子力エネルギー分野で数年にわたり継続的に深耕している経験を踏まえ、AI GPUおよびAIDCの限界、終点および未来について分析しました。後半では、「変わり者と変わらないもの」というキーワードを中心に、AIDC基盤設備の将来のトレンドについて継続して探求します。

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする