Continuous Energy Monte Carlo Particle Transport Kernel Outperforms Highly Optimized GPU Version, Unlocking New Potential in Fission and Fusion Reactor Simulations
SUNNYVALE, Calif.--(BUSINESS WIRE)--Cerebras Systems, the pioneer in accelerating generative AI, today announced the achievement of a 130x speedup over Nvidia A100 GPUs on a key nuclear energy HPC simulation kernel, developed by researchers at Argonne National Laboratory. This result demonstrates the performance and versatility of the Cerebras Wafer-Scale Engine (WSE-2) and ensures that the U.S. continues to be the global leader in supercomputing for energy and defense applications.
Monte Carlo particle transport is a major focus in the field of HPC as it provides high fidelity simulation of radiation transport and is vital to fission and fusion reactor designs. In this research collaboration, a Cerebras CS-2 system dramatically outperformed a highly optimized GPU implementation in the most demanding portion of the Monte Carlo neutron particle transport algorithm – the macroscopic cross section lookup kernel. This kernel represents the most computationally intensive portion of the full simulation, accounting for up to 85% of the total runtime for many nuclear energy applications. This work further validates Argonne's ALCF AI Testbed program, which aims to bring AI accelerators to the forefront of U.S. supercomputing infrastructure, exploring capabilities beyond what is achievable with GPUs.
"I've implemented this kernel in a half dozen different programming models and have run it on just about every HPC architecture over the last decade," said John R. Tramm, Assistant Computational Scientist, Argonne National Laboratory. "The performance numbers we were able to get out of the Cerebras machine impressed our team – a clear advancement over what has been possible on CPU or GPU architectures to-date. Our team's work adds to growing evidence that AI accelerators have serious potential to disrupt GPU dominance in the field of HPC simulation."
Monte Carlo neutron particle transport provides high fidelity simulation of radiation transport, which is a critical component of fission and fusion reactor design. Within this algorithm, the macroscopic cross section lookup kernel assembles statistical distribution data used to generate random samples for a particle's behavior as it moves through a simulated geometry and interacts with various materials. ANL scientists implemented an optimized version of the macroscopic cross-section lookup kernel using the Cerebras SDK and the CSL programming language. The implementation took advantage of Cerebras CS-2's wafer scale architecture of up to 850,000 cores and 40GB of on-chip SRAM which provided a combination of extreme bandwidth and low latency – an ideal match for Monte Carlo particle simulations. This research also validates the ability of external researchers to develop their own HPC applications for the Cerebras architecture, unlocking new levels of performance on a wide variety of computational problems.
"These published results highlight not only the incredible performance of the CS-2, but also its architectural efficiency," said Andrew Feldman, CEO and co-founder of Cerebras Systems. "The Cerebras CS-2 system, powered by the WSE-2 processor, has 48x more transistors than the A100 but achieved a 130x speedup, showing a 2.7x gain in architectural efficiency for a problem that is widely optimized for GPUs."
Moreover, the Cerebras CS-2 demonstrated strong scaling, meaning it achieved high performance on both small- and large-scale simulations. The researchers noted that in smaller scale simulations, no amount of GPUs working in parallel would be able to match the performance of a single CS-2.
The Cerebras CS-2, powered by the WSE-2, is purpose-built for generative AI and scientific applications. It has delivered remarkable results, often characterized as "100x" improvements in scientific computing. Notably, in a multi-dimensional seismic processing project conducted by the King Abdullah University of Science and Technology (KAUST), a cluster of 48 CS-2s achieved performance comparable to the world's fastest supercomputer. Similarly, researchers at the National Energy Technology Laboratory used the CS-2 to perform computational fluid dynamics a staggering 470 times faster than its Joule Supercomputer. Additionally at TotalEnergies, the CS-2 accelerated stencil computations by an impressive 228 times when compared to a GPU-based solution.
To read the full paper titled "Efficient Algorithms for Monte Carlo Particle Transport on AI Accelerator Hardware," please visit
About Cerebras Systems
Cerebras Systems is a team of pioneering deep learning researchers, computer architects, and solutions specialists of all types. We have come together to bring generative AI to enterprises and organizations of all sizes around the world. Our flagship product, the CS-2 system, powered by WSE-2, the world's largest and fastest AI processor, makes training large models simple and easy, by avoiding the complexity of distributed computing. Our software tools simplify the deployment and training process, providing deep insights and ensuring best in class accuracy. Through our team of world-class ML researchers and practitioners who bring decades of experience developing and deploying the most advanced AI models, we help our customers stay on the cutting edge of AI. Cerebras solutions are available in the cloud, through the Cerebras AI Model Studio or on premise. For further information, visit
Contacts Kim Ziesemer
pr@zmcommunications.com
実行可能な連続エネルギーモンテカルロ粒子輸送カーネルは、高度に最適化されたGPUバージョンを上回り、核エネルギーのHPCシミュレーションカーネルにおいてNvidia A100 GPUの130倍のスピードアップを実現し、Argonne National Laboratoryの研究者が開発した。この結果は、Cerebras Wafer-Scale Engine(WSE-2)のパフォーマンスと汎用性を証明し、米国がエネルギーおよび防衛アプリケーションのスーパーコンピューティングのグローバルリーダーであることを保証しています。
カリフォルニア州サニーベール--(BUSINESS WIRE)--世界初のAI生成加速を目的としたCerebras Systemsは、本日、Argonne National Laboratoryの研究者が開発した核エネルギーHPCシミュレーションカーネルにおいて、Nvidia A100 GPUの130倍のスピードアップを実現しました。これによって、CerebrasのWafer-Scale Engine(WSE-2)のパフォーマンスと汎用性が証明され、米国がエネルギーや防衛のアプリケーションにおいてスーパーコンピューティングのグローバルリーダーであることが確保されます。
モンテカルロ粒子輸送は、放射線輸送の高精度なシミュレーションを提供し、核分裂および核融合炉の設計に不可欠です。この研究協力では、Cerebras CS-2システムが、モンテカルロ中性子粒子輸送アルゴリズムの最も要求の厳しい部分であるマクロスコーピック断面積の検索カーネルにおいて、高度に最適化されたGPUの実装を大幅に上回りました。このカーネルは、多くの核エネルギーアプリケーションにおいて、合計ランタイムの85%に相当する、最も計算資源が必要な部分を表します。この研究により、Cerebrasシステムがモンテカルロ粒子シミュレーションに最適なバンド幅と低レイテンシーを提供し、外部の研究者が自分たちのHPCアプリケーションをCerebras構造に合わせて最適化することができることも証明されました。
「私はこのカーネルを半ダース以上のプログラミングモデルに実装し、過去10年間にわたってほとんどすべてのHPCアーキテクチャで実行しています」と、アシスタント計算科学者のJohn R. Trammは語ります。「私たちのチームがCerebrasマシンから得た性能数字は印象的で、これまでCPUまたはGPUアーキテクチャで可能だったものをはるかに進歩させています。私たちのチームの仕事は、AIアクセラレータがHPCシミュレーションの分野でGPU支配を破壊する可能性を持つことを示す証拠が増えていることを示しています。」
モンテカルロ中性子粒子輸送は、放射線輸送の高精度なシミュレーションを提供する重要なアルゴリズムであり、核分裂および核融合炉の設計に必要不可欠です。このアルゴリズムでは、マクロ断面積ルックアップカーネルが、幾何学的形状とさまざまな素材との相互作用をシミュレートしながら、粒子が移動する際の振る舞いのランダムサンプルを生成するために使用する統計分布データを構成します。ANLの科学者たちは、Cerebras SDKとCSLプログラミング言語を使用して、最適化されたマクロ断面積ルックアップカーネルの実装を行いました。この実装では、最大850,000コアと40GBのオンチップSRAMを備えたCerebras CS-2のウエハスケールアーキテクチャを生かし、モンテカルロ粒子シミュレーションに最適な高帯域幅・低レイテンシーの組み合わせを提供しました。この研究は、外部研究者がCerebrasアーキテクチャに合わせてHPCアプリケーションを自分たちで開発し、さまざまな計算問題において新たな性能レベルを発揮することを証明しています。
「これらの結果の発表によって、CS-2の信じられないほどの性能だけでなく、そのアーキテクチャの効率性が強調されました」と、Cerebras SystemsのCEOで共同設立者のAndrew Feldmanは述べています。「WSE-2プロセッサで動作するCerebras CS-2システムは、A100よりも48倍のトランジスタを備えていますが、130倍のスピードアップを実現しており、GPUに最適化された問題に対して2.7倍のアーキテクチャの効率性が示されています。」
さらに、Cerebras CS-2はスケーリング性が強く、小規模から大規模のシミュレーションの両方で高いパフォーマンスを発揮することができました。研究者たちは、小規模なシミュレーションにおいて、並列処理されるGPUの数量はどれだけ多くても、単一のCS-2に匹敵する性能を発揮できないことを指摘しています。
Cerebras SystemsのCS-2は、生成AIと科学アプリケーションに特化したシステムです。科学計算において「100倍」と表現されるような目覚ましい成果を達成しています。特に、King Abdullah University of Science and Technology(KAUST)によって実施された多次元地震処理プロジェクトでは、48台のCS-2クラスターが、世界最速のスーパーコンピューターに匹敵する性能を発揮しました。同様に、National Energy Technology Laboratoryの研究者たちは、Jouleスーパーコンピューターの470倍の速度で計算流体力学を実行するために、CS-2を使用しました。また、TotalEnergiesでは、ステンシル計算をGPUベースのソリューションと比較して228倍高速化しました。
「効率的なアルゴリズム(Efficient Algorithms)」と題された論文の全文を読むには、こちらをご覧ください。
Cerebras Systemsについて
Cerebras Systemsは、深層学習研究者、コンピューターアーキテクト、ソリューションスペシャリストなどが共に取り組み、世界中の企業や組織に生成AIを提供するために設立されました。世界最大かつ最速のAIプロセッサーであるWSE-2によって動作する当社の代表的な製品であるCS-2システムにより、分散コンピュータリンクの複雑さを回避することで、大規模なモデルのトレーニングを簡単かつ簡略化することができます。私たちのソフトウェアツールは、展開やトレーニングプロセスを簡素化し、深い洞察を提供し、最高の精度を確保します。私たちは経験豊富なML研究者や実践者のチームを擁し、最も先進的なAIモデルの開発と展開に数十年にわたって取り組んできたノウハウを活用して、お客様をAIの最前線に位置する企業に導いてきました。Cerebrasのソリューションは、クラウド、Cerebras AI Model Studio、またはオンプレミスで利用可能です。詳細については、次のサイトをご覧ください。
連絡先 Kim Ziesemer
pr@zmcommunications.com