[Advance/NeuralMD Pro] 8基のNVIDIA H200搭載マシンにおけるベンチマーク#
Neural Network力場を用いた、LAMMPSによる分子動力学計算のベンチマークを8GPU (NVIDIA H200) 搭載マシン上で実施しました。
対象はこれまでに行ったベンチマークと同様、硫化物リチウムイオン伝導体Li10GeP2S12の21,600原子系および98,000原子系スーパーセルモデルを使用しました。
計算機環境およびMD計算条件#
本事例で使用した計算機のスペックを以下に示します。
- CPU:Intel Xeon Platinum 8480+(56コア)×2
- GPU:NVIDIA H200 ×8
- CUDA:12.4
計算環境は株式会社ハイレゾにご協力いただき、GPUクラウドサービス「GPUSOROBAN」を利用して作成しました。
LAMMPS 2Aug2023(アドバンスソフト改修版、Advance/NanoLabo Toolに同梱)を使用し、NeuralMDで作成した力場によるLi10GeP2S12の21,600原子系および98,000原子系の分子動力学計算を実行しました。今回使用した力場を含め、学習済みの力場ファイルは力場データベースで公開しています。
NVTアンサンブル・500 Kで100ステップの計算を行い、時間刻み幅は0.5 fsとしました。また、同様の分子動力学計算を1 ns間実施するのに要する日数を計算結果から算出しました。
ベンチマーク結果#
計算条件および計算結果は下表の通りです。CPUのみ、および、GPUを1〜8デバイス用いた場合の5条件で計算しました。MPI並列数は、1GPUデバイスあたり4つのMPIプロセスが起動されるよう設定しました。
CPU | GPU×1 | GPU×2 | GPU×4 | GPU×8 | |
---|---|---|---|---|---|
MPIプロセス数 | 56 | 4 | 8 | 16 | 32 |
OpenMPスレッド数 | 1 | 2 | 2 | 2 | 2 |
GPUデバイス数 | 0 | 1 | 2 | 4 | 8 |
計算時間(Looptime/s) 21600原子 | 6.78 | 3.34 | 1.86 | 1.03 | 0.72 |
計算時間(Looptime/s) 98000原子 | 27.92 | 15.07 | 7.65 | 4.11 | 2.43 |
ns/day 21600原子 | 0.64 | 1.29 | 2.32 | 4.20 | 6.04 |
ns/day 98000原子 | 0.16 | 0.29 | 0.57 | 1.05 | 1.78 |
CPUのみの計算速度を1とした相対計算速度を下図に示します。GPU1デバイスで約2倍、8デバイスで約10~12倍の高速化が見られました。
A100との比較#
今回はNVIDIA A100 80GBを1デバイス使った計算も行っており、比較のため同じ基準で相対計算速度を算出しました。
A100でも56コアCPUと同等の計算速度が出ていますが、H200では着実に性能が向上しており、NeuralMDが新しい世代のGPUの性能を活かした計算速度を実現できていることが分かります。NeuralMDを使った分子動力学計算において新しい世代のGPUを複数搭載したシステムが極めて有効であり、より大規模で複雑なシミュレーションの実現を可能にするツールになることが示されたと言えます。