コンテンツにスキップ

[Advance/NeuralMD Pro] 8基のNVIDIA H200搭載マシンにおけるベンチマーク#

Neural Network力場を用いた、LAMMPSによる分子動力学計算のベンチマークを8GPU (NVIDIA H200) 搭載マシン上で実施しました。

対象はこれまでに行ったベンチマークと同様、硫化物リチウムイオン伝導体Li10GeP2S12の21,600原子系および98,000原子系スーパーセルモデルを使用しました。

計算機環境およびMD計算条件#

本事例で使用した計算機のスペックを以下に示します。

  • CPU:Intel Xeon Platinum 8480+(56コア)×2
  • GPU:NVIDIA H200 ×8
  • CUDA:12.4

計算環境は株式会社ハイレゾにご協力いただき、GPUクラウドサービス「GPUSOROBAN」を利用して作成しました。

LAMMPS 2Aug2023(アドバンスソフト改修版、Advance/NanoLabo Toolに同梱)を使用し、NeuralMDで作成した力場によるLi10GeP2S12の21,600原子系および98,000原子系の分子動力学計算を実行しました。今回使用した力場を含め、学習済みの力場ファイルは力場データベースで公開しています。

NVTアンサンブル・500 Kで100ステップの計算を行い、時間刻み幅は0.5 fsとしました。また、同様の分子動力学計算を1 ns間実施するのに要する日数を計算結果から算出しました。

ベンチマーク結果#

計算条件および計算結果は下表の通りです。CPUのみ、および、GPUを1〜8デバイス用いた場合の5条件で計算しました。MPI並列数は、1GPUデバイスあたり4つのMPIプロセスが起動されるよう設定しました。

CPU GPU×1 GPU×2 GPU×4 GPU×8
MPIプロセス数 56 4 8 16 32
OpenMPスレッド数 1 2 2 2 2
GPUデバイス数 0 1 2 4 8
計算時間(Looptime/s) 21600原子 6.78 3.34 1.86 1.03 0.72
計算時間(Looptime/s) 98000原子 27.92 15.07 7.65 4.11 2.43
ns/day 21600原子 0.64 1.29 2.32 4.20 6.04
ns/day 98000原子 0.16 0.29 0.57 1.05 1.78

CPUのみの計算速度を1とした相対計算速度を下図に示します。GPU1デバイスで約2倍、8デバイスで約10~12倍の高速化が見られました。

A100との比較#

今回はNVIDIA A100 80GBを1デバイス使った計算も行っており、比較のため同じ基準で相対計算速度を算出しました。

A100でも56コアCPUと同等の計算速度が出ていますが、H200では着実に性能が向上しており、NeuralMDが新しい世代のGPUの性能を活かした計算速度を実現できていることが分かります。NeuralMDを使った分子動力学計算において新しい世代のGPUを複数搭載したシステムが極めて有効であり、より大規模で複雑なシミュレーションの実現を可能にするツールになることが示されたと言えます。

関連ページ#