[Advance/NeuralMD Pro] HPCでのベンチマーク#

NeuralNetwork力場を用いたLAMMPSでの分子動力学計算のベンチマークを実施しました。計算に用いた系は、以前Mat3raを用いて行ったベンチマークと同じもので、硫化物リチウムイオン伝導体Li₁₀GeP₂S₁₂のスーパーセルモデル(21,600原子系)です。

計算機環境#

CPU：AMD EPYC 7742 64-Core
GPU：NVIDIA A100 SXM4

計算機環境の用意・使用にあたっては、HPCシステムズ様にご協力いただきました。

また、今回用いたマシンに使用されているAMD製のCPUにはIntel製のコンパイラー・ライブラリは適さないため、コンパイラーにはGCCを、行列演算ライブラリにはOpenBLASを用いました。

ベンチマーク結果#

計算条件および計算結果は下表の通りです。CPUのみ、および、GPUを１〜８デバイス用いた場合の５条件で計算しました。MPI並列数は、１GPUデバイスあたり４つのMPIプロセスが起動されるよう設定しました。

	CPU	GPU x 1	GPU x 2	GPU x 4	GPU x 8
MPI プロセス数	64	4	8	16	32
OpenMP スレッド数	1	2	2	2	2
GPU デバイス数	-	1	2	4	8
計算時間 / sec	56.4	16.0	8.3	4.4	2.5

CPUのみの計算速度を１とした相対計算速度を下図に示します。GPU１デバイスで約3.5倍、８デバイスで約22.9倍の高速化が見られました。

クラウド環境との比較#

今回の結果と併せて、上図と同じ基準で算出したMat3raのベンチマーク結果の相対計算速度を下図左に示します。Mat3raでは、CPUにIntel Xeon Platinumシリーズ、GPUにはNVIDIA V100またはNVIDIA P100を用いました。その他の条件に関しては該当記事をご参照ください。

CPU単体どうしで比較すると、AMD EPYCは、Intel Xeon Platinumに対して計算速度が3倍ほど高くなりました。AMD EPYCにGPU８デバイスを用いた場合は、Intel Xeon Platinumのそれと比較して1.5倍以上の計算速度が得られました。これをIntel Xeon PlatinumのCPU単体と比較すると、計算速度の差は60倍以上になります。

また、結果をGPUデバイス数に対して取ったグラフを下図右に示します。全ての環境において、GPUデバイス数の増加に合わせて、等比的に計算速度が増加していく様子が確認されました。

[Advance/NeuralMD Pro] HPCでのベンチマーク#

計算機環境#

ベンチマーク結果#

クラウド環境との比較#

関連ページ#