コンテンツにスキップ

[Advance/NeuralMD Pro] Mat3raでのマルチGPUでのベンチマーク#

Mat3ra#

Mat3raはExabyte.io社によって提供されているクラウド環境で、第一原理計算や分子動力学計算などのシミュレーションに特化した計算リソースが用意されています。Amazon AWSおよびMicrosoft Azureが利用可能で、今回は両クラウド環境にてGPU化されたAdvance/NeuralMDのベンチマークを実施しました。 計算リソースの手配にはMat3raの代理店である伊藤忠テクノソリューションズ(CTC)社にご協力頂いております。

Neural Network力場のベンチマーク#

Advance/NeuralMDで作成したNeural Network力場を使って、LAMMPSによる分子動力学計算のベンチマークを実施しました。LAMMPSはGCC11.2.0, OpenBLAS, OpenMPI4.1.1, CUDA11.5でコンパイルしています。
計算に使用した系は、硫化物リチウムイオン伝導体Li10GeP2S12のスーパーセルモデルです(下図)。原子数は21,600個であり、Neural Network力場を適用するには比較的に大きな系になります。Neural Network力場および分子動力学計算の計算条件は下表の通りです。100ステップのMD計算実施後に計算時間を計測しています。



計算条件 設定値
対称関数の種類 Chebyshev多項式
対称関数の動径成分 50個
対称関数の角度成分 30個
カットオフ半径 6.0 Å
Δ-NNP法 適用有り
NNの構造 2層 x 40ノード(twisted tanh)
アンサンブル NVT (T = 500K)
時間刻み 0.5 fs
MDステップ数 100

Amazon AWSでのベンチマーク結果#

AWSでの計算条件および計算時間は下表の通りです。CPUのみ、および、GPUを1〜8デバイス使用した場合の5ケースにて計算しています。1GPUデバイス当たり、4つのMPIプロセスを起動しています。

CPUのみ GPU x 1 GPU x 2 GPU x 4 GPU x 8
ジョブ
Queue
OFplus GOF G4OF G4OF G8OF
CPU種別 Intel Xeon Platinum / 72core Intel Xeon E5-2686-v4
GPU種別 - NVIDIA V100
MPI
プロセス数
72 4 8 16 32
OpenMP
スレッド数
1 2 2 2 2
GPU
デバイス数
- 1 2 4 8
計算時間
/ sec
150.8 21.6 11.2 6.9 3.9

CPUでの計算速度を1とした相対計算速度を下図に示します。

Microsoft Azureでのベンチマーク結果#

Azureでの計算条件および計算時間は下表の通りです。CPUのみ、および、GPUを1〜4デバイス使用した場合の4ケースにて計算しています。1GPUデバイス当たり、3つのMPIプロセスを起動しています。

CPUのみ GPU x 1 GPU x 2 GPU x 4
ジョブQueue OFplus GPOF GP2OF GP4OF
CPU種別 Intel Xeon Platinum 8168 / 44core Intel Xeon E5-2690-v4
GPU種別 - NVIDIA P100
MPIプロセス数 44 3 6 12
OpenMPスレッド数 1 2 2 2
GPUデバイス数 - 1 2 4
計算時間 / sec 195.4 30.5 16.4 8.5

CPUでの計算速度を1とした相対計算速度を下図に示します。

まとめ#

  • Amazon AWSではGPU(NVIDIA V100)1デバイスで、Intel Xeon Platinumの7.0倍ほど高速化されました。
  • Microsoft AzureではGPU(NVIDIA P100)1デバイスで、Intel Xeon Platinumの6.4倍ほど高速化されました。
  • AWSおよびAzureともに、GPUのデバイス数を増やすと計算速度は十分に良くスケールすることが確認されました。
  • 今回のベンチマークに使用した2万原子系ではGPUが4デバイスほどあれば十分に実用的な計算が実施できることが確認できました。原子数が5000以下であれば、GPU1デバイスでも十分高速にMD計算が実施できるものと推測されます。

関連ページ#