コンテンツにスキップ

流体解析ソフトウェアAdvance/FrontFlow/redのGPUベンチマーク#

はじめに#

流体計算において、GPUはその高い並列処理能力により、計算の高速化と優れたコストパフォーマンスの発揮が期待されています。

ここでは、Advance/FrontFlow/red (AFFr) に追加されたGPU計算機能の性能評価を目的として、ベンチマーク計算を行いました。

図1は、壁乱流をLESで解き速度勾配テンソル第2不変量の等値面を図示したものです。 このような流体計算を実施した場合、計算時間の大部分(8割〜9割程度)は圧力計算に費やされます。

流体解析結果の等値面

図 1. 流体解析結果の等値面

圧力計算にあらわれる連立一次方程式のソルバーとして用いられる ICCG法 (不完全コレスキー分解共役勾配法) には逐次処理がありますが、 マルチカラー法 (Multi-Color Ordering) を導入することによってGPUの並列処理が可能となります。

今回は、AFFr の非圧縮性流体解析における壁乱流計算を題材とし、GPU計算機能の高速化の効果を調べました。

計算機環境#

ベンチマークテストに用いた計算機環境を以下表1に示します。

表 1.計算機諸元

計算機 CPU GPU
A100 (40 GB) 搭載計算機 Xeon Platinum 8368 ×2 NVIDIA A100 (40 GB) ×8
A100 (80GB) 搭載計算機 Xeon Silver 4310 ×2 NVIDIA A100 (80 GB) ×1
H200 搭載計算機 Xeon Platinum 8480+ ×2 NVIDIA H200 ×8

A100 (80GB), H200 搭載計算機は株式会社ハイレゾ様にご協力いただき、 GPUクラウドサービス「GPUSOROBAN (https://soroban.highreso.jp/)」を利用しました。

ベンチマークテストと結果#

計算モデル1#

4,665万(360×360×360)要素の矩形格子モデルを用い、Advance/FrontFlow/red の フラットMPI 8並列で計算を実行しました。 その中で、圧力計算において現れる連立一次方程式を 1回解くのに要する計算時間、および CPUだけの計算に対するスピードアップ率をグラフにしました。

結果1#

各計算機環境での計算時間を図2~4に示します。

図2

図 2. A100 (40 GB) 搭載計算機での計算時間とスピードアップ

図3

図 3. A100 (80 GB) 搭載計算機での計算時間とスピードアップ

図4

図 4. H200 搭載計算機での計算時間とスピードアップ

いずれの種類の GPU においても、単一 GPUで CPU 1コアよりも 20倍程度のスピードアップ率が得られています。 さらに、GPUを複数台利用する計算では、MPIプロセスを各GPUに均等に割り当てることで、 GPU台数の増加に伴う計算時間の短縮と、高いスケーラビリティが達成されました。

図5

図 5. GPU 間のスピードアップの比較

GPUによる高速化は、A100からH200といった最新世代のGPUに移行しても安定して効果を発揮しており、世代が進むほど計算性能が向上することが確認されました(図5)。 これにより、新しいGPUは導入コストが高価であるものの、その投資に十分見合う計算効率の向上を実現できることが示されています。

計算モデル2#

モデル1と同じ要素数 4665 万 (360×360×360) 要素の平行平板の格子(図6)で 入口速度を変動させる条件で 100ステップの計算を Advance/FrontFlow/red で実行しました。

図6

図 6. 格子図

GPU搭載計算機の1ノードを効率的に使用するため、以下の計算設定で時間を比較しました。

CPU計算: CPUに搭載された全物理コアを用いたフラットMPI並列計算。 GPU計算: GPU台数の倍数のうち、最大となるCPUコア数を利用したMPI並列計算。

結果2#

A100 (40 GB) 搭載計算機における100ステップの全体計算時間とスピードアップを図7に示します。

図7

図 7. A100 (40 GB) 搭載計算機での計算時間とスピードアップ

GPUを利用することで、CPUの全物理コアを用いた計算と比較しても、 圧力計算部分で約 12倍のスピードアップとなります。 GPU を用いないその他の部分では、逆に時間がかかりましたが、 全体計算時間においても約 4.4倍のスピードアップが確認できました。

この結果は、たとえ高価なGPU搭載ノードを利用したとしても、計算時間の短縮によるコストパフォーマンスの改善が明確であり、GPU計算が実用的かつ経済的に有利であることを裏付けています。

以上のことから、GPUの種類によらず安定した高い性能が得られること、 およびGPUの導入コストを考えても十分な計算速度の高速化が達成が可能で、 大規模計算をよりコストパフォーマンスよく実行できると期待できます。

関連ページ#