コンテンツにスキップ

機械学習(XGBoost)とDFT計算を用いた軽量・高硬度材料のスクリーニングと実証#

Advance/PHASE ロゴ

新規材料の開発において、広大な組成空間から目的の物性を持つ物質を探索することは大きな課題となっています。近年、この課題を解決する手法として、機械学習を用いて高速に候補物質を絞り込み(仮想スクリーニング)、その有望な候補に対して第一原理計算(DFT)を行い物理的な裏付けを得る「マテリアルズ・インフォマティクス(MI)」のアプローチが盛んに行われています。本事例では、「軽量かつ高硬度な構造材料」の探索をテーマとしました。実際の硬度は複雑な指標ですが、本検証では一次スクリーニングに有効な「体積弾性率(圧縮に対する耐性)」を硬さの代替指標として採用しています。勾配ブースティング決定木アルゴリズム「XGBoost」を用いてデータベースから比弾性率(体積弾性率/密度)の高い材料をスクリーニングし、抽出された候補物質に対して第一原理計算ソフトウェアAdvance/PHASEを用いたDFT計算による検証を行いました。機械学習予測の妥当性とAIが捉えた物理的特徴について考察します。

Keywords: 第一原理計算 (DFT), マテリアルズ・インフォマティクス (MI), XGBoost, 材料スクリーニング, 体積弾性率

1. 機械学習モデルの構築とスクリーニング#

XGBoostとは#

XGBoost(eXtreme Gradient Boosting)は、複数の決定木(Decision Tree)を直列に組み合わせて強力な予測モデルを構築する「勾配ブースティング」アルゴリズムを、極限まで高速化・高精度化した先進的な機械学習ライブラリです [1]。過学習を防ぐための数学的なペナルティ(正則化)が標準で組み込まれており、マテリアルズ・インフォマティクスで主流となる表形式(テーブル)の材料データに対しては、多くの場合、深層学習(ディープラーニング)と同等かそれ以上の高い予測精度と安定性を発揮します。また、並列処理による計算の高速性にも優れており、数万件規模の材料データベースを用いた網羅的な仮想スクリーニングに最適な手法の一つとして世界中で広く活用されています。

データの準備と特徴量エンジニアリング#

XGBoostの学習データとして、Materials Project(MP) [2] から密度および体積弾性率が既知である約11,000件の無機化合物データを取得しました。これを学習用データ(80%)とテスト用データ(20%)に分割し、モデルの汎化性能を評価する設計としています。さらに、最終的なターゲットとなる5つの候補物質(BeO, BP, TiC, Al3Li, Mg2Si)は、真の予測能力を検証するため事前の学習・テストデータ群から完全に除外(ブラインドテスト化)しました。

取得した化学組成式に対し、オープンソースライブラリmatminer [3] を利用して、元素ごとの原子体積、価電子数、電気陰性度などの統計的特徴量(Magpie特徴量)を自動生成し、XGBoostの入力としました。

ハイパーパラメータ最適化と予測精度#

Scikit-learn [4] のGridSearchCVを用いてXGBoostのハイパーパラメータ探索を行い、過学習を抑制した結果、最適なパラメータ(学習率: 0.05, 最大深さ: 6, 決定木数: 800, L2正則化: 10)を決定しました。

テストデータに対する予測精度は 決定係数 (R2 Score): 0.95RMSE: 17 GPa となり、構造データを使用しない予測モデルとしては高い精度(実用レベル)を達成しました。

スクリーニング結果と特徴量の重要度#

構築したモデルを用いて、除外しておいた5つの候補物質に対して、その化学式と密度から体積弾性率を予測し、密度で割った「比弾性率(specific modulus)」の高い順にランキング化しました。なお、機械学習による予測値は、学習データの分割方法や抽出データの偏りによって数十GPa程度の変動が生じる性質があるため、本稿の予測結果には複数回のモデル構築試行の中で最も精度の高かった条件での数値を記載しています。

表1. XGBoostによるスクリーニング結果(比弾性率上位順)

物質 (Formula) 密度 (g/cm3) 予測・体積弾性率 (GPa) 比弾性率 (GPa / g/cm3)
BeO 3.01 171 57
BP 2.90 141 49
TiC 4.93 212 43
Al3Li 2.15 60 28
Mg2Si 1.99 53 27

AI(XGBoostを用いた予測)は、強い共有結合・イオン結合を持つ軽元素セラミックス(BeO, BP)や、強固な共有結合と金属結合を併せ持つ遷移金属炭化物(TiC)を上位に、合金・金属間化合物(Al3Li, Mg2Si)を下位にランク付けし、物理・化学的な直感と一致する妥当な予測を行いました。

XGBoost特徴量重要度

図1. 体積弾性率の予測に寄与した特徴量の重要度(Top 10)

図1はモデルが予測の根拠とした特徴量の重要度を示しています。AIは入力された組成ベースのデータ群の中から、「構成元素における未充填軌道数の最小値(minimum NUnfilled)」や「平均的な基底状態の原子体積(mean GSvolume_pa)」といった、組成式から導かれる構成元素の基礎的な性質や、その統計的傾向を強く学習していることがわかります。これは、巨大なデータベースに基づく機械学習ならではの巨視的なアプローチと言えます。

2. 第一原理計算での検証#

次に、XGBoostが算出した予測値の「答え合わせ」を行うため、Advance/PHASEを用いて第一原理計算(DFT)を実行しました。単位胞の体積を基準値から±数%変化させながら全エネルギーを計算し、得られたE-V曲線をBirch-Murnaghan状態方程式(EOS)でフィッティングすることで体積弾性率(B0)を算出しました。

BeOの状態方程式フィッティング

図2. BeOの体積-エネルギー曲線とEOSフィッティング。六方晶であるため、各体積点ではc/a比が最適化されています。

Al3Liの状態方程式フィッティング

図3. Al3Liの体積-エネルギー曲線とEOSフィッティング

表2. 各手法による体積弾性率(GPa)の比較

物質 XGBoost 予測値 Advance/PHASE 計算値 Materials Project 参照値
BeO 171 207 208
BP 141 159 162
TiC 212 250 251
Al3Li 60 64 64
Mg2Si 53 54 54

予測と検証の考察#

表2の比較から明らかなように、Advance/PHASEによるDFT計算値は、膨大な無機材料データベースであるMaterials Project(MP)の参照値(BeO: 208 GPa, TiC: 251 GPaなど)と高い精度で一致しています。

一方、完全にブラインド(未知物質)の状態で推論を行わせたXGBoostの予測値に注目すると、Al3LiやMg2Siにおいては、DFT計算値やMP参照値と非常に近い値(Al3Li: 60 GPa, Mg2Si: 53 GPa)を予測しています。他方、BeOやTiCのような超高硬度材料においては、XGBoostはそれぞれ171 GPa、212 GPaと、実際のDFT値よりもやや過小評価(保守的に予測)する傾向が見られました。

これは、機械学習が図1の通り「組成の平均的な特徴量」から学習しているため、極端な高物性値を持つ特異な物質に対しては予測値が中央(平均寄り)に引っ張られるという、データ駆動型予測特有の性質を示しています。しかしながら、最も重要な「どの物質が軽量高硬度として有望か」という序列(ランキング)は正しく捉えており、広大な探索空間からアタリをつけるスクリーニングツールとして、XGBoostが優れていることを示しています。そして、AIが絞り込んだ候補を検証するために第一原理計算が大いに活用できるという、MI(マテリアルズ・インフォマティクス)の理想的な二段構えのワークフローが本事例によって実証されました。

まとめ#

本事例では、データベースとXGBoostを用いた「高速な仮想スクリーニング」と、Advance/PHASEによる「高精度な第一原理検証」を組み合わせたハイブリッドな材料探索アプローチを実践しました。機械学習は特徴量エンジニアリングを通じてマクロな物質の傾向を捉え、広大な探索空間からアタリをつけるファネル(漏斗)として威力を発揮します。そして、絞り込まれた候補物質のミクロな物理現象の解明や、実験検証へと進む前の高精度な物性予測において、第一原理計算は重要な役割を担います。データ科学と計算科学の「両輪」を活用し、最終的な実験による実証へとシームレスに繋げることで、材料開発のコストと時間を大幅に削減することが可能です。

本解析の詳細や、研究への適用可能性に関するご相談はこちら

お問い合わせ

参考文献#

  1. T. Chen and C. Guestrin, "XGBoost: A Scalable Tree Boosting System", Proceedings of the 22nd ACM SIGKDD International Conference, 785 (2016).
  2. A. Jain et al., "Commentary: The Materials Project: A materials genome approach to accelerating materials innovation", APL Materials 1, 011002 (2013).
  3. L. Ward et al., "Matminer: An open source toolkit for materials data mining", Comput. Mater. Sci. 152, 60 (2018).
  4. F. Pedregosa et al., "Scikit-learn: Machine Learning in Python", J. Mach. Learn. Res. 12, 2825 (2011).

関連ページ#