Blog

2025.03.03

Research

PFPを用いた表面エネルギーのベンチマーク

Shigeru Iwase

 

この記事は先日公開したブログBenchmark surface energies with PFPの日本語訳です。

はじめに

DFT計算に匹敵する精度と、経験的ポテンシャルに匹敵するスケーラビリティを兼ね備えたポテンシャルとして機械学習ポテンシャル(Machine Learning Potential, MLP)が注目を集めています。近年では、元素によらずに様々な材料に適用可能な汎用機械学習ポテンシャル (Universal Machine Learning Potential, UMLP)の開発が精力的に進められており、学術機関のみならず、Google DeepMind、Microsoft、Orbital、Metaなどの企業も独自開発したUMLPを発表しています。Preferred Networks, Inc.(PFN)は、2019年から他社に先駆けてPFPというUMLPを開発してきました。PFPは、PFNとENEOS株式会社が共同開発したSaaS製品であるMatlantis™で利用可能です。Matlantis™は現在、100以上の組織で使用されており、材料分野によらず高い汎化性能を示しています。

UMLPは触媒材料などをはじめ、様々な系への適用が行われており、成功事例が多数報告されています。しかし、その適用限界はモデルアーキテクチャや学習に用いるDFT計算のデータセットに大きく依存するため未だに明確になっていません。そのため、UMLPの性能をベンチマークする必要性が高まっています。これまでのUMLPのベンチマークの取り組みとして、Matbench Discoveryが、無機結晶構造のエネルギー特性を評価するためのUMLPのベンチマークとして広く知られています。しかし、無機材料においても、理想的なバルク結晶構造とは大きく異なる構造が、機能材料の設計や製造などの工学的な観点においてしばしば重要となります。たとえば、表面、界面、欠陥を有するような非一様構造は、その特有の化学状態から独自のエネルギー特性を持つため、材料プロセスにおいて重要な役割を果たすことが多々あります。

こうした状況から、CHIPS-FF(arxivgithub)が表面エネルギーや欠陥形成エネルギーなどの広範な物理特性の精度を評価するための自動ベンチマークツールとして最近提案されました。この論文では、主に半導体デバイス材料として使用される103種類の材料に対して、ALIGNN-FF、CHGNet、M3GNet、ORB、SevenNet、MACE、eqV2(OMat24)、MatterSimなどの主要なUMLPを包括的にベンチマークしています。

本記事では、CHIPS-FFを使用してPFP v7の表面エネルギーの性能を評価しました [1]。結果として、PFP v7は表面エネルギーの評価において高い精度を示すことを確認しました。なお、PFP v7はCHIPS-FFの公開前の2024年9月にリリースされたモデルであり、この特定の目的のためにファインチューニングされたモデルではありません。

実験設定

CHIPS-FFにおける表面モデリング、表面エネルギー計算方法、およびデータセットの概要を説明します。CHIPS-FFタスクの表面モデリングに従い、(100)、(111)、(110)、(011)、(001)、(010)の非極性表面を選択してスラブ(表面構造)を作成しました。スラブモデルは、少なくとも4層の原子層と18Åの厚さの真空層で構成され、周期境界条件下で交互に積層されています。表面エネルギーは次の式で評価されます:

$$ \gamma=\frac{E_\mathrm{surface}-N \cdot E_\mathrm{bulk}}{2A} $$

ここで、\(E_\mathrm{surface} \) は表面構造のエネルギー、\(E_\mathrm{bulk}\)は単位胞あたりのバルク構造のエネルギー、\(N\) は表面構造を構成するバルク構造の単位胞数、\(A\) は上下面の表面積です。

データセットにはCHIPS-FF Surface Energy Datasetを使用しました。具体的には、46種類の化合物の85の非極性表面の表面エネルギーをCHIPS-FF Surface Energy DatasetのDFT計算結果と比較しました。CHIPS-FF Surface Energy Datasetは、分散力を考慮したvan der Waals密度汎関数の1つであるvdW-DF-OptB88を使用しています。

構造緩和計算は、最適化アルゴリズムにFIREを使用して、FrechetCellFilter、fmax=0.05、max_steps=200を指定しました。バルクの初期構造はJARVIS-DFTから取得しました。表面エネルギーの計算において、経験的分散補正(D3補正)を考慮するかによって表面エネルギーの結果が影響を受けるため、D3補正ありとなしの2つの計算モードで検証しました [2]。PFP v7とv6の2つのモデルを調査し、同様の結果が得られたため、本記事ではPFP v7の結果のみを示します。

結果

表1は、D3補正なしのPFP v7と他のUMLP(ORB [3]、OMat24のeqV2 [4]、MatterSim-v1 [5]、MACE-MPA-0 [6])の表面エネルギー誤差を示しています。誤差は平均絶対誤差(MAE)で定量化されています。PFP v7は、最も性能の高いモデルであるORB(orb-v2 MAE: 0.18)およびeqV2(MAE: 0.17-0.20)に匹敵する表面エネルギー予測性能(MAE: 0.19)を示しています。UMLPとDFT計算の実験値への近似誤差 [7](標準誤差:±0.27 J/m²)を考慮すると、PFPの誤差(MAE: 0.19)はDFT計算と実験値の間の誤差範囲内にあり、PFP v7はDFT計算を再現するのに十分な精度が得られていることを示しました。最近投稿された「PFPによる格子熱伝導率計算」においても、PFPが格子熱伝導率のベンチマークで最高のスコアを示したことが報告されています。具体的には、PFP v6(変位距離=0.1 Å)はmSRME 0.374という優れた結果を示し、ORBおよびeqV2は最も誤差の大きいモデルでした [8]。また、格子熱伝導率のベンチマークで高いスコアを示したMatterSim-v1およびMACE-MPA-0が、表面エネルギーベンチマークではそれほど良いスコアを示さなかった点も興味深いです。このことは、UMLPの性能評価において、単一の指標だけでなく包括的なベンチマークを行うことの重要性を示唆しています。

表 1: CHIPS-FF Surface Energy DatasetにおけるPFP v7および他のUMLPモデルの表面エネルギー予測精度。他のUMLPモデルの結果はCHIPS-FF論文から引用しました [9]。

Model name MAE (J/m²)
PFP v7 0.19
eqV2_31M_omat_mp_salex 0.17
eqV2_31M_omat 0.18
eqV2_86M_omat_mp_salex 0.18
eqV2_153M_omat 0.19
eqV2_86M_omat 0.20
orb-v2 0.18
MatterSim-v1 0.36
MACE-MPA-0 0.33

 

CHIPS-FF Surface Energy DatasetのDFT計算結果との誤差の原因を明らかにするために、図1にPFP v7とDFTの間のパリティプロットを示します。PFP v7はDFTの結果と良好な一致を示しますが、D3補正なしのPFP v7はDFTに比べ、表面エネルギーの値を過小評価しています。一方で、D3補正ありのPFP v7は過大評価することが見て取れます。CHIPS-FFの原著論文においても、orb-v2とorb-d3-v2(D3補正ありのorb-v2)の結果を比較すると同様の傾向が確認できます。この系統誤差は、PFP v7の学習データセットがPBE汎関数を使用しているのに対し、CHIPS-FF Surface Energy DatasetがvdW-DF-OptB88を使用していることによる、汎関数の違いによるものと考えられます。また、PBE、PBE-D2、およびvdW-DF-OptB86bを使用して金属の表面エネルギーの比較評価を行った先行研究 [10]では、表面エネルギーの値が元素の種類によらずPBE < vdW-DF < PBE-Dの順になることが示されており、PFP v7の結果と一致しています [11]。したがって、PFP v7の誤差の主要因は汎関数の違いであると考えられ、比較のために同じ汎関数を使用することで、DFT計算結果とのより良い一致が得られるものと期待されます。

図1:CHIPS-FF Surface Energy DatasetにおけるPFP v7とDFTの表面エネルギーの比較

結果

PFP v7はMAE=0.19 J/m²で表面エネルギーを予測することが示されました。UMLPの学習データセットとCHIPS-FF Surface Energy Datasetで使用される汎関数の違いによる系統的誤差を考慮すると、予測精度は約0.2 J/m²で飽和していると思われ、PFP v7は他の最も性能の高いモデル(ORBおよびeqV2)と同等の性能を持つことが分かりました。さらに、ORBおよびeqV2が精度良く予測できなかった格子熱伝導率の最近のベンチマークにおいてもPFPが一貫して高い性能を示したことは、PFPの信頼性と汎用性を裏付ける結果です。これらのベンチマークから得られた知見は、材料発見のためのより包括的なソリューションを求める研究者やエンジニアにとって、PFPが優れた選択肢であることを示しています。

注:PFP v7は、PFNの社内スーパーコンピュータに加えて、国立研究開発法人産業技術総合研究所のAI Bridging Cloud Infrastructure(ABCI)を使用して開発されました。

[1]: 欠陥形成エネルギーの評価も予定していましたが、検証プロセス中にCHIPS-FF(2025年2月20日現在)に不具合が見つかり、現在、原著者に修正を依頼しています。
[2]: D3補正ありとなしの計算モードは、それぞれMatlantisのcalc_modeのCRYSTAL_U0_PLUS_D3およびCRYSTAL_U0に対応しています。
[11]: PFP v7はPBE-D3補正を使用し、CHIPS-FF Surface Energy DatasetはvdW-DF-OptB88を使用していますが、以前の研究 [10]ではPBE-D2およびvdW-DF-OptB86b汎関数が使用されています。両者で汎関数に違いはありますが、同じ傾向が観察され、表面エネルギーは一般的にPBE < vdW-DF < PBE-Dの順に変化します。
  • Twitter
  • Facebook