Interpretable Machine Learning による新材料開発

(1)

1．は

じめに

近年，機械学習を用いた材料開発技術マテリアルズインフォマティクスの研究が盛んに進められている [Butler 18, Mueller 16]．磁性材料 [Kusne 14]，超伝導材料 [Stanev 18]，蓄電池材料 [Sodeyama 18] など，すでに数々の成功事例が報告されており，今や材料開発において機械学習は必須の存在となりつつある．しかし同時に，さまざまな課題も表面化してきた．その一つが機械学習のモデル解釈性（Interpretability）である．このモデル解釈性とは，例えば Velez 氏らは「人間にとって理解可能な形でモデルを説明したり意味を与えたりできること」とおおざっぱに定義しており，機械学習の使用者やその目的に応じて，この定義は微妙に変化すると考えられる [Velez 17]．マテリアルズインフォマティクス領域においては，機械学習で作成したモデルと，既存の物理学や材料学の法則とを照らし合わせながら議論を進めていくことが多く，この議論のしやすさをモデル解釈性と表現することが多い．つまりモデル解釈性≒材料学・物理学の法則との比較のしやすさである．上記のように，材料開発においては，ただ単に input データから output データを予測するだけでなく，機械学習モデル内部を人間が解釈し，そこから新しい材料の開発につながる知見（ヒント）を得たい場合が多い．このことは，材料開発に限らず，科学的発見（Scientific Discovery）を目指す研究領域全体に当てはまる．例えば，とある物理現象について機械学習を用いて Data-driven モデルを構築した場合を考えてみる．有識者（物理学者など）がこの Data-driven モデルの解釈を進めていく過程で，従来の物理学と Data-driven モデルとの間に齟そ齬ご（Inconsistency）が生じた場合，それは機械学習が我々の知らない新しい物理現象の一面を映し出している可能性を示唆していることになる．このように，Data-drivenモデルにモデル解釈性が備わっていれば，科学者が Data-driven モデルを物理や化学の知見に基づいて議論・解釈し，Scientiﬁc Discovery につなげることが可能となる．しかしながら，このモデル解釈性は，予測性能とトレードオフの傾向にある（図 1）．予測性能が高い深層学習などはモデル解釈性が低く，逆にモデル解釈性の高い線形回帰や決定木などは，予測性能があまり高くない．そのため，従来のマテリアルズインフォマティクス領域の研究者は，予測性能とモデル解釈性を考慮しながら，複数の機械学習を使い分けて材料開発を進めてきた [Iwasaki 19a]．

Interpretable Machine Learning による

新材料開発

Material Development by Interpretable Machine Learning

岩崎　悠真

NEC中央研究所

Yuma Iwasaki NEC Central Research Laboratories.

[email protected], https://jpn.nec.com/rd/people/yuuma_iwasaki.html

澤田　亮人

（同上）

Ryohto Sawada [email protected]

比嘉　亮太

（同上）

Ryota Higa [email protected], https://jpn.nec.com/rd/people/ryota_higa.html

石田　真彦

（同上）

Masahiko Ishida [email protected]

Keywords:

interpretable, explainable, materials informatics, scientiﬁc discovery. 「マテリアルズインフォマティクス」

(2)

近年，予測性能とモデル解釈性を両立した解釈可能な機械学習（Interpretable Machine Learning）[Guidotti

18, 増井 18] の研究が進められている．当然，マテリア

ルズインフォマティクスを含む Scientific Discovery を目指す科学者達は，大きな期待をもって注目しており，その技術を今すぐにでも自身の研究開発に応用しようと画策している．

本稿では，Interpretable Machine Learning の一つである Factorized Asymptotic Bayesian Inference Hierarchical Mixture of Experts（FAB/HMEs）[Eto 14, Fujimaki 12a, Fujimaki 12b, Hayashi 13]を用いた熱電材料開発の成功事例を紹介する．マテリアルズインフォマティクス領域の人間が，実際どのように機械学習を使って材料開発を行っているかという一連の流れをここに記載することで，人工知能学会の研究者が，材料開発や Scientific Discovery に使える機械学習アルゴリズムの研究をする手助けになれれば，と著者らは考えている．

2．

開発ターゲット：熱電材料

本稿では，マテリアルズインフォマティクスによる熱電材料開発の一連の流れを記載する．その前に，この熱電材料について簡単に説明する．持続可能エネルギー社会の実現に向けて，熱エネルギーから電気エネルギーを生み出すことができる熱電材料の開発が盛んに行われている．この熱電材料を用いると，排熱（例えば，人体や自動車などから排出されているむだな熱）から電気を生み出すことができるため，医療・自動車産業などさまざまな分野において，非常に期待されている材料である．その熱電材料の中でも，近年注目を集めているのが，スピン熱電材料である．スピン熱電材料は，スピンゼーベック効果（SSE）や異常ネルンスト効果（ANE）といったスピン（磁石）が関わる現象を活用し，熱エネルギーを電気エネルギーに変換する [Ikhlas 17, Kirihara 12]．このスピン熱電変換材料実用化に向けては，熱電変換効率の良い（つまり，少しの熱でたくさんの電気をつくることができる）材料の開発が必須である．しかしながら，スピンゼーベック効果や異常ネルンスト効果は，スピンカロリトロニクスと呼ばれる先端研究領域の物理現象であり，物性理論がまだ完璧には確立していないため，材料探索が非常に難しい．こういった物理・化学におけるフロンティア領域の材料探索では，Data-driven 的アプローチのマテリアルズインフォマティクスが大きく貢献する．

3．

実際の材料開発フロー

今回，マテリアルズインフォマティクスによるスピン熱電材料開発は，図 2 に示すように，①材料ビッグデータの作成，②機械学習によるデータ解析，③科学者によるモデル解釈，④新材料合成，の四つのステップに従って行われた．以下にそれぞれ順を追って述べる． 3･1 材料ビックデータの作成材料データの取得方法は大きく分けて，（a）実験で取得，（b）計算で取得，の二通りある．まず，実験による材料データの取得について説明する．一つ一つの材料に対して地道に実験を行っていては莫大な時間がかかる．そこで，コンビナトリアル実験（Combinatorial Experiment）と呼ばれる実験手法を採用した [Koinuma 04]．図 3（a）には，その手法の一つであるコンビナト図 1 予測性能とモデル解釈性図 2 材料開発のフロー

(3)

リアルスパッタリングのイメージ図が描かれている．この手法を用いると，各材料（Material 1, 2, 3）がプラズマで削られることによって飛び出した原子（分子）が基板に堆積し，図 3（b）の写真のように組成勾配のついた薄膜を形成することができる．そして，この組成勾配のついた膜上で少しずつ位置を変えながら物性測定を行うことで，異なった組成をもつ大量の材料実験データを高速に取得することが可能となる．例えば，図 3（c）には，Fe-Pt-Dy の組成勾配をもつ合金薄膜の熱電効率の分布を，図 3（d）には，その電気抵抗の分布を示した．このほかにも，結晶構造解析（XRD），組成分析（EDX），磁性測定（MOKE），膜厚測定（AFM）などさまざまな測定がコンビナトリアル実験で可能となっている．しかし，コンビナトリアル実験だけでは，十分なデータを集められないことも多い．そこで我々は，材料シミュレーション技術による材料データ（計算データ）の蓄積も行っている．ここでは，シュレーディンガー方程式に基づいて電子物性情報を記述することができる第一 原理計算を実行する材料シミュレーション技術（High-throughput ab-initio calculation）によって，計算デー タを作成した [Curtarolo 13]．実際にコンビナトリアルスパッタリングで作成した組成勾配薄膜の各地点の組成情報をもとに，材料シミュレーションを行うことで，さまざまな材料計算データ（磁気モーメント，スピン起動相互作用，etc.）を高速に作成することができ，コンビナトリアル実験だけでは取得できない材料データも用意することができる．これらの手法により，磁性元素（Fe，Co，Ni など）を含むさまざまな各種合金に対して，材料実験ビッグデータと材料計算ビッグデータの作成を行った．図 4 に標準化された材料ビックデータのごく一部（FePt 合金） を示す．Vexp_{はコンビナトリアル実験によって得た熱電} 効率（すなわち，材料に 1 度の温度差を加えたときに生じる電圧〔μV/K〕）を指し，D1, D2, …D119は，その他の材料実験データ（例えば，電気抵抗，組成情報，etc.）や，材料計算データ（例えば，磁気モーメント，スピン起動相互作用，etc.）を指す． 3･2 機械学習によるデータ解析 熱電効率 Vexp_{を目的変数，D} 1, D2, …D119を説明変数として，以下の回帰モデルを作成する． Vexp_{＝ f（D} 1, D2, D3, …D119）（1）機械学習によって構築した Data-driven モデルを，今回のように人間（科学者）が解釈しながら材料開発を進めていく場合，機械学習には大きく分けて三つの要素が求められる．一つ目と二つ目は，すでに述べた予測性能（Prediction Accuracy）とモデル解釈性（Interpretability）である．ここにもう一つの要求スパースモデリング（Sparse modelling）の性能を追加する．その理由は，材料データはスパースである場合が多いからである．例えば，図 4 に示したように，今回説明変数を 119 種類も用意しているが，それらのほとんどは今回の目的変 数（熱電効率：Vexp_{）には，関係ないはずである．この} ようなデータのスパース性を活用した機械学習は，材料開発において非常に便利である．図 5（a）に，これら 3 要素に関して，メジャーな機械学習アルゴリズムをおおざっぱにマッピングした図を示す．予測性能とモデル解釈性とスパースモデリングを兼ね備えた機械学習は，現状あまり多くはない．例えば LASSOの場合，スパースモデリングをすることができるが，基本的に線形モデルであるため，材料の非線形な現象（例えば，飽和傾向や相転移など）に対応することが難しく，予測性能が比較的低くなってしまう．Deep Learningや SVM のようなフレキシブルなモデルは，予測性能が高いものの，そのモデルを人間（科学者）が解釈する際に苦労する．Random forest は，フレキシブルなモデルであり，かつ説明変数の重要度（Importance）を示してくれるため，多少はモデル解釈性を備えているが，アンサンブルであるため「各説明変数が，どのよう図 3 コンビナトリアル実験（ごく一部を抜粋）図 4 材料ビッグデータのごく一部（FePt 合金）

(4)

な条件でどのようにモデルに効いているか」といった詳細情報を得るためには手間がかかる．

今回使用する Factorized Asymptotic Bayesian Infe-rence Hierarchical Mixture of Experts（FAB/HMEs）は，図 5（a）のベン図において中央に位置する機械学習である．このアルゴリズムでは，2 種類の L0 Regularizersを

含む Factorized Information Criterion（FIC）を，EM- Likeなアルゴリズム（Factorized Asymptotic Bayesian Inference：FAB）を用いて最大化することによって， Piece-wise Sparse Linear Model（PSLM）を構築する（アルゴリズム詳細はリファレンス [Eto 14, Fujimaki 12a, Fujimaki 12b, Hayashi 13]を参照）．この FAB/HMEs を先ほどの材料データに適応して作成した Data-driven モデル（式（1））を可視化すると，図 5（b）のようになる．FAB/HMEs はデータを Node （図 5（b）左の四角のところ）で分類し，その先の Leaf （図 5（b）左の丸のところ）でモデルを作成する（ただし，FAB/HMEs は単純なクラスタリングや決定木によってデータを分類し，その後に回帰を施しているわけではない．そのようなことを行ってしまうと，モデルの予測精度が極端に低くなってしまう．FAB/HMEs は FIC を使用することによって，データの分類・回帰問題を同時に解き，PSLM を構築する）．この Leaf に作成されたモデルは図 5（b）の右側に示されている．このモデルを解釈するためには，木構造（図 5（b）左）と回帰式（図 5（b）右）を解読すればよいため，モデルの解釈性が高い．そのため，我々は物理学・材料学に基づいてこの Data-drivenモデルを解釈することができる． 3･3 科学者によるモデル解釈物理学・材料学の観点から Data-driven モデルを読み解いていくことで，さまざまな知見が得られる．今回の 最も trivial な知見としては，例えば，D14（スピンモーメント：材料の磁性の強さを決めるパラメータの一つ） がある一定数以下の材料の熱電効率（Vexp_{）はゼロであ} ることがあげられる．これは，一番上の Node にて D14 がある一定数以下であるデータが Model 1（Vexp_{＝ 0）} に分類されていることからわかる．この知見は物理学や材料学の観点から簡単に説明することができる．スピン熱電材料は基本的に磁性材料である．そのため，磁性を もたない（スピンモーメント D14が小さい）材料は，一部の例外を除いてスピン熱電効果（異常ネルンスト効果）を発現せず，その熱電効率はゼロになる．このように材料学・物理学の知見をもった科学者が可読性の高い Data-driven モデルを解釈することによって trivialな知見が数多く得られる（詳細は，物理学・材料学に込み入った内容になるため省略）．さらに，たまにではあるが，意外な知見（Non-trivial な知見）が得られることもある．ここで得られた Non-trivial な知見とは， “磁性を示す（D14＞ 0.65）という条件のもとで，D47と熱電効率の間に正の相関がある”ということである．こ のことは，スピンモーメント D14がある一定以上である

データが所属するモデル（Model 2, Model 3, Model 4）

すべてに，正符号で D47が含まれていることからわか る．この D47は，Pt 原子のスピン分極率の総量（正確には，Pt 原子のスピン分極率と Pt 原子の量〔at％〕の積）である．この知見は，物理学の観点からは当たり前のものではない Non-trivial な知見である（本領域で材料研究を行っている著者らとしては，言われてみればこの相関は何となく正しそうな気がするが，現状はこの相関をきっちり説明できる物性理論の報告はない）．そのため，この知見の意味するところは，①この相関（もしくは擬似相関）を説明できる我々の知らない物性理論が存在する，②そもそも作成した Data-driven モデルが間違っている，の二者一択となる．今回はとりあえず①を信じて材料開発を進める．①を信じて Data-driven モデルから得られた知見を元に新しい物性理論を構築していくこともマテリアルズインフォマティクスの醍醐味だと著者は考えているが，今回それは理論物理学者の方々に譲るとして，以下では，この相関関係に従って熱電効率の良い材料の開発を行う． 3･4 新材料合成機械学習による解析から得られた意外な知見“磁性を 示すという条件下で，D47と熱電効率（Vexp）の間に正の相関がある”に従うと，単純に“熱電効率を高めるた めには D47が大きい磁性材料を探せばよい”ということになる．これは，機械学習が材料開発における問題を簡単にしてくれたことになる．例えば，誰かが私に「熱電図 5 Interpretable ML（FAB/HMEs）

(5)

効率の良いスピン熱電材料をつくってください」とお願いしたとしよう．まだ我々は，フロンティア領域にあるスピン熱電現象を完璧には理解できていないため，材料開発の手掛かりが少なく，材料探索を進めることが難し い．しかし，「D47が大きな材料をつくってください」という問いには答えられる．その理由は，従来の知見や材 料シミュレーション技術（第一原理計算）で D47が大きな材料を探す（スクリーニングする）ことができるからである．材料スクリーニングの手法としては大きく分けて二つある．一つ目は，機械学習を活用する方法である．例えば，将棋 AI の内部で用いられている木探索アルゴリズムと第一原理計算を組み合わせた材料スクリーニングの手法が開発されている [Sawada 18]．著者らもこの手法を採用して材料スクリーニングを進めているが，紙面の都合上こちらの記載は省略する．二つ目の手法は，人間（科学者）による材料スクリーニングである．こちらは，人間が既知の知見や材料シミュレーションに基づいてスクリーニングする手法である．物理学や材料学に込み入った話になってしまうため詳細は省略するが，今回我々は，CoPt 合金に窒素原子（N） を混入させると D47が大きくなるという知見にたどり着 いた．図 6（a）に，この CoPtN の D47に関する材料シミュレーション（第一原理計算：DFT）結果を示す．確かに N 原子を Co50Pt50に少量混入すると，D47が向上していることがわかる．これは，N を混入することにより原子間距離が広がり，Pt のスピン分極率が向上したためと我々は考えている．材料スクリーニングによって，CoPtN という材料 が大きな D47をもつということが判明した．これと， Interpretable ML（FAB/HMEs）から得られた“磁性を 示すという条件下で，D47と熱電効率（Vexp）の間に正の相関がある”という知見を合わせて考えると，CoPtN にて大きな熱電効率が得られると予想することができる． そこで，実際にこの材料を合成し，熱電効率（Vexp_）を評価した．その結果を図 6（b）に示す．CoPt 合金中の窒素 N の量が増加すると，熱電効率も増加していることがわかる．この値は，他のスピン熱電材料の熱電効率よりも大きな値である [Ikhlas 17]．以上が，Interpretable ML（FAB/HMEs）を用いた材料開発の成功事例の一つである [岩崎 18, 岩崎 19b]

4．お

わりに

本稿では，我々が行った Interpretable ML によるマテリアルズインフォマティクスの事例を一つ紹介した．この手法は，Interpretable ML で作成した Data-driven モデルから得られた知見（相関関係）を活用して材料開発を行っているため，今回開発した新材料は，「物理学・材料学として理由はよくわからないけれども，なぜか特性の良い材料」である．言い換えると，「我々がまだ知らない未知の物理が，そこに隠されている可能性がある」ということである．そのため，マテリアルズインフォマティクスで得られた新材料や Data-driven モデルをヒントに，帰納的に新しい物性物理を構築することも可能かもしれない．より大きなブレークスルーを起こす材料を開発するためには，今回のように機械学習から得られた知見（相関関係）によって新材料を開発するだけでなく，これをヒントに科学者や機械学習によって因果推論をし，その知見に基づいて新しい物理（因果関係）を構築することが，より大きなブレークスルーを起こすカギになると，物理学出身の第一著者は考えている．謝辞本稿を記載の研究開発を行うに当たって，NEC 中央研究所の桐原明宏，寺島浩一，染谷浩子，正芳，白根昌之，萬伸一，および東京大学の齊藤英治先生，各氏より多大なるご協力をいただきました．ここに深く感謝の意を表します．また，本研究は，科学技術振興機構（JST）戦略的創造研究推進事業“ERATO”（齊藤スピン量子整流，研究統括：齊藤英治（東京大学））および“さきがけ” （理論・実験・計算科学とデータ科学が連携・融合した先進的マテリアルズインフォマティクスのための基盤構築，研究統括：常行真司（東京大学），研究代表：岩崎悠真（NEC））の支援を受けて行われました．

◇ 参考文献 ◇

[Butler 18] Butler, K. T., Davies, D. W., Cartwright, H., Isayev, O. and Walsh, A.: Machine learning for molecular and materials science, Nature, Vol. 559, pp. 547-555（2018）

[Curtarolo 13] Curtarolo, S., Hart, G. L. W., Nardelli, M. B., Nardelli, M. B., Mingo, N., Sanvito, S. and Levy, O.: The high-throughput highway to computational materials design, Nature Mater., Vol. 12, pp. 191-201（2013）

[Eto 14] Eto, R., Fujimaki, R., Morinaga, S. and Tamano, H.: Fully-automatic Bayesian piecewise sparse linear models, Int. Conf. on Artificial Intelligence and Statistics（2014）

[Fujimaki 12a] Fujimaki, R. and Hayashi, K.: Factorized asymptotic bayesian hidden markov models, Int. Conf. on Machine Learning（2012）

[Fujimaki 12b] Fujimaki, R. and Morinaga, S.: Factorized asymptotic Bayesian inference for mixture modeling, Int. Conf. 図 6 材料スクリーニングと材料合成

(6)

on Artificial Intelligence and Statistics（2012）

[Guidotti 18] Guidotti, R., Monreale, A., Turini, F., Pedreschi, D. and Giannotti, F.: A survey of methods for explaining black box models, arXiv: 1802.01933（2018）

[Hayashi 13] Hayashi, K. and Fujimaki, R.: Factorized asymptotic Bayesian inference for latent feature models, Neural Information Processing Systems（2013）

[Ikhlas 17] Ikhlas, M., Tomita, T., Koretsune, T., Suzuki, M., Nishio, D., Arita, R., Otani, Y. and Nakatsuji, S.: Large anomalous Nernst effect at room temperature in a chiral antiferromagnet, Nature Phys., Vol. 13, pp. 1085-1090（2017） [岩崎 18] 岩崎悠真：マテリアルズ・インフォマティクス～データ科学と計算・実験の融合による材料開発～，pp. 177-187，情報機構（2018）

[Iwasaki 19a] Iwasaki, Y., Takeuchi, I., Stanev, V., Kusne, A. G., Ishida, M., Kirihara, A., Ihara, K., Sawada, R., Terashima, K., Uchida, K., Yorozu, S. and Saitoh, E.: Machine-learning guided discovery of a new thermoelectric material, Sci. Rep., Vol. 9, p. 2751（2019）

[岩崎 19b] 岩崎悠真：マテリアルズ・インフォマティクスによる材料開発と活用集，pp. 80-87，技術情報協会（2019）

[Kirihara 12] Kirihara, A., Uchida, K., Kajiwara, Y., Ishida, M., Nakamura, Y., Manako, T., Saitoh, E. and Yorozu, S.: Spin-current-driven thermoelectric coating, Nature Mater., Vol. 11, pp. 686-689（2012）

[Koinuma 04] Koinuma, H. and Takeuchi, I.: Combinatorial solid-state chemistry of inorganic materials, Nature Mater., Vol. 3, p. 429（2004）

[Kusne 14] Kusne, A. G., Gao. T., Mehta, A., Ke, L., Nguyen, M. C., Ho, K. -M., Antropov, V., Wang, C. -Z., Kramer, M. J., Long, C. and Takeuchi, I.: On-the-fly machine-learning for high-throughput experiments: search for rare-earth-free permanent magnets, Sci. Rep., Vol. 4, p. 6367（2014）

[増井 18] 増井紀貞：機械学習の解釈性，人工知能，Vol. 33, No. 5, pp. 641-644（2018）

[Mueller 16] Mueller, T., Kusne, A. G. and Ramprasad, R.: Machine learning in material science: Recent progress and emerging applications, Reviews in Computational Chemistry, Vol. 29, pp. 186-273（2016）

[Sawada 18] Sawada, R., Iwasaki, Y. and Ishida, M.: Boosting material modeling using game tree search, Phys. Rev. Materials, Vol. 2, 103802（2018）

[Sodeyama 18] Sodeyama, K., Igarashi, Y., Nakayama, T., Takeyama, Y. and Okada, M.: Liquid electrolyte informatics using an exhaustive search with linear regression, Phys. Chem. Chem. Phys., Vol. 20, pp. 22585-22591（2018）

[Stanev 18] Stanev, V., Oses, C., Kusne, A. G., Rodriguez, E., Paglione, J., Curtarolo, S. and Takeuchi, I.: Machine learning modeling of superconducting critical temperature, npj comput. Mater., Vol. 4, p. 29（2018）

[Velez 17] Velez, F. D. and Ki, B.: Towards a rigorous science of interpretable machine learning, arXiv: 1702.08608（2017） 2019年 3 月 1 日受理

著　者　紹　介

岩崎悠真東京大学大学院理学系研究科物理学専攻修士課程修了．2011年，日本電気株式会社NEC中央研究所入社． 2015年メリーランド大学客員研究員．現在，同社システムプラットフォーム研究所主任および JST さきがけ研究員“マテインフォ”．澤田亮人東京大学大学院工学系研究科物理工学専攻博士課程修了．2016 年日本電気株式会社 NEC 中央研究所入社．現在，同社システムプラットフォーム研究所担当．比嘉亮太（正会員）大阪大学大学院理学研究科物理学専攻博士後期課程単位取得退学．2016 年日本電気株式会社 NEC 中央研究所入社．現在，同社データサイエンス研究所担当．石田真彦筑波大学大学院工学研究科知能機能工学専攻博士課程修了，博士（工学）．同大学院理学系研究科物理学専攻修了．2000 年日本電気株式会社基礎研究所入社．2008 年カリフォルニア大学客員研究員．現在，同社システムプラットフォーム研究所主幹研究員．

Interpretable Machine Learning による新材料開発

1．は

じ め に

Interpretable Machine Learning による

新材料開発

Material Development by Interpretable Machine Learning

岩崎 悠真

澤田 亮人

比嘉 亮太

石田 真彦

Keywords:

2．

開発ターゲット：熱電材料

3．

実際の材料開発フロー

4．お

わ り に

◇ 参 考 文 献 ◇

著 者 紹 介

じめに

岩崎　悠真

澤田　亮人

比嘉　亮太

石田　真彦

わりに

◇ 参考文献 ◇

著　者　紹　介