機械学習の解釈性

(1)

641 機械学習の解釈性

1．背　　　景

近年，機械学習技術は数多くの分野に適応され優れた成果をあげている．その反面，その計算過程が複雑であるために人間が理解することができないことが，説明責任の求められるタスク（銀行の融資，医療診断など）への機械学習の全面的な活用をためらわせる一因になっている．例えば，深層学習は昨今，画像やテキストといった多くのデータに適応することのできる有用な手法ではあるが，特にこの難しさを抱えている手法でもある． [Freitas 14]では，軍において味方の戦車を敵の戦車から認識するようにモデルを訓練した事例を紹介している．そのモデルはテストデータにおいて高い精度を記録したものの，現場で使用されたときにはパフォーマンスが非常に悪いものであった．それは，訓練データが敵の戦車の写真は曇りの日に撮影され，味方の戦車の写真は曇りの日に撮影されていることに起因するものであると後々判明する．[Ribeiro 16] では，オオカミとシベリアンハスキーを認識するように訓練されたモデルにおいて，背景に雪が存在するだけでオオカミと分類するようになってしまっていたことが報告されている．これらの問題は，モデルがどのように判断を行っているかわからないことに起因している．また，より能動的に誤認識を起こさせる例として Adversarial Attack があげられる [Goodfellow 14, Szegedy 13]．これは，人間が見ても簡単にはわからない微細なノイズを元の画像に加えることで深層学習モデルに誤認識をさせることができるというものである．図 1 では，入力画像にノイズを加えることで，パンダがテナガザルに誤認されている．解釈性の文脈とは異なるが，このようなサンプルの作成と看破に関するコンペティションが NIPS 17 で開催されている＊1_．機械学習の応用が進むにつれ，このような問題が散見されるようになり，機械学習を解釈することの要請は高まっている．我が国の総務省では，AI の利活用の促進および AI ネットワーク化の健全な進展に向けて「AI 開発ガイドライン案」の策定＊2_{が 2016 年より行われてい} るが，ここではこれらの問題に対処するために，「透明性の原則」および「アカウンタビリティ（説明責任）の原則」という二つの原則が盛り込まれている．前者は， AIサービスプロバイダおよびビジネス利用者は，AI システムまたは AI サービスの入出力の検証可能性および判断結果の説明可能性に留意する，後者は，AI サービスプロバイダおよびビジネス利用者は，消費者的利用者および間接利用者を含むステークホルダに対しアカウンタビリティを果たすよう努める，というものである．これらの原則は，今後，機械学習モデルをブラックボックスとして運用するリスクに対して一定の歯止めをかけることを目的としていると考えられる．また，他国においても類似するガイドラインが策定され，同様の言及がなされている．米国においては，IEEE が 2017 年 12 月 12 日に報告書「倫理的に調整された設計第 2 版」を公表している．EU においては，EU 一般データ保護規則（General Data Protection Regulation：GDPR）が

2018年 2 月 6 日に採択されている．

このような背景のもとで，特に 2016 年以降に機械学

機械学習の解釈性

Interpretability of Machine Learning

増井紀貞

東京大学大学院新領域創成科学研究科

Norisada Masui Graduate School of Frontier Sciences, The University of Tokyo. [email protected]

Keywords:

interpretability, NIPS, SHAP, LIME.

「「AIトレンド・トップカンファレンス NIPS 2017」報告会」

＊1

https://www.kaggle.com/c/nips-2017-non-targeted-adversarial-attack ＊2 http://www.soumu.go.jp/menu_news/s-news/01iicp01_02000072.html 図 1 Adversarial Attack の例 [Goodfellow 14]

(2)

642 人工知能 33 巻 5 号（2018 年 9 月）習の解釈性に関する研究への注目は増している．本記事では，この機械学習の解釈性に関して簡単な紹介を行う．本報告は四つの章からなる．1 章では機械学習の解釈性についての背景について述べた．2 章では機械学習の解釈性に関して，その定義や解釈可能なモデルの要件，また，有名モデルの簡単な紹介を行う．3 章では，NIPS 2017で発表されていたこの分野の論文に関して報告会での内容をもとにした説明を行う．4 章は簡単なまとめを行う．

2．機械学習の解釈性

機械学習の解釈は，多くの論文が発表されていることからもその必要性が認められていることはうかがえる．しかし，機械学習が解釈できるとはどのようなことなのだろうか，また機械学習が解釈できるためにはどのような要件が達成されればよいのだろうか．本章では，まずこの問いに対して [Guidotti 18] を引用して説明を与え，機械学習の解釈性のいくつかの代表的な手法について簡単な説明を行う． 2･1 概要はじめに機械学習の解釈性とは何かについて厳格な定義は現時点では存在していない．解釈の辞書的な意味は，文章や作品や物事の意味を，受け手の視点で，理解したり説明したりすることであるが，機械学習の解釈についての多くの定義もこの言葉の意味に沿っている．[Velez 17]では，機械学習の解釈性とは，人間にとって理解可能な形でモデルを説明したり，意味を与えたりできること，と定義している．定義から機械学習の解釈性を高めるという問題設定は非常に難しいことが察せられる．多くの解釈性に関する論文では，研究者が問題に合わせて独自に解釈性について改めて定義するところから始まる．例えば，[Hara 18] はランダムフォレストを確率的なモデルとみなしてベイズ的モデル選択を用いて単純なルールモデルへと変換する研究であるが，ここではルールの数が少ないモデルは解釈が容易であると定義している．解釈性について考察を深めるために，[Guidotti 18] を引用し，この機械学習の解釈性について考慮すべき点を三つ述べる．一つ目として，解釈には次元があることが述べられている．その次元とは，1）大域的・局所的（予測全体のロジックを理解することができ，起こり得る可能性について列挙できる・全体としてはわからないが，ある一つの予測を取れば解釈することができる），2）解釈のための時間（災害時は迅速に判断を行う必要があるが，ローンの解約手続きではより詳しい説明が好ましい），3）解釈者の専門性の有無（専門性が高い解釈者にはより詳細な説明が必要）の三つに言及されている．二つ目に解釈可能なモデルを構築する際に注意すべき点について，1）解釈可能性（モデルの複雑さ），2）精度（予測の正確さ），3）忠実度（予測器を正確に再現できるか），があげられている．論文中では，このほかにも複数の指標が言及されている．三つ目は，基本的な解釈可能なモデルについて述べられている．この分野の論文は最終的にはこれらの手法に落とし込まれることが多い．その手法は，1）決定木，2）決定則，3）線形モデル，の 3 種類である．さらに，Guidotti らは，問題設定から解釈性の研究を， 1）ブラックボックスのモデル説明問題（大域的にモデルの解釈を行う問題），2）ブラックボックスの出力説明問題（局所的なモデルの出力の解釈を行う問題），3）ブラックボックスの検査問題（解釈のために，モデル自体はブラックボックスであるが，視覚情報やテキストなど解釈可能な出力を返すモデルを設計する問題），4）透過ボックスの設計問題（決定木などのような解釈可能なモデルを設計する問題）に大別している．具体的にどのような論文があるかは，[Guidotti 18] の p. 20 の表を参照されたい． 2･2 代表的な研究ここまでは，広い視点で分野の概要について述べてきた．次に，具体的な研究を何点か簡単に紹介する． ● _{LIME [Ribeiro 16]}

LIME（Local Interpretable Model-agnostic Explai-nation）は，複雑な予測モデルを説明モデルと呼ばれるより単純なモデルで局所的に近似することでその予測結果の解釈を行おうとする Model Induction の手法の一つ である．解釈したい予測モデル f，解釈可能なモデルの 集合 G とその要素 g を考える．このとき，あるサンプル xを予測モデルに入力した際の出力を説明したいとする． LIMEでは，損失関数 L（ f, g, πx）と正則化項Ω（g）の和の最小化問題 ξ（x）＝ argmin g∈ G L（f, g, πx）＋（g）Ω を解くことで，予測モデルを局所的に近似した解釈可能な説明モデルξ（x）を得ることができる．ここで，πxはカーネル関数であり，損失関数は L（f, g, πx）＝ z, z∈ Zπ（z）x （ f（z）－g（z ）） 2 である．ここで，Z はサンプル x の近傍のデータの集合 である．例えば，解釈可能なモデルの集合 G を線形モデ ル全体に与えた場合，その係数をサンプル x についての 予測に対する各変数の重要度として利用することができる．LIME は解釈性研究の代表例としてあげられることが多い．任意のモデルについて簡単に局所的な説明を生成できる点は優れている．2･1 節の分類では，2）ブラックボックスの出力説明問題にあたる手法である．

(3)

643 機械学習の解釈性

● _{Understanding Black-box Predictions via Inﬂ uence}

Functions [Koh 17] ICML 2017のベストペーパ．特定の学習データが予測に与える影響を再学習なしで定量的に見積もる手法である．これによって，予測結果に関連の深いサンプルを見つけることができ，予測の根拠として利用できる．影響関数を用いて個々の学習データの有無や摂動が予測結果に与える影響を定式化した点，効率的な近似計算手法を提案した点，4 種類の実験を行った点，が特徴である． 学習データを z1, …, z（ zn i＝（xi, yi）），について考える． 予測モデルの損失を各データ ziごとの誤差 L（zi, θ）の平均である n i＝1 L（zi, θ） 1 n とし，損失は二階微分可能かつ損失を最小にするθˆが推定できるという仮定をおく．まず，特定の学習データがモデルパラメータに与える影響を計算することを考え る．ある学習データ z を使わずに学習を行った場合のパ ラメータ θ−z≡argmin θ zi≠z L （zi, θ） 1 n を求め，パラメータの変化量θ－z－θˆを求めたいが，再 学習のコストが高い．そのため，z の影響をパラメータ εで管理する影響関数を用いて損失関数を変更し argmin θ θˆ_{ε, z}≡ L（zi, θ）＋εL（z, θ） n i＝1 1 n を求める．このとき，微小なεに対するパラメータの変化量 Iup, params（z）≡ dθˆ_{ε, z} dε ε ＝0 を求め， θ－z－θˆ＝θˆ−_n1, z－θˆ≅－_n1 Iup, params（z）を用いて近似することで，再学習なしで特定の学習データがモデルパラメータに与える影響を計算できる．次に，これらを用いて，特定の学習データがモデルの予測に与 える影響，つまりテストデータを入力したときの z の有 無による損失の変化量δL（z, ztest）を求める．パラメータの変化

Iup, loss（z, ztest）≡

dL（ztest, θˆ ε, z）

dε ε ＝0 を求めると，これを利用して，

δL（z, ztest）≈ －_n1 Iup, loss（z, ztest）

とすることができる．これによって，予測結果に関連の深いサンプルを見つけることができ，予測の根拠として利用できる．

3．NIPS 2017 の報告

本章では NIPS 2017 における報告を行う．二つの説からなり，3･1 節では本会議・シンポジウムにおける機械学習の解釈性に関する概要を，3･2 節ではその中でも特に興味深いと思った論文の紹介を行う． 3･1 概要機械学習の解釈はこれまでに述べてきたように比較的新規なトピックである．NIPS 2017 本会議中においては，このトピックに焦点を当てた論文はオーラル発表で全 41 件中 3 件，ポスターで全 679 件中 8 件発表されていた．数は少ないものの理論系学会で解釈というトピックに焦点が当てられていることは驚くべきことであると思う．また，この学会では機械学習の解釈性に関するシンポジウムも開催され，産業・学術の両方から参加者が集まっていた＊3_{．シンポジウムのプログラムなどに関し} ては脚注のアドレスを参照されたい．図 2 はこのシンポジウムに参加した際の写真である． 3･2 論文紹介本会議中のオーラル発表において，解釈性に関する論文は 3 本発表されていた．ここでは，そのうちの一つである SHAP [Lundberg 16] について紹介を行う．SHAP は，深層学習やアンサンブル学習に代表される複雑な 予測モデル f を，ある特定のサンプル x について，局所 的に解釈可能なモデル g で近似することでその予測結果の解釈を行おうとする手法の一つとして提案されていた．このような手法として，先述した LIME のほかには DeepLiftやゲーム理論で利用されるシャープレイ値を用いたものなど複数提案されているが，本論文ではまずこれらの手法で採用されている説明モデルについて共通点，つまり，どの手法の説明モデル g も，単純化したサ ンプル x_{∈ {0, 1}}M_{（ある関数 h} xを用いて x＝h（xx ）と 復元できるとする．M は特徴量の数）を用いて 図 2 機械学習の解釈性に関するシンポジウムの様子＊3 http://interpretable.ml

(4)

644 人工知能 33 巻 5 号（2018 年 9 月） g （x ）＝φ0＋ i＝1 M φix という形で表すことができる点について言及している．ここで，φi∈ R は係数である．説明モデルの性質を考え ると，g（x_{）≈ f（h} x （x_{））＝ f（x）であり，説明モデル g は} 予測モデル f のサンプル x についての出力を再現してい るはずである．この形の説明モデルでは係数φiによって，予測結果に対してどの変数が予測結果に影響があるか解釈することができた．この研究ではこの形式の説明モデルをもつ手法で三つの条件を満たせばその解がシャープレイ値に一意に定まることをゲーム理論の定理を用いて示している．また，シャープレイ値の計算が困難なことを考慮し，さらに近似を行うことで SHAP 値を提案，既存手法の学習アルゴリズムを利用することでこの値を導いている．また，実験によって評価を行っている．機械学習の応用領域が拡大するうえで，複雑なモデルを解釈する手法への期待が高まっていることは，上述のシンポジウムの参加者の多さを見るに十分にいえることであろう．実用上，どの程度利用できるかなど課題はあるものの，今後のこのような基礎と応用をつなぎ得る研究の発展に期待したい．

4．結　　論

本記事では，機械学習の解釈性という研究分野に関して，その背景と簡単な紹介を行い，NIPS 17 において発表されていた論文の紹介を行った．これらの研究はいまだ発展途上であり，応用も含めてさらなる発展が期待される．

◇　参　考　文　献　◇

[Freitas 14] Freitas, A. A.: Comprehensible classiﬁcation models: A position paper, Proc. SIGKDD Explorations Newsletter, Vol. 15, No. 1, pp. 1-10（2014）

[Goodfellow 14] Goodfellow, I. J., Shlens, J. and Szegedy, C.: Explaining and harnessing adversarial examples, arXiv preprint arXiv:1412.6572（2014）

[Guidotti 18] Guidotti, R., Monreale A., Turini, F., Pedreschi, D. and Giannotti, F.: A survey of methods for explaining black box models, arXiv preprint arXiv:1802.01933（2018）

[Hara 18] Hara, S. and Hayashi, K.: Making tree ensembles interpretable: A Bayesian model selection approach, Proc. AISTATS（2018）

[Koh 17] Koh, P. W. and Liang, P.: Understanding black-box predictions via inﬂuence functions, Proc. ICML, pp. 1885-1894 （2017）

[Lipton 13] Lipton, Z. C.: The mythos of model interpretability, arXiv preprint arXiv:1606.03490（2016）

[Lundberg 17] Lundberg, S. M. and Lee, S. I.: A uniﬁed approach to interpreting model predictions, Advances in NIPS, pp. 4765-4774（2017）

[Ribeiro 16] Ribeiro, M. T., Tulio, M., Singh, S. and Guestrin, C.: Why should I trust you?: Explaining the predictions of any classiﬁer, Proc. SIGKDD, pp. 1135-1144（2016）

[Szegedy 13] Szegedy, C., Zaremba, W., Sutskever, I., Bruna, J., Erhan, D., Goodfellow, and I., Fergus, R.: Intriguing properties of neural networks, arXiv preprint arXiv:1312.6199（2013） [Velez 17] Velez, F. D. and Kim, B.: Towards a rigorous

science of interpretable machine learning, arXiv preprint arXiv:1702.08608（2017）

2018年 8 月 16 日　受理

機械学習の解釈性

1．背 景

機械学習の解釈性

Interpretability of Machine Learning

増井 紀貞

Keywords:

2．機械学習の解釈性

3．NIPS 2017 の報告

4．結 論

◇ 参 考 文 献 ◇

著 者 紹 介

1．背　　　景

増井紀貞

4．結　　論

◇　参　考　文　献　◇

著　者　紹　介