機械学習による医療情報の解釈方法の提案

(1)

医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-12

機械学習による医療情報の解釈方法の提案

An Interpretation Method of Medical Information Using Machine

Learning Techniques

野原康伸

∗

若田好史

中島直樹

Yasunobu Nohara

Yoshifumi Wakata

Naoki Nakashima

九州大学病院

Kyushu University Hospital

Abstract: Recently, machine learning techniques have spread many fields. However, machine learning is still not popular in medical research field due to difficulty of interpreting. In this paper, we introduce a method of interpreting medical information using machine learning technique. The method gave new explanation of partial dependence plot from medical research field.

1 はじめに

近年、ディープラーニングやランダムフォレストのような機械学習の技術が様々な分野で使われるようになっている。機械学習の典型的な用途は予測であり、医療分野においては、検査値などを元に疑い病名を列挙することで医師の診断を支援したり、患者の予後を予測することで、診療計画の策定などに役立てることなどが想定される。また、どの要因が患者予後といったアウトカムに強い影響を与えるかが分かれば、その要因の改善を図ることで、入院期間の短縮といったアウトカムの改善へとつなげることも考えられる。機械学習の医療分野への適用にあたっての課題の一つに、結果の解釈の難しさがある。機械学習の手法の中でも、線形回帰やロジスティック回帰、およびこれらに正則化を施した LASSO や Ridge 回帰であれば、線形関数をベースにしたものであるため、これまで医療で用いられていた統計手法と親和性が高く、その解釈も可能である。しかしながら、非線形関数を用いた手法、とりわけアンサンブル、ブースティングなど弱学習機を組み合わせた手法 (例えばランダムフォレスト) は、より柔軟な関数表現が可能な反面、直接的な解釈ができず、解釈が困難である。そこで本稿では、機械学習を用いて医療情報を解釈する方法に関して議論を行う。 ∗_{連絡先：九州大学病院} 〒 812-0054 福岡市東区馬出 3-1-1 E-mail: [email protected]

2 アウトカムに与える効果の推定

2.1 既存手法

p 種類の説明変数とアウトカムの組 (xj₁,· · · , xj r, yj) が、N 組与えられた場合を考え (i∈ [1, p], j ∈ [1, N])、 各説明変数 xiとアウトカムの関連を調べたいとする。例えば、ある説明変数が、薬 A を投与したか薬 B を投与したか (A 投与群と B 投与群) を表すものとして、両薬の効果の差を調べることを考える。このとき、単純に A 投与群と B 投与群のアウトカムの差を調べても、その投与の効果を調べたことにはならない。なぜならば、当該説明変数と、それ以外の説明変数 (以下、共変量とよぶ) に何らかの相関があった場合、両群の共変量の分布にも違いが生じる。つまり、アウトカムには投与薬の影響だけでなく、共変量の違いによる影響も加わってしまい、当該説明変数そのものの影響を調べることができない。特にある説明変数が、当該説明変数とアウトカムの両方の原因になっている場合は交絡因子とよばれ、その調整を行う必要がある。当該説明変数の影響だけを調べたい場合は、共変量の条件を同一にした上で、当該説明変数だけを変化させ、そのときのアウトカムの差を調べる必要がある。そこで使われる信頼性の高い手法が RCT(Randomized Control Trial: ランダム化比較試験) である。RCT は、実験対象を両群のどちらに割り当てるかをランダムで決定し、それぞれのアウトカムを調べる。個々の対象の共変量は異なるため、両群で完全に条件を揃えることはできない。しかしながら、両群への割り当て自体 12-01

(2)

はランダムなので、交絡因子は存在せず、各共変量の期待値は両群で差がない1_{。したがって、十分大きな N} をとれば両群で各共変量はバランスしているとみなせ、投与群と非投与群でのアウトカムの違いをバイアスなしで推定できることになる。ただし RCT は、これから新たに実験を行う場合にしか適用出来ず、すでにあるデータに対しては適用できない。すでにあるデータに対して、共変量調整を行い、その因果推論を行う方法として傾向スコア法が知られている [1]。通常、共変量は複数存在し、両群の各共変量でマッチングを取ることが困難となるのであるが、複数の共変量を一変数に集約し、その集約された値を基にマッチングや階層化を行う。この集約された値として、ある対象が投与群にどのくらいの確率で割り当てられるか (=傾向スコア) が使われ、これが方法の名前の由来になっている。投与群と非投与群で、傾向スコアのマッチングや階層化を行うことで、両群の各共変量の分布を近づけることができ、疑似的に RCT を行ったのと同等の効果が得られることになる2_。

2.2 提案手法

RCT も傾向スコア法も、両群の共変量の条件をできるだけ揃えるための枠組みだとみることができるが、実際には両群の共変量には少なからず差が生じる。それでは、両群の共変量を完全に一致させることはできないだろうか。もちろん現実的には不可能であり、そのときのアウトカムを観察することはできないのだが、観察できないのであれば予測値で代替できないであろうか。予測値が、実際の観測値の近似となっているのであれば、予測値を集計することで当該説明変数の効果を推定できるはずである。 そこで、説明変数 xiの効果を調べるために、説明変 数 xiが x の場合に、共変量が様々な値を取る場合を考 え、そのときのアウトカムの平均 Fi(x) を xiの効果とする。共変量の分布としては、さまざまなケースが考えうるが、前提条件で与えられている_{xj i} を用いるこ とを考える。これは、前節の例を考えると、N 人の全 患者に対して薬 A もしくは薬 B を投与したと仮定したときの平均アウトカムを求める事に相当する。 p 種類の説明変数 x1,· · · , xpを用いて、アウトカム y を予測する予測器を f (·) としたとき、説明変数 xiの効 果を表す関数 Fi(x) は、以下で与えられる。 Fi(x) = 1 N N ∑ j=1 f (xj₁,· · · , xj_i₋₁, x, xj_i+1,· · · , xj_p) (1) 1_{RCT では、共変量は既知の場合だけでなく、未知の場合であっ} ても良い 2_{傾向スコア法では、未知の共変量についての調整は原理的に不} 可能である ここで f (·) は、計算できさえすればブラックボックス で良く、その中身は問わない。したがって、線形モデルでなくてもその解釈ができることになる。 Fi(x) は、前節の例だと全患者に薬 A もしくは B を 投与したと仮定した場合の結果であるが、実際には B 薬を投与されたものに対して、A 薬を投与した場合と いう未知のケースの効果も調べていることになる。し たがって、f の汎化性能が重要になる。交差検証を実 施し、十分な精度が得られていることを確認しておく必要がある。 さて、このように予測器 f を用いて、各説明変数が アウトカムに与える影響について議論してきたが、実は式 (1) は、Friedman が高次元関数を視覚化する方法として提案した Partial Dependence Plot(PDP)[2] と同一である。よって、本稿での議論は PDP の新たな解釈を与えていると考えることができる。

2.3 線形モデルの解釈

前節で述べたように f は計算できさえすればよく、 その形は問わないのであるが、予測器 f が線形モデル で与えられる場合、すなわち f (x1, x2,· · · , xp) = w0+ p ∑ k=1 wkxk (2) の場合はどう解釈できるのであろうか。 (2) 式を (1) 式に代入すれば、 Fi(x) = w0+ wix + 1 N N ∑ j=1 ∑ k_̸=i wkx j k = w0+ ∑ k_̸=i wkx¯k+ wix (3) ただし、 ¯xkは、xkの平均 (=_N1 ∑N j=1x j k) である。 (3) 式から明らかなように、f が線形モデルな場合、 Fi(x) は 1 次関数で表され、その傾きは注目している 説明変数 xiの係数 wiそのものになっている。よって、 Fi(x) の解釈にあたっては、その傾き、すなわち１階微 分の値を見ればよいことになる。なお、医療分野でも広く使われるロジスティック回帰モデルの場合は、対数オッズを取れば、 log( p(x1, x2,· · · , xp) 1− p(x1, x2,· · · , xp) ) = w0+ p ∑ i=1 wixi と線形モデルになるので、これを f と考えれば、上記 と同様の議論ができる。 12-02

(3)

3 おわりに

本稿では、機械学習の手法を用いた医療情報の解釈方法について議論し、Partial Dependent Plot に関して新たな解釈を与えた。

謝辞

本研究の一部は、国立研究開発法人日本医療研究開発機構 (AMED)「MID-NET を用いた医薬品等のベネフィット・リスク評価のための薬剤疫学研究等の実践的な分析手法及び教育に関する研究」の支援によって行われた。

参考文献

[1] 星野崇宏, 岡田謙介: 傾向スコアを用いた共変量調整による因果効果の推定と臨床医学・疫学・薬学・公衆衛生分野での応用について, 保健医療科学, Vol. 55, No. 3, pp. 230–243 (2006)

[2] Friedman JH: Greedy Function Approximation: A Gradient Boosting Machine, The Annals of

Statistics, Vol. 29, No. 5, pp. 1189–1232 (2001)