医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-12
機械学習による医療情報の解釈方法の提案
An Interpretation Method of Medical Information Using Machine
Learning Techniques
野原康伸
∗若田好史
中島直樹
Yasunobu Nohara
Yoshifumi Wakata
Naoki Nakashima
九州大学病院
Kyushu University Hospital
Abstract: Recently, machine learning techniques have spread many fields. However, machine learning is still not popular in medical research field due to difficulty of interpreting. In this paper, we introduce a method of interpreting medical information using machine learning technique. The method gave new explanation of partial dependence plot from medical research field.
1
はじめに
近年、ディープラーニングやランダムフォレストの ような機械学習の技術が様々な分野で使われるように なっている。機械学習の典型的な用途は予測であり、医 療分野においては、検査値などを元に疑い病名を列挙 することで医師の診断を支援したり、患者の予後を予 測することで、診療計画の策定などに役立てることな どが想定される。また、どの要因が患者予後といった アウトカムに強い影響を与えるかが分かれば、その要 因の改善を図ることで、入院期間の短縮といったアウ トカムの改善へとつなげることも考えられる。 機械学習の医療分野への適用にあたっての課題の一 つに、結果の解釈の難しさがある。機械学習の手法の 中でも、線形回帰やロジスティック回帰、およびこれら に正則化を施した LASSO や Ridge 回帰であれば、線 形関数をベースにしたものであるため、これまで医療 で用いられていた統計手法と親和性が高く、その解釈 も可能である。しかしながら、非線形関数を用いた手 法、とりわけアンサンブル、ブースティングなど弱学 習機を組み合わせた手法 (例えばランダムフォレスト) は、より柔軟な関数表現が可能な反面、直接的な解釈 ができず、解釈が困難である。そこで本稿では、機械 学習を用いて医療情報を解釈する方法に関して議論を 行う。 ∗連絡先:九州大学病院 〒 812-0054 福岡市東区馬出 3-1-1 E-mail: y-nohara@info.med.kyushu-u.ac.jp2
アウトカムに与える効果の推定
2.1
既存手法
p 種類の説明変数とアウトカムの組 (xj1,· · · , xj r, yj) が、N 組与えられた場合を考え (i∈ [1, p], j ∈ [1, N])、 各説明変数 xiとアウトカムの関連を調べたいとする。 例えば、ある説明変数が、薬 A を投与したか薬 B を投 与したか (A 投与群と B 投与群) を表すものとして、両 薬の効果の差を調べることを考える。このとき、単純 に A 投与群と B 投与群のアウトカムの差を調べても、 その投与の効果を調べたことにはならない。なぜなら ば、当該説明変数と、それ以外の説明変数 (以下、共変 量とよぶ) に何らかの相関があった場合、両群の共変量 の分布にも違いが生じる。つまり、アウトカムには投 与薬の影響だけでなく、共変量の違いによる影響も加 わってしまい、当該説明変数そのものの影響を調べる ことができない。特にある説明変数が、当該説明変数 とアウトカムの両方の原因になっている場合は交絡因 子とよばれ、その調整を行う必要がある。 当該説明変数の影響だけを調べたい場合は、共変量 の条件を同一にした上で、当該説明変数だけを変化さ せ、そのときのアウトカムの差を調べる必要がある。 そこで使われる信頼性の高い手法が RCT(Randomized Control Trial: ランダム化比較試験) である。RCT は、 実験対象を両群のどちらに割り当てるかをランダムで 決定し、それぞれのアウトカムを調べる。個々の対象 の共変量は異なるため、両群で完全に条件を揃えるこ とはできない。しかしながら、両群への割り当て自体 12-01はランダムなので、交絡因子は存在せず、各共変量の 期待値は両群で差がない1。したがって、十分大きな N をとれば両群で各共変量はバランスしているとみなせ、 投与群と非投与群でのアウトカムの違いをバイアスな しで推定できることになる。ただし RCT は、これから 新たに実験を行う場合にしか適用出来ず、すでにある データに対しては適用できない。 すでにあるデータに対して、共変量調整を行い、そ の因果推論を行う方法として傾向スコア法が知られて いる [1]。通常、共変量は複数存在し、両群の各共変量 でマッチングを取ることが困難となるのであるが、複 数の共変量を一変数に集約し、その集約された値を基 にマッチングや階層化を行う。この集約された値とし て、ある対象が投与群にどのくらいの確率で割り当て られるか (=傾向スコア) が使われ、これが方法の名前 の由来になっている。投与群と非投与群で、傾向スコ アのマッチングや階層化を行うことで、両群の各共変 量の分布を近づけることができ、疑似的に RCT を行っ たのと同等の効果が得られることになる2。
2.2
提案手法
RCT も傾向スコア法も、両群の共変量の条件をでき るだけ揃えるための枠組みだとみることができるが、 実際には両群の共変量には少なからず差が生じる。そ れでは、両群の共変量を完全に一致させることはでき ないだろうか。もちろん現実的には不可能であり、そ のときのアウトカムを観察することはできないのだが、 観察できないのであれば予測値で代替できないであろ うか。予測値が、実際の観測値の近似となっているの であれば、予測値を集計することで当該説明変数の効 果を推定できるはずである。 そこで、説明変数 xiの効果を調べるために、説明変 数 xiが x の場合に、共変量が様々な値を取る場合を考 え、そのときのアウトカムの平均 Fi(x) を xiの効果と する。共変量の分布としては、さまざまなケースが考 えうるが、前提条件で与えられている{xj i} を用いるこ とを考える。これは、前節の例を考えると、N 人の全 患者に対して薬 A もしくは薬 B を投与したと仮定した ときの平均アウトカムを求める事に相当する。 p 種類の説明変数 x1,· · · , xpを用いて、アウトカム y を予測する予測器を f (·) としたとき、説明変数 xiの効 果を表す関数 Fi(x) は、以下で与えられる。 Fi(x) = 1 N N ∑ j=1 f (xj1,· · · , xji−1, x, xji+1,· · · , xjp) (1) 1RCT では、共変量は既知の場合だけでなく、未知の場合であっ ても良い 2傾向スコア法では、未知の共変量についての調整は原理的に不 可能である ここで f (·) は、計算できさえすればブラックボックス で良く、その中身は問わない。したがって、線形モデ ルでなくてもその解釈ができることになる。 Fi(x) は、前節の例だと全患者に薬 A もしくは B を 投与したと仮定した場合の結果であるが、実際には B 薬を投与されたものに対して、A 薬を投与した場合と いう未知のケースの効果も調べていることになる。し たがって、f の汎化性能が重要になる。交差検証を実 施し、十分な精度が得られていることを確認しておく 必要がある。 さて、このように予測器 f を用いて、各説明変数が アウトカムに与える影響について議論してきたが、実 は式 (1) は、Friedman が高次元関数を視覚化する方法 として提案した Partial Dependence Plot(PDP)[2] と 同一である。よって、本稿での議論は PDP の新たな解 釈を与えていると考えることができる。2.3
線形モデルの解釈
前節で述べたように f は計算できさえすればよく、 その形は問わないのであるが、予測器 f が線形モデル で与えられる場合、すなわち f (x1, x2,· · · , xp) = w0+ p ∑ k=1 wkxk (2) の場合はどう解釈できるのであろうか。 (2) 式を (1) 式に代入すれば、 Fi(x) = w0+ wix + 1 N N ∑ j=1 ∑ k̸=i wkx j k = w0+ ∑ k̸=i wkx¯k+ wix (3) ただし、 ¯xkは、xkの平均 (=N1 ∑N j=1x j k) である。 (3) 式から明らかなように、f が線形モデルな場合、 Fi(x) は 1 次関数で表され、その傾きは注目している 説明変数 xiの係数 wiそのものになっている。よって、 Fi(x) の解釈にあたっては、その傾き、すなわち1階微 分の値を見ればよいことになる。 なお、医療分野でも広く使われるロジスティック回 帰モデルの場合は、対数オッズを取れば、 log( p(x1, x2,· · · , xp) 1− p(x1, x2,· · · , xp) ) = w0+ p ∑ i=1 wixi と線形モデルになるので、これを f と考えれば、上記 と同様の議論ができる。 12-023
おわりに
本稿では、機械学習の手法を用いた医療情報の解釈 方法について議論し、Partial Dependent Plot に関し て新たな解釈を与えた。
謝辞
本研究の一部は、国立研究開発法人日本医療研究開 発機構 (AMED)「MID-NET を用いた医薬品等のベネ フィット・リスク評価のための薬剤疫学研究等の実践的 な分析手法及び教育に関する研究」の支援によって行 われた。参考文献
[1] 星野崇宏, 岡田謙介: 傾向スコアを用いた共変量 調整による因果効果の推定と臨床医学・疫学・薬 学・公衆衛生分野での応用について, 保健医療科 学, Vol. 55, No. 3, pp. 230–243 (2006)[2] Friedman JH: Greedy Function Approximation: A Gradient Boosting Machine, The Annals of
Statistics, Vol. 29, No. 5, pp. 1189–1232 (2001)