• 検索結果がありません。

機械学習による医療情報の解釈方法の提案

N/A
N/A
Protected

Academic year: 2021

シェア "機械学習による医療情報の解釈方法の提案"

Copied!
3
0
0

読み込み中.... (全文を見る)

全文

(1)

医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-12

機械学習による医療情報の解釈方法の提案

An Interpretation Method of Medical Information Using Machine

Learning Techniques

野原康伸

若田好史

中島直樹

Yasunobu Nohara

Yoshifumi Wakata

Naoki Nakashima

九州大学病院

Kyushu University Hospital

Abstract: Recently, machine learning techniques have spread many fields. However, machine learning is still not popular in medical research field due to difficulty of interpreting. In this paper, we introduce a method of interpreting medical information using machine learning technique. The method gave new explanation of partial dependence plot from medical research field.

1

はじめに

近年、ディープラーニングやランダムフォレストの ような機械学習の技術が様々な分野で使われるように なっている。機械学習の典型的な用途は予測であり、医 療分野においては、検査値などを元に疑い病名を列挙 することで医師の診断を支援したり、患者の予後を予 測することで、診療計画の策定などに役立てることな どが想定される。また、どの要因が患者予後といった アウトカムに強い影響を与えるかが分かれば、その要 因の改善を図ることで、入院期間の短縮といったアウ トカムの改善へとつなげることも考えられる。 機械学習の医療分野への適用にあたっての課題の一 つに、結果の解釈の難しさがある。機械学習の手法の 中でも、線形回帰やロジスティック回帰、およびこれら に正則化を施した LASSO や Ridge 回帰であれば、線 形関数をベースにしたものであるため、これまで医療 で用いられていた統計手法と親和性が高く、その解釈 も可能である。しかしながら、非線形関数を用いた手 法、とりわけアンサンブル、ブースティングなど弱学 習機を組み合わせた手法 (例えばランダムフォレスト) は、より柔軟な関数表現が可能な反面、直接的な解釈 ができず、解釈が困難である。そこで本稿では、機械 学習を用いて医療情報を解釈する方法に関して議論を 行う。 連絡先:九州大学病院       〒 812-0054 福岡市東区馬出 3-1-1        E-mail: y-nohara@info.med.kyushu-u.ac.jp

2

アウトカムに与える効果の推定

2.1

既存手法

p 種類の説明変数とアウトカムの組 (xj1,· · · , xj r, yj) が、N 組与えられた場合を考え (i∈ [1, p], j ∈ [1, N])、 各説明変数 xiとアウトカムの関連を調べたいとする。 例えば、ある説明変数が、薬 A を投与したか薬 B を投 与したか (A 投与群と B 投与群) を表すものとして、両 薬の効果の差を調べることを考える。このとき、単純 に A 投与群と B 投与群のアウトカムの差を調べても、 その投与の効果を調べたことにはならない。なぜなら ば、当該説明変数と、それ以外の説明変数 (以下、共変 量とよぶ) に何らかの相関があった場合、両群の共変量 の分布にも違いが生じる。つまり、アウトカムには投 与薬の影響だけでなく、共変量の違いによる影響も加 わってしまい、当該説明変数そのものの影響を調べる ことができない。特にある説明変数が、当該説明変数 とアウトカムの両方の原因になっている場合は交絡因 子とよばれ、その調整を行う必要がある。 当該説明変数の影響だけを調べたい場合は、共変量 の条件を同一にした上で、当該説明変数だけを変化さ せ、そのときのアウトカムの差を調べる必要がある。 そこで使われる信頼性の高い手法が RCT(Randomized Control Trial: ランダム化比較試験) である。RCT は、 実験対象を両群のどちらに割り当てるかをランダムで 決定し、それぞれのアウトカムを調べる。個々の対象 の共変量は異なるため、両群で完全に条件を揃えるこ とはできない。しかしながら、両群への割り当て自体 12-01

(2)

はランダムなので、交絡因子は存在せず、各共変量の 期待値は両群で差がない1。したがって、十分大きな N をとれば両群で各共変量はバランスしているとみなせ、 投与群と非投与群でのアウトカムの違いをバイアスな しで推定できることになる。ただし RCT は、これから 新たに実験を行う場合にしか適用出来ず、すでにある データに対しては適用できない。 すでにあるデータに対して、共変量調整を行い、そ の因果推論を行う方法として傾向スコア法が知られて いる [1]。通常、共変量は複数存在し、両群の各共変量 でマッチングを取ることが困難となるのであるが、複 数の共変量を一変数に集約し、その集約された値を基 にマッチングや階層化を行う。この集約された値とし て、ある対象が投与群にどのくらいの確率で割り当て られるか (=傾向スコア) が使われ、これが方法の名前 の由来になっている。投与群と非投与群で、傾向スコ アのマッチングや階層化を行うことで、両群の各共変 量の分布を近づけることができ、疑似的に RCT を行っ たのと同等の効果が得られることになる2

2.2

提案手法

RCT も傾向スコア法も、両群の共変量の条件をでき るだけ揃えるための枠組みだとみることができるが、 実際には両群の共変量には少なからず差が生じる。そ れでは、両群の共変量を完全に一致させることはでき ないだろうか。もちろん現実的には不可能であり、そ のときのアウトカムを観察することはできないのだが、 観察できないのであれば予測値で代替できないであろ うか。予測値が、実際の観測値の近似となっているの であれば、予測値を集計することで当該説明変数の効 果を推定できるはずである。 そこで、説明変数 xiの効果を調べるために、説明変 数 xiが x の場合に、共変量が様々な値を取る場合を考 え、そのときのアウトカムの平均 Fi(x) を xiの効果と する。共変量の分布としては、さまざまなケースが考 えうるが、前提条件で与えられている{xj i} を用いるこ とを考える。これは、前節の例を考えると、N 人の全 患者に対して薬 A もしくは薬 B を投与したと仮定した ときの平均アウトカムを求める事に相当する。 p 種類の説明変数 x1,· · · , xpを用いて、アウトカム y を予測する予測器を f (·) としたとき、説明変数 xiの効 果を表す関数 Fi(x) は、以下で与えられる。 Fi(x) = 1 N Nj=1 f (xj1,· · · , xji−1, x, xji+1,· · · , xjp) (1) 1RCT では、共変量は既知の場合だけでなく、未知の場合であっ ても良い 2傾向スコア法では、未知の共変量についての調整は原理的に不 可能である ここで f (·) は、計算できさえすればブラックボックス で良く、その中身は問わない。したがって、線形モデ ルでなくてもその解釈ができることになる。 Fi(x) は、前節の例だと全患者に薬 A もしくは B を 投与したと仮定した場合の結果であるが、実際には B 薬を投与されたものに対して、A 薬を投与した場合と いう未知のケースの効果も調べていることになる。し たがって、f の汎化性能が重要になる。交差検証を実 施し、十分な精度が得られていることを確認しておく 必要がある。 さて、このように予測器 f を用いて、各説明変数が アウトカムに与える影響について議論してきたが、実 は式 (1) は、Friedman が高次元関数を視覚化する方法 として提案した Partial Dependence Plot(PDP)[2] と 同一である。よって、本稿での議論は PDP の新たな解 釈を与えていると考えることができる。

2.3

線形モデルの解釈

前節で述べたように f は計算できさえすればよく、 その形は問わないのであるが、予測器 f が線形モデル で与えられる場合、すなわち f (x1, x2,· · · , xp) = w0+ pk=1 wkxk (2) の場合はどう解釈できるのであろうか。 (2) 式を (1) 式に代入すれば、 Fi(x) = w0+ wix + 1 N Nj=1k̸=i wkx j k = w0+ ∑ k̸=i wkx¯k+ wix (3) ただし、 ¯xkは、xkの平均 (=N1 ∑N j=1x j k) である。 (3) 式から明らかなように、f が線形モデルな場合、 Fi(x) は 1 次関数で表され、その傾きは注目している 説明変数 xiの係数 wiそのものになっている。よって、 Fi(x) の解釈にあたっては、その傾き、すなわち1階微 分の値を見ればよいことになる。 なお、医療分野でも広く使われるロジスティック回 帰モデルの場合は、対数オッズを取れば、 log( p(x1, x2,· · · , xp) 1− p(x1, x2,· · · , xp) ) = w0+ pi=1 wixi と線形モデルになるので、これを f と考えれば、上記 と同様の議論ができる。 12-02

(3)

3

おわりに

本稿では、機械学習の手法を用いた医療情報の解釈 方法について議論し、Partial Dependent Plot に関し て新たな解釈を与えた。

謝辞

本研究の一部は、国立研究開発法人日本医療研究開 発機構 (AMED)「MID-NET を用いた医薬品等のベネ フィット・リスク評価のための薬剤疫学研究等の実践的 な分析手法及び教育に関する研究」の支援によって行 われた。

参考文献

[1] 星野崇宏, 岡田謙介: 傾向スコアを用いた共変量 調整による因果効果の推定と臨床医学・疫学・薬 学・公衆衛生分野での応用について, 保健医療科 学, Vol. 55, No. 3, pp. 230–243 (2006)

[2] Friedman JH: Greedy Function Approximation: A Gradient Boosting Machine, The Annals of

Statistics, Vol. 29, No. 5, pp. 1189–1232 (2001)

参照

関連したドキュメント

医師の臨床研修については、医療法等の一部を改正する法律(平成 12 年法律第 141 号。以下 「改正法」という。 )による医師法(昭和 23

    pr¯ am¯ an.ya    pram¯ an.abh¯uta. 結果的にジネーンドラブッディの解釈は,

生活のしづらさを抱えている方に対し、 それ らを解決するために活用する各種の 制度・施 設・機関・設備・資金・物質・

四税関長は公売処分に当って︑製造者ないし輸入業者と同一

この点について結果︵法益︶標準説は一致した見解を示している︒

学側からより、たくさんの情報 提供してほしいなあと感じて います。講議 まま に関して、うるさ すぎる学生、講議 まま

2 保健及び医療分野においては、ろう 者は保健及び医療に関する情報及び自己

5月 こどもの発達について 臨床心理士 6月 ことばの発達について 言語聴覚士 6月 遊びや学習について 作業療法士 7月 体の使い方について 理学療法士