時系列複合医療データからの知識獲得における諸課題

(1)

時系列複合医療データからの知識獲得における諸課題

Problems on knowledge discovery from

heterogeneous time-series medical databases

平野章二

1∗

_河村敏彦

2

_津本周作

1

Shoji Hirano

1

Toshihiko Kawamura

2

Shusaku Tsumoto

1

_{島根大学医学部医療情報学講座}

1

_{Department of Medical Informatics, Shimane University, School of Medicne}

2

_{島根大学医学部附属病院医療情報部}

2

_{Division of Medical Informatics, Shimane University Hospital}

Abstract: In this paper we briefly review time-series medical data mining techniques and discuss

problems toward knowledge discovery from heterogeneous time-series medical data composed of labo exams, prescriptions and descriptions with narratives.

1 はじめに

本邦における電子カルテの導入率は年々増加を続けており，JAHIS(一般社団法人保健医療福祉情報システム工業会) による調査では 2013 年時点で 400 床以上の大規模病院の 60%超が電子カルテを導入している [1]。また，SS-MIX により診療情報の格納方式が標準化されたことで，地域医療連携の拠点病院と複数の診療所など様々な医療機関間で電子化された診療情報の交換・共有が進みつつある。一例として，島根県においても NPO 法人が運用するしまね医療情報ネットワーク (通称まめネット)[2] において，同意を得た患者さんの診療情報をデータセンターを介して SS-MIX により参加医療機関で提供・参照する試みがなされている。電子カルテとして日々蓄積される電子健康記録 (EHR) には，処方，検体検査，放射線画像検査，各種記載 (所見や看護記録，退院時要約など) などが時間情報とともに記録されている。これらを構造化・標準化された形で集積し，データマイニング，機械学習等の手法で分析することで，患者状態 (検査値，観察，所見等) の時間推移，介入 (投薬，治療等) のタイミング，アウトカム (予後等) を相互に関連づける知識の生成やアウトカム予測などの診断支援，症例対照研究への応用など医療の質向上に資することが期待される。しかしながら，中長期の医療データを対象とした時系列マイニングに関する研究はまだ途上であり，Jensen らは [3] において，治療や投薬などを伴う中での推移パターン抽出などはこれからの課題であると述べている。 ∗_{連絡先：島根大学医学部医療情報学講座} 〒693-8501 島根県出雲市塩冶町 89-1 E-mail: [email protected] 本稿では，検査，処方，記載等を含む複合時系列からの知識獲得への応用が期待されるいくつかの時系列医療データマイニング法を紹介するとともに，その実現に向けた課題について考察する。

2 時系列医療データのマイニング

時系列医療データの主な特徴として，多次元であること，heterogeneous であること，データの測定間隔や期間が患者ごとに不規則であること [3, 4, 5, 7] が挙げられる。心電図や脳波など生体信号を測定する検査では連続した波形が得られるため一般的な信号解析技術を用いて分類や予測が行われることが多いが，血液，尿などの検体検査は病態に応じて実施されるため測定間隔が大きく変動し得る。そのため，将来の検査値を推定するようタスクでは，間隔が一定であることを前提条件としないガウス過程回帰などによるモデル化と予測が広く用いられる。一方，検体検査の推移や投薬期間等の情報からイベントの発生を予測するようなタスクの場合は，時間と検査値の一方あるいは両方を抽象化し代表値や記号などに置き換えた上で頻出パターン検出などを適用する手法が多い。それぞれについて，特に医療データを対象としたものを以下に紹介する。

2.1 ガウス過程回帰によるモデル化と予測

Liu ら [4] は，Gaussian process (GP) regression と Linear dynamical system (LDS) を階層的に組み合わせることで，不規則な間隔でサンプリングされた臨床

医療情報学会・人工知能学会AIM合同研究会資料 SIG-AIMED-001-14

(2)

検査の時系列データを学習し将来の値を予測するモデルを提案している。GP 回帰は時系列の各位置における系列値の同時分布が多次元正規分布に従うことを仮定した非線形回帰モデルの一種で，任意の点における値の予測分布と信頼区間を得ることができる。Liu らの方法は，GP 回帰を系列全体に適用するのではなく，系列を局所的な区間 (windows) に区分し，それぞれの区間で局所の GP 回帰を繰り返し行う。それに先立ち，区間の平均値の推移を LDS により学習しておき，それを GP に与えることで，平均値の時間変動をうまくモデルに組み込み予測精度を上げるものである。実験では，白血球数や血小板数など 10 種類の血液検査を対象として不均質な観測データを学習し将来の値を予測するタスクを行い，自己回帰，LDS, GP 回帰等を単独で用いる場合と比べて短期予測で 5%程度，全体で 3%程度予測能力が優れていることが示されている。 Hensman ら [6] は同じく GP 回帰を用いて不等間隔でサンプリングされた遺伝子発現データの時系列をモデリングし欠損値を推定する方法を提案している。Hensman らは GP を階層的に用いており，ある遺伝子の発現データの時系列を GP でモデル化，さらにその GP を平均関数とする GP で個々の replicate における発現時系列をモデル化している。それにより，単独の GP，replicate 平均などによる推定と比べて良好な結果を得ている。これらはいずれも現在のところ１次元時系列のみを対象とした方法であるが，不均質な臨床検査時系列を直接にモデル化し予測する有用な方法である。

2.2 頻出パターンマイニング

抽象化と頻出パターンマイニングを組み合わせた EHR からの時系列マイニングとして，ここでは Batal ら [7] の方法を紹介する。まず，観測した時系列に対して，トレンド抽象化及び値抽象化を適用し，記号による状態表現へ変換する。トレンドについては Sliding Window Segmentation を用いて Decreasing(D), Steady(S), Increasing(I) の 3 カテ

ゴリに，値についてはパーセンタイルに基づき VL∼VH の 5 カテゴリに抽象化している。このときに，抽象化されたトレンドや値を表す記号E と，対応する時間区 間 (始点b，終点 e) の情報を組み合わせ，状態を S = (E, b, e) の形式で表現する。例えば，ある患者の血小板 の値が時間t₁ ∼ t₅の区間において減少している場合はS = (D, t₁, t₅) となる。これにより，任意の時系列を，(E, b, c) の 3 つ組からなる状態 S の系列へと変換 することができる。パターンはこれらの状態を組み合わせることで表現できるが，各々が区間を伴うため，区間の重なりなど関係を定義しなければならない。Batal らは，Allen の論文 [8] で定義される 13 種類の関係の中から，”E_i beforeE_j”(ある状態 Ei が終わってから別の状態 Ej が始まる) と “Ei co-occurs withEj”(ある状態Eiが始まり，終わる前に別の状態E_jが始まる) の 2 種類に絞って利用している（その他の関係は時間の同一性を評価するもので，時間の精度が悪い場合は問題が生じるため利用していない）。これにより，長さk のパターン P_kを，k 個の状態と その関係行列R を用いて Pk = (< S1, S2, . . . , Sk>, R) と表現できる。以降，各分類クラスごとに頻出パターンマイニングのアルゴリズムを適用し，各クラスごとの最小サポート基準を満たす頻出パターンを抽出する。なお，Batal らのアルゴリズムでは，自身のサブパターンよりも有意に予測能力が高い MPTP(Minimal Pre-dictive Temporal Pattern) を選ぶことで，spurious なパターンが選ばれることを抑制している。実験では，心臓手術後にヘパリン起因性血小板減少症 (HIT) を生じるリスクのある患者を予測するタスクを行っている。これは，PLT，APTT，WBC，Hgb の 4 種類の血液検査の系列と，ヘパリン使用期間の情報を入力として与え，HIT リスクの有無を予測するもので，各クラス 220 人からなるデータでの分類精度は 85.6%と他のベースライン手法と比べて最も高く，また生成されるパターンの数も 1/10 程度に抑えられるなど良好な結果が得られている。獲得されたパターンの例としては，

R1: (P LT = V L) → HIT risk (sup=0.41,conf=0.85)

R2: (Hep = ON co-occurs with P LT = D) → HIT risk (sup=0.28,conf=0.88) などがある。 Batal らの方法は多変量・不等間隔の時系列を入力にとることができ，区間の情報を取り扱えること，また投薬など多種の情報を組み込める点でも優れた時系列医療データマイニング法といえる。一方，Gotz ら [9] は，アウトカムに強い影響を及ぼすイベント組 (質的に定義された投薬や処置などの行為や結果) を可視化し対話的に分析する方法を提案している。頻出アイテム集合マイニングと可視化を組み合わせる手法であるが，アウトカムへ及ぼす影響の大きさが時間に依存して変わることを考慮し，一連の治療過程 (エピソード) の中でマイルストーンと呼ばれる複数の重要なポイントを設けてその区間ごとに影響の強さを可視化する。これにより，例えば早期ではアウトカムに強い影響を与えるが，後期にはあまり関連がなくなるイベント組などを獲得することが特徴的である。実験では，心疾患患者のデータセットを用いて，アウトカムを弁置換，マイルストーンを時間順に脂質異常症，狭心症，心不全の３つとして定義し，このエピソードに適合する事例 (32,000 例中の約 8%) の分析を行い，狭心症までのエピソードにおいては冠動脈バイパスの状態がアウトカムと統計的に有意な相関を持つ一方，心不全までの後半のエピソードにおいては相関 14-02

(3)

が下がり有意でなくなるなどの知見を得ている。全体から区間へとドリルダウンしながら影響の時間依存性を探索的に分析できる点で応用が期待される。

3 時系列複合医療データからの知識

獲得に向けた課題

処方，記載等の情報を臨床検査の多変量時系列と時間軸で統合することで，患者状態の推移に関する情報が豊富となり，より適切に背景要因を反映させた知識の獲得や詳細な層別条件に基づく検査値の予測等が可能になると期待される。一方で，時系列複合医療データからの知識獲得は歴史の浅い分野であり，克服すべき課題は多い。ここでは一例として，前節で紹介した手法をフレームワークと考え，知識獲得を行う場合に解決すべき課題を考える。・多変量時系列の取り扱い多変量の系列を対象としたパターン抽出や予測は単変量の場合と比べて関係性が複雑となり，その情報を十分に活用できる手法は確立されていない。例えば Batal らの方法においては区間の重なりから状態の共起や出現の前後関係を表現しているが，共変化の関係がどの程度の期間に渡って持続し，どのような軌跡を描いてイベントに至るか，という疾患の時間進展を表現する知識の獲得は難しい。また，系列値の予測についても， GP 回帰など不定間隔系列を取り扱うことができる非線形回帰モデルの多変量時系列への拡張と実際の医療データにおける予測能力の評価が課題となる。・内服薬の服用歴前出のヘパリンの例や Nor´en[10] らの例にあるように，EHR のデータを用いて薬剤の使用と副作用発現など臨床イベントとの関連を分析しリスクを予測することはマイニングの重要な目的の一つといえる。注射については，多くの場合処方及び実施 (開始/終了/中止) の歴が EHR 上に記録されているが，内服薬については処方歴や払出歴はあっても実施 (実際に患者さんがどの薬を何時に何錠服薬したか) を記録することは特に外来では難しく，また入院においても厳格な服薬管理が必要な場合を除いて記録の有無は各病院の運用によるところが大きい。内服薬に関する服薬情報をどう収集し知識生成に組み込むか，という点は課題である。・記載からの患者状態抽出医師や看護師による記載には，観察により得られる患者状態 (下痢や痛み，出血の有無など）や合併症の発生時期など，予後の予測に関連しうる因子が記載されている。自然言語処理の知見を生かしつつ，これらの情報を如何にしてカルテ記載から精度良く抽出し複合時系列に組み込むか，という点が課題といえる。

4 おわりに

本稿では，時系列複合医療データからの知識獲得に向けて，応用が期待されるいくつかの時系列マイニング法を紹介するとともに，３点の課題を挙げた。この他にも数多くの課題が存在するが，特に多変量時系列の取り扱いとカルテ記載からの患者状態抽出は生成される知識の有用性を高める上で重要な要素であると考える。それぞれ関連分野で積極的な研究がなされており，新たな知識生成基盤として結実することを期待したい。

参考文献

[1] JAHIS オーダリング電子カルテ導入調査報告 –2013 年版（平成 25 年）– http://www.jahis.jp/members/data list/donyu20130603/ [2] NPO 法人しまね医療情報ネットワーク協会 http://www.shimane-inet.jp/

[3] Jensen PB, Jensen LJ, Brunak S.: Mining elec-tronic health records: towards better research appli-cations and clinical care. Nat Rev Genet. 13(6):395– 405 (2012).

[4] Liu Z, Hauskrecht M.: Clinical time series prediction: Toward a hierarchical dynamical system framework. Artif Intell Med. 65(1):5–18 (2015).

[5] 津本周作,平野章二,高林克日己: ラフ集合に基づくア

クティブマイニングによる診療情報生成システムの開発.人工知能学会誌20(2):203-210 (2005).

[6] Hensman J, Lawrence ND, Rattray M.: Hierarchi-cal Bayesian modelling of gene expression time se-ries across irregularly sampled replicates and clus-ters. BMC Bioinformatics. 14:252 (2013).

[7] Batal I, Valizadegan H, Cooper GF, Hauskrecht M.; A Temporal Pattern Mining Approach for Classifying Electronic Health Record Data. ACM Trans Intell Syst Technol. 4(4) (2013).

[8] Allen JF.: Maintaining knowledge about tempo-ral intervals. In: Communications of the ACM. 26 (1983).

[9] Gotz D, Wang F, Perer A.: A methodology for interactive mining and visual analysis of clinical event patterns using electronic health record data. J Biomed Inform. 48:148–59 (2014).

[10] G. Niklas Nor´en , Johan Hopstadius, Andrew Bate, Kristina Star, I. Ralph Edwards: Temporal pattern discovery in longitudinal electronic patient records. Data Mining and Knowledge Discovery. 20(3):361– 387 (2010).