時系列複合医療データからの知識獲得における諸課題
Problems on knowledge discovery from
heterogeneous time-series medical databases
平野章二
1∗河村敏彦
2津本周作
1Shoji Hirano
1Toshihiko Kawamura
2Shusaku Tsumoto
11
島根大学医学部医療情報学講座
1
Department of Medical Informatics, Shimane University, School of Medicne
2
島根大学医学部附属病院医療情報部
2
Division of Medical Informatics, Shimane University Hospital
Abstract: In this paper we briefly review time-series medical data mining techniques and discuss
problems toward knowledge discovery from heterogeneous time-series medical data composed of labo exams, prescriptions and descriptions with narratives.
1
はじめに
本邦における電子カルテの導入率は年々増加を続け ており,JAHIS(一般社団法人保健医療福祉情報システ ム工業会) による調査では 2013 年時点で 400 床以上の 大規模病院の 60%超が電子カルテを導入している [1]。 また,SS-MIX により診療情報の格納方式が標準化さ れたことで,地域医療連携の拠点病院と複数の診療所 など様々な医療機関間で電子化された診療情報の交換・ 共有が進みつつある。一例として,島根県においても NPO 法人が運用するしまね医療情報ネットワーク (通 称まめネット)[2] において,同意を得た患者さんの診療 情報をデータセンターを介して SS-MIX により参加医 療機関で提供・参照する試みがなされている。 電子カルテとして日々蓄積される電子健康記録 (EHR) には,処方,検体検査,放射線画像検査,各種記載 (所 見や看護記録,退院時要約など) などが時間情報ととも に記録されている。これらを構造化・標準化された形 で集積し,データマイニング,機械学習等の手法で分 析することで,患者状態 (検査値,観察,所見等) の時 間推移,介入 (投薬,治療等) のタイミング,アウトカ ム (予後等) を相互に関連づける知識の生成やアウトカ ム予測などの診断支援,症例対照研究への応用など医 療の質向上に資することが期待される。しかしながら, 中長期の医療データを対象とした時系列マイニングに 関する研究はまだ途上であり,Jensen らは [3] におい て,治療や投薬などを伴う中での推移パターン抽出な どはこれからの課題であると述べている。 ∗連絡先: 島根大学医学部医療情報学講座 〒693-8501 島根県出雲市塩冶町 89-1 E-mail: [email protected] 本稿では,検査,処方,記載等を含む複合時系列か らの知識獲得への応用が期待されるいくつかの時系列 医療データマイニング法を紹介するとともに,その実 現に向けた課題について考察する。2
時系列医療データのマイニング
時系列医療データの主な特徴として,多次元である こと,heterogeneous であること,データの測定間隔や 期間が患者ごとに不規則であること [3, 4, 5, 7] が挙げ られる。心電図や脳波など生体信号を測定する検査で は連続した波形が得られるため一般的な信号解析技術 を用いて分類や予測が行われることが多いが,血液,尿 などの検体検査は病態に応じて実施されるため測定間 隔が大きく変動し得る。そのため,将来の検査値を推 定するようタスクでは,間隔が一定であることを前提 条件としないガウス過程回帰などによるモデル化と予 測が広く用いられる。一方,検体検査の推移や投薬期 間等の情報からイベントの発生を予測するようなタス クの場合は,時間と検査値の一方あるいは両方を抽象 化し代表値や記号などに置き換えた上で頻出パターン 検出などを適用する手法が多い。それぞれについて,特 に医療データを対象としたものを以下に紹介する。2.1
ガウス過程回帰によるモデル化と予測
Liu ら [4] は,Gaussian process (GP) regression と Linear dynamical system (LDS) を階層的に組み合わ せることで,不規則な間隔でサンプリングされた臨床
医療情報学会・人工知能学会AIM合同研究会資料 SIG-AIMED-001-14
検査の時系列データを学習し将来の値を予測するモデ ルを提案している。GP 回帰は時系列の各位置におけ る系列値の同時分布が多次元正規分布に従うことを仮 定した非線形回帰モデルの一種で,任意の点における 値の予測分布と信頼区間を得ることができる。Liu ら の方法は,GP 回帰を系列全体に適用するのではなく, 系列を局所的な区間 (windows) に区分し,それぞれの 区間で局所の GP 回帰を繰り返し行う。それに先立ち, 区間の平均値の推移を LDS により学習しておき,それ を GP に与えることで,平均値の時間変動をうまくモ デルに組み込み予測精度を上げるものである。実験で は,白血球数や血小板数など 10 種類の血液検査を対象 として不均質な観測データを学習し将来の値を予測す るタスクを行い,自己回帰,LDS, GP 回帰等を単独で 用いる場合と比べて短期予測で 5%程度,全体で 3%程 度予測能力が優れていることが示されている。 Hensman ら [6] は同じく GP 回帰を用いて不等間隔で サンプリングされた遺伝子発現データの時系列をモデリ ングし欠損値を推定する方法を提案している。Hensman らは GP を階層的に用いており,ある遺伝子の発現デー タの時系列を GP でモデル化,さらにその GP を平均関 数とする GP で個々の replicate における発現時系列を モデル化している。それにより,単独の GP,replicate 平均などによる推定と比べて良好な結果を得ている。 これらはいずれも現在のところ1次元時系列のみを 対象とした方法であるが,不均質な臨床検査時系列を 直接にモデル化し予測する有用な方法である。
2.2
頻出パターンマイニング
抽象化と頻出パターンマイニングを組み合わせた EHR からの時系列マイニングとして,ここでは Batal ら [7] の方法を紹介する。 まず,観測した時系列に対して,トレンド抽象化及び 値抽象化を適用し,記号による状態表現へ変換する。ト レンドについては Sliding Window Segmentation を用 いて Decreasing(D), Steady(S), Increasing(I) の 3 カテゴリに,値についてはパーセンタイルに基づき VL∼VH の 5 カテゴリに抽象化している。このときに,抽象化 されたトレンドや値を表す記号E と,対応する時間区 間 (始点b,終点 e) の情報を組み合わせ,状態を S = (E, b, e) の形式で表現する。例えば,ある患者の血小板 の値が時間t1 ∼ t5の区間において減少している場合 はS = (D, t1, t5) となる。これにより,任意の時系列 を,(E, b, c) の 3 つ組からなる状態 S の系列へと変換 することができる。 パターンはこれらの状態を組み合わせることで表現で きるが,各々が区間を伴うため,区間の重なりなど関係 を定義しなければならない。Batal らは,Allen の論文 [8] で定義される 13 種類の関係の中から,”Ei beforeEj”(あ る状態 Ei が終わってから別の状態 Ej が始まる) と “Ei co-occurs withEj”(ある状態Eiが始まり,終わる 前に別の状態Ejが始まる) の 2 種類に絞って利用して いる(その他の関係は時間の同一性を評価するもので, 時間の精度が悪い場合は問題が生じるため利用していな い)。これにより,長さk のパターン Pkを,k 個の状態と その関係行列R を用いて Pk = (< S1, S2, . . . , Sk>, R) と表現できる。以降,各分類クラスごとに頻出パター ンマイニングのアルゴリズムを適用し,各クラスごと の最小サポート基準を満たす頻出パターンを抽出する。 なお,Batal らのアルゴリズムでは,自身のサブパター ンよりも有意に予測能力が高い MPTP(Minimal Pre-dictive Temporal Pattern) を選ぶことで,spurious な パターンが選ばれることを抑制している。 実験では,心臓手術後にヘパリン起因性血小板減少 症 (HIT) を生じるリスクのある患者を予測するタスク を行っている。これは,PLT,APTT,WBC,Hgb の 4 種類の血液検査の系列と,ヘパリン使用期間の情報を 入力として与え,HIT リスクの有無を予測するもので, 各クラス 220 人からなるデータでの分類精度は 85.6%と 他のベースライン手法と比べて最も高く,また生成さ れるパターンの数も 1/10 程度に抑えられるなど良好な 結果が得られている。獲得されたパターンの例としては,
R1: (P LT = V L) → HIT risk (sup=0.41,conf=0.85)
R2: (Hep = ON co-occurs with P LT = D) → HIT risk (sup=0.28,conf=0.88) などがある。 Batal らの方法は多変量・不等間隔の時系列を入力に とることができ,区間の情報を取り扱えること,また 投薬など多種の情報を組み込める点でも優れた時系列 医療データマイニング法といえる。 一方,Gotz ら [9] は,アウトカムに強い影響を及ぼ すイベント組 (質的に定義された投薬や処置などの行 為や結果) を可視化し対話的に分析する方法を提案し ている。頻出アイテム集合マイニングと可視化を組み 合わせる手法であるが,アウトカムへ及ぼす影響の大 きさが時間に依存して変わることを考慮し,一連の治 療過程 (エピソード) の中でマイルストーンと呼ばれる 複数の重要なポイントを設けてその区間ごとに影響の 強さを可視化する。これにより,例えば早期ではアウ トカムに強い影響を与えるが,後期にはあまり関連が なくなるイベント組などを獲得することが特徴的であ る。実験では,心疾患患者のデータセットを用いて,ア ウトカムを弁置換,マイルストーンを時間順に脂質異 常症,狭心症,心不全の3つとして定義し,このエピ ソードに適合する事例 (32,000 例中の約 8%) の分析を 行い,狭心症までのエピソードにおいては冠動脈バイ パスの状態がアウトカムと統計的に有意な相関を持つ 一方,心不全までの後半のエピソードにおいては相関 14-02
が下がり有意でなくなるなどの知見を得ている。全体 から区間へとドリルダウンしながら影響の時間依存性 を探索的に分析できる点で応用が期待される。
3
時系列複合医療データからの知識
獲得に向けた課題
処方,記載等の情報を臨床検査の多変量時系列と時 間軸で統合することで,患者状態の推移に関する情報 が豊富となり,より適切に背景要因を反映させた知識 の獲得や詳細な層別条件に基づく検査値の予測等が可 能になると期待される。一方で,時系列複合医療デー タからの知識獲得は歴史の浅い分野であり,克服すべ き課題は多い。ここでは一例として,前節で紹介した 手法をフレームワークと考え,知識獲得を行う場合に 解決すべき課題を考える。 ・多変量時系列の取り扱い 多変量の系列を対象としたパターン抽出や予測は単 変量の場合と比べて関係性が複雑となり,その情報を十 分に活用できる手法は確立されていない。例えば Batal らの方法においては区間の重なりから状態の共起や出 現の前後関係を表現しているが,共変化の関係がどの 程度の期間に渡って持続し,どのような軌跡を描いて イベントに至るか,という疾患の時間進展を表現する 知識の獲得は難しい。また,系列値の予測についても, GP 回帰など不定間隔系列を取り扱うことができる非 線形回帰モデルの多変量時系列への拡張と実際の医療 データにおける予測能力の評価が課題となる。 ・内服薬の服用歴 前出のヘパリンの例や Nor´en[10] らの例にあるよう に,EHR のデータを用いて薬剤の使用と副作用発現な ど臨床イベントとの関連を分析しリスクを予測するこ とはマイニングの重要な目的の一つといえる。注射に ついては,多くの場合処方及び実施 (開始/終了/中止) の歴が EHR 上に記録されているが,内服薬について は処方歴や払出歴はあっても実施 (実際に患者さんがど の薬を何時に何錠服薬したか) を記録することは特に外 来では難しく,また入院においても厳格な服薬管理が 必要な場合を除いて記録の有無は各病院の運用による ところが大きい。内服薬に関する服薬情報をどう収集 し知識生成に組み込むか,という点は課題である。 ・記載からの患者状態抽出 医師や看護師による記載には,観察により得られる 患者状態 (下痢や痛み,出血の有無など)や合併症の発 生時期など,予後の予測に関連しうる因子が記載され ている。自然言語処理の知見を生かしつつ,これらの 情報を如何にしてカルテ記載から精度良く抽出し複合 時系列に組み込むか,という点が課題といえる。4
おわりに
本稿では,時系列複合医療データからの知識獲得に 向けて,応用が期待されるいくつかの時系列マイニン グ法を紹介するとともに,3点の課題を挙げた。この 他にも数多くの課題が存在するが,特に多変量時系列 の取り扱いとカルテ記載からの患者状態抽出は生成さ れる知識の有用性を高める上で重要な要素であると考 える。それぞれ関連分野で積極的な研究がなされてお り,新たな知識生成基盤として結実することを期待し たい。参考文献
[1] JAHIS オ ー ダ リ ン グ 電 子 カ ル テ 導 入 調 査 報 告 –2013 年 版( 平 成 25 年 )– http://www.jahis.jp/members/data list/donyu20130603/ [2] NPO 法 人 し ま ね 医 療 情 報 ネット ワ ー ク 協 会 http://www.shimane-inet.jp/[3] Jensen PB, Jensen LJ, Brunak S.: Mining elec-tronic health records: towards better research appli-cations and clinical care. Nat Rev Genet. 13(6):395– 405 (2012).
[4] Liu Z, Hauskrecht M.: Clinical time series prediction: Toward a hierarchical dynamical system framework. Artif Intell Med. 65(1):5–18 (2015).
[5] 津本周作,平野章二,高林克日己: ラフ集合に基づくア
クティブマイニングによる診療情報生成システムの開 発.人工知能学会誌20(2):203-210 (2005).
[6] Hensman J, Lawrence ND, Rattray M.: Hierarchi-cal Bayesian modelling of gene expression time se-ries across irregularly sampled replicates and clus-ters. BMC Bioinformatics. 14:252 (2013).
[7] Batal I, Valizadegan H, Cooper GF, Hauskrecht M.; A Temporal Pattern Mining Approach for Classifying Electronic Health Record Data. ACM Trans Intell Syst Technol. 4(4) (2013).
[8] Allen JF.: Maintaining knowledge about tempo-ral intervals. In: Communications of the ACM. 26 (1983).
[9] Gotz D, Wang F, Perer A.: A methodology for interactive mining and visual analysis of clinical event patterns using electronic health record data. J Biomed Inform. 48:148–59 (2014).
[10] G. Niklas Nor´en , Johan Hopstadius, Andrew Bate, Kristina Star, I. Ralph Edwards: Temporal pattern discovery in longitudinal electronic patient records. Data Mining and Knowledge Discovery. 20(3):361– 387 (2010).