同一
DPC
コード内症例の類型化のための分類知識の獲得
Mining Classification Model after Clustering of the same DPC
coded Examples
津本周作
1木村知広
2岩田春子
3平野章二
1∗
Shusaku Tsumoto
1Tomohiro Kimura
2Haruko Iwata
3Shoji Hirano
11
島根大学医学部医学科医療情報学
1
Department of Medical Informatics, Faculty of Medicine, Shimane University
2
島根大学医学部医療サービス課情報管理室
2
Medical Services Division, Faculty of Medicine, Shimane University
3
島根大学医学部附属病院入退院管理センター
3
Center for Bed-control, Shimane University Hospital
Abstract: This paper proposes a method for construction of a model which classifies subgroups
within given clinical cases with the same DPC coded assigned. Mixture model clustering is applied to clinical cases with the same DPC code, which are classified into a given number of subgroups. Then, a clasification model is generated by text mining of discharge summaries. Text mining process consists of the following foure procedures. First, morphological analysis is applied to a set of discharge summaries and a term matrix is generated. Second, correspond analysis is applied to the classification labels and the term matrix and generates two dimensional coordinates. By measuring the distance between catergories and the assigned points, ranking of key words will be generated. Then, keywords are selected as attributes according to the rank, and training example for classifiers will be generated. Finally learning methods are applied to the training examples. Experemental validation shows that random forest achieved the best performance.
1
はじめに
著者らは,これまで看護オーダーの実施歴から,ク ラスタリングを用いて看護クリニカルパスを生成する 仕組みについて提案してきた [6, 13] (図 1)。この中で, 同一 DPC コード内の症例を用いてパスの評価を行っ たが,眼科領域等外科領域ではこれまで看護師が作成 したパスに類似のものが生成できたのに対し,脳梗塞・ 肺がんといった症例では複雑なパスになった。これは DPC コード内に複数の病態が含まれ,それぞれの病態 によって,入院日数が異なってくる場合があり,コー ディングと臨床の病態の間との乖離がそのままパスに 投影された形となってしまったことによる。 この問題を克服するべく,同一 DPC コードの症例 に対して,入院日数を指標として,混合正規分布モデ ル (いわゆる EM クラスタリング)[11] を適用し,DPC コード内の症例の分類を行った上で,退院時要約を用 いて特徴付けし,分類モデルを生成,生成したモデル ∗連絡先:島根大学医学部医学科 〒 693-8501 島根県出雲市塩冶町 89-1. E-mail: [email protected] ϳ ,/^ ;㝔ሗ䝅䝇䝔䝮Ϳ ᐇ┳ㆤ䜸䞊䝎㡯┠ ྡ䜢᪥ᩘ䛤䛸䛻㞟ィ ᪥ᩘ䛾㢮ᆺ ;䜽䝷䝇䝍䝸 䞁䜾Ϳ ゎᯒ䝕䞊䝍䛾ᣦᐃᮇ㛫 ᣦᐃW䝁䞊䝗 㟁Ꮚ䜽䝸䝙䜹䝹䝟䝇᭷↓ 䝟䝇ྡ⛠ ┳ㆤ䜸䞊䝎䞊 䜽䝷䝇䝍䞊ศᯒ 䝟䝇䛾ᵓ⠏䞉 ᵓ⠏ D^;ከḟඖ ᑻᗘᵓᡂἲͿ 䜽䝷䝇䝍䞊⏕ᡂ 䛜᮰䛩䜛䜎䛷 ⧞䜚㏉䛩 䝕䞊䝍䝉䝑䝖 t,;䝕䞊䝍䜴䜶䝝䜴䝇Ϳ 䜸䞊䝎ᒚṔ 図 1: 看護パス生成 を用いて,改めて当該 DPC コード内の症例をサブク ラスに分類,分類後に,看護クリニカルパスの生成法 を適用する形での拡張を試みようとしている。 本論文では,この拡張のために必要な以下の方法に ついて,その性能を評価した。 混合正規分布モデルにより,同一 DPC コードの症例医療情報学会・人工知能学会AIM合同研究会資料
SIG-AIMED-004-11
11-1を与えられた数のサブクラスに類別化する。この分類 について,[12] で提案した方法で,退院時要約を使って, サブクラスへの分類に関するパターンを抽出すること を試みた。Random Forest[2], Deep Learning[3] 等で分 類器構築後,反復交差検証法 [7] を用いて,実際の退院 時要約を用いて,その分類の正答率を比較した。2 つの クラスのうち,メジャーなクラスについては Random Forest の方が正答率は高かったが,マイナーなクラス については Deep Learning の方が正答率が高く,それ ぞれのクラスの意味づけが異なりうることを示唆して いる。
2
方法
2.1
サブクラス抽出
DPC は診療に医療資源を一番投入した疾患によって, コーディングされる。したがって,例えば,治療薬は同 じであれば,違う病態を持ちうる疾患群でも,同じコー ドに属する可能性がある。したがって,DPC をキーと して検索し,それによって得られたデータについての 解析を行う場合,複数の病態をできるだけ分離するこ とが必要であると考えられる。 同一コード内に複数の病態が含まれる時,各病態が 独自の時間発展を遂げると考えると,コードでの入院 日数の分布は複数の病態を反映した混合分布となると 考えられる。もし,入院日数の分布が正規分布で表現 できるとすれば,これらを分離する方法として,混合 分布モデル [11] が適用できる。1 ただし,EM-clustering はあるデータ集合の分割を与 えるものではなく,各例については,あるクラスタに属 する確率が算出される。この場合,正確に症例を排反 的に分離できていない。通常,これによる分類モデル の生成は確率を推定するものが使われるが,ここでは, テキストを用いた分類モデルを生成するために,もと もとのデータをクラスタ数に分割するため,以下のよ うに帰属群の判定を行った。 1. クラスタ数 k を与え,与えられた DPC に属する 症例の入院期間のデータに対して,混合正規分布 モデルによる EM クラスタリングを適用する。 2. 入院日数 (単位:日) に対する各症例のクラスタへ の帰属確率を算出する。 3. k 個のクラスタのうち,帰属確率の大きい 2 つの クラスタが算出した確率が等しくなる日数,なけ れば, 前後の日数の平均を 2 つのクラスタの分界 点と定義。 1もともと本手法は判別分析における方法として提案されたが,現 在,EM アルゴリズムを用いたモデルベースのクラスタリングの一 つと位置づけられている。 【患者】65 歳 男性 【主訴】なし 【現病歴】約 10 年前より健診で血糖高値を指摘さ れていたが医療機関の受診はしていなかった。61 歳時に値が更に高値となったため、A 病院を受診 し糖尿病と診断され MG500mg が開始となった。 昨年 8 月より 4ヶ月間治療を自己中断され、H27 年 12 月 15 日に B 医院初診となった。前医初診時 BS168mg/dl、HbA1c 6.8%であり、グラクティブ 50mg が開始となった。今年の 1 月に右眼のかすみ を訴えられ、近医眼科を受診、当院眼科紹介とな り、右網膜動脈分枝閉塞症と診断され治療開始と なった。その際の採血にて HbA1c 7.9%と高値で あったため、当科紹介。糖尿病初回教育、加療目 的に 2016 年 2 月 22 日に入院となった。 【入院時身体所見】 身長 170.3cm,体重 78.6kg(BMI=27.1kg/m2) .... 【入院時検査所見】 《尿一般》比重 1.002,pH 6.5, 尿糖 (-), 蛋白 (-), 潜 血 (-), Ketone (-), Bil(-), Uro (± )《 生 化 学 検 査 》TP 8.0g/dl, Alb 4.5g/dl, T-Bil 0.7mg/dl, AST 25IU/l, ALT 29IU/l, LDH 181IU/l,
《血清学的検査》 抗 GAD 抗体¡5.0U/ml
《糖代謝》FBS 133mg/dl, 随時 BS 130mg/dl, HbA1c 7.6%, fIRI 6.6 μ U/ml, fCPR 2.1ng/ml, U-CPR 106.92ug/day 《血糖日内変動》 133/220-173/202-119/202 【Problem lists】# 1. 2 型糖尿病、糖尿病神経障害、 糖尿病網膜症 A1: 10 年以上の罹患歴あり。10 年以 上の罹患歴あり。家族歴、肥満歴あり、抗 GAD 抗 体陰性で、内因性インスリン保持されており、内服 のみでコントロールできていることからは 2 型糖尿 病と考える。元々MG500mg で加療されていたが、 昨年 8 月より 4 月間の治療中断歴あり。自己中断後 の昨年 12 月に前医受診した際には HbA1c6.8%と まずまずのコントロールであった。今年の 1 月に は HbA1c7.9%と増悪あり。12 月∼1 月で庭師の仕 事量が減り活動量の低下があったこと、年末年始 にかけて食事量が増えたことが DM 増悪の原因と 考える。標準体重*27kcal の糖尿病食でグラクティ ブ 50mg 継続し、血糖推移を確認したところ、空 腹時血糖 130 台、食後血糖 200 台と上昇あり。MG の追加も検討したが、徐々に BS 低下し、空腹時 BS120 台で昼・夕前 BS も 120-130 台で推移してお り、ご本人も意欲的であるため、食事、運動療法 での更なる低下を期待し、薬剤は追加しなかった。 引き続きかかりつけの B 医院に F/U を依頼する。
4. 分界点の前後によって,症例の分布クラスタを決 定する。 EM クラスタリングは,他のクラスタリング同様,類 似性の高いグループへの分割を得るために使えるが,そ れぞれのグループの意味を具体的にとらえることがで きない。このため,具体的なモデルを得るために,各 グループの特徴をとらえた分類モデルの生成を行う必 要がある。この一法として,本稿では,退院時要約か らのテキストマイニングを行う。
2.2
退院時要約
退院時要約は,入院時の病状・検査,入院後の鑑別 診断から治療に至るまでの診療の経緯を要約の形で示 したものであり,医療施設内あるいは医療施設間の情 報共有に使用される。図 2 にその一例を示した。この 糖尿病の例では,健診による指摘により,近医にて経 口血糖降下剤により治療されていたが,増悪し,精査 加療のために入院となった。食事療法にて正常化した ため,食事療法と経口血糖降下剤にて経過を見るとい うことになったという症例である。このように,退院 時要約は,入院の診療経過について,コンパクトに要 約した自然文であると見なせる。2.3
テキストマイニングプロセス
退院時要約は,必要最小限な診療経過をまとめた自 然文であることから,必要な用語はテキスト中に現れ ていると考えられ,まずは BoW 式のテキストマイニ ング [8] を試す価値があると考えられる。自然言語処 理に Deep Learning を適用する時,系列データである ことから,RNN の形式を適用することが自然ではある が,Deep Learning による分類が画像認識を得意とし ていることから,まず自然文で含まれている情報を数 量化し,幾何学的情報に変換してから,その幾何学的 パターンを学習するという方法も考えられる。 Tsumoto らは,この考え方をベースにしたプロセス (図 3 を提案した [12]。まず,退院時要約を抽出後,形 態素解析を行い,キーワードに関する分割表を作成す る。次いで,対応分析 (2 次元) を行って,各キーワー ドと DPC について布置座標を与える。これらの布置 座標について,DPC とキーワード間のユークリッド距 離を計算し,DPC 毎に距離の値によって,キーワード のランク付けを行う。ランク付けされたキーワードを 用いて,文書内のキーワードの有無についての表形式 のデータ集合を生成する。生成されたデータを用いて, 分類学習,決定木, SVM, 深層学習等の手法を用いて, 分類器を構築する。 ᕸ⨨ᗙᶆ䛻䜘䜛䝷䞁䜽䛡 ᑐᛂศᯒ 䝕䞊䝍䛾ᢳฟ ධ㝔᪥ᩘ,㏥㝔せ⣙ ㏥㝔せ⣙䛾ᙧែ⣲ゎᯒ Ꮫ⩦ჾ䛾ᵓ⠏ Ỵᐃᮌ, SVM, ῝ᒙᏛ⩦➼ 図 3: 分類器構築プロセス3
実験
表 1 に,島根大学医学部附属病院の 2015 年度に入院 した DPC 上位 20 位までの症例について,件数,EM クラスタリングのあてはめの結果および入院日数の平 均値と中央値を示した [15]。正規性を示したのは,2 型 糖尿病,肺の悪性腫瘍,肘・膝の外傷,慢性腎炎,脳梗 塞,二峰性を示したのは,肘・膝の外傷,慢性腎炎,脳 梗塞であった。これらの二峰性の場合については,本 論文で提案している方法によって,分類モデルを作成 できると考えられる。しかし,例えば,肘・膝の外傷 であれば,2 群に分かれることはほぼ明らかであるが, これらの中で,グループ分けが必ずしも明確ではない 例として,脳梗塞患者 80 例を用いる。 抽出した退院時要約は,RMeCab[5] 用いて,形態素 解析を行った後,対応分析 (R3.4.1) を行い,各 DPC に ついて,キーワードのランク付けを行った。各 DPC 間 で重複したキーワードについては削除した。分類器構築 のプラットフォームとして,R3.4.1 を用い, Random Forest[2] にはパッケージ randomForest[10] を, 深層学 習については,darch を用い,Darch のパラメーターと しては,中間層 10,20 中間層 (10,5),(20,10), (40,10) の 5 種を用意し, 反復学習回数 100 とした。Random Forest 以外は,Default のパラメーター設定を利用した。 次に,構築した分類器の性能評価については,デー タ集合をランダムに 2 分割し,片方を訓練標本,もう 一方をテスト標本として正答率を算出することを 100 回繰り返し,平均正答率を算出した (repeated 2-fold cross validation[7])。選択するキーワード数は 1 位のみ から 1000 位までそれぞれについて,性能を評価した。 対応分析,分類器構築,性能評価については,HP Pro-liant ML110 Gen9 (Xeon E5-2640 v3.2 2.6GHz 8Core, 64GB メモリ) を用いた。表 1: データと混合分布モデルのあてはめの結果 DPC 名称 DPC コード 件数 正規性 二峰性 平均値 中央値 白内障、水晶体の疾患 手術手術あり 重症度等片眼 020110xx97xxx0 445 3.27 3 白内障、水晶体の疾患 手術手術あり 重症度等両眼 020110xx97xxx1 152 7.78 8 2型糖尿病 (糖尿病性ケトアシドーシスを除く。) 100070xxxxxxxx 145 ○ 12.90 13 肺の悪性腫瘍 手術手術あり 処置等2なし 040040xx97x0xx 131 ○ 14.80 13 子宮頸・体部の悪性腫瘍 手術手術なし 処置等24あり 副傷病名なし 12002xxx99x40x 121 5.40 5 肺の悪性腫瘍 手術手術なし 処置等1あり 処置等2なし 副傷病名なし 040040xx99100x 120 2.84 2 子宮の良性腫瘍 手術腹腔鏡下腟式子宮全摘術等 120060xx02xxxx 111 7.05 7 肺の悪性腫瘍 手術手術なし 処置等1なし 処置等24あり 040040xx9904xx 110 9.16 8 妊娠期間短縮、低出産体重に関連する障害 (出生時体重 2500g 以上) 手術手術なし 処置等2なし 副傷病名なし 140010x199x00x 110 3.02 2 肘、膝の外傷(スポーツ障害等を含む。) 手術腱縫合術等 160620xx01xxxx 99 ○ ○ 18.20 17 全身性臓器障害を伴う自己免疫性疾患 手術手術なし 処置等2なし 070560xx99x0xx 96 12.31 3 非ホジキンリンパ腫 手術手術なし 処置等24あり 副傷病名なし 130030xx99x40x 94 19.55 13.5 肺炎、急性気管支炎、急性細気管支炎 ( 15 歳以上) 手術手術なし 処置等2なし 040080x099x0xx 86 13.41 11 肺の悪性腫瘍 手術手術なし 処置等1なし 処置等2なし 040040xx9900xx 85 17.20 11 慢性腎炎症候群・慢性間質性腎炎 ・ 慢性腎不全手術手術なし 処置等1なし 処置等2なし 副傷病名なし 110280xx99000x 83 ○ ○ 12.81 11 肝・肝内胆管の悪性腫瘍(続発性を含む。) 手術その他の手術あり 処置等2なし 060050xx97x0xx 82 15.48 9 胆管(肝内外)結石、胆管炎 手術限局性腹腔膿瘍手術等 処置等2なし 副傷病名なし 060340xx03x00x 82 11.04 8 脳梗塞(JCS10 未満) 手術手術なし 処置等1なし 処置等23あり 副傷病名なし 010060x099030x 80 ○ ○ 20.95 17.5 網膜剥離 手術手術あり 重症度等片眼 020160xx97xxx0 75 ○ 11.83 13 胎児及び胎児付属物の異常 手術子宮全摘術等 120180xx01xxxx 73 10.45 9
Density Curves Data D e n s it y 0 10 20 30 40 50 0 .0 0 0 .0 1 0 .0 2 0 .0 3 0 .0 4 図 4: 混合正規分布モデルによるあてまめ
4
結果
4.1
混合正規分布
図 4 に脳梗塞のデータについて,混合正規分布によ るあてはめ結果を示した。あてはめについては,AIC の値を用いて評価する。 一つのクラスタで 3 つのパラメーター (線形結合の係 数, 平均, 標準偏差) が追加され,線型結合の係数の和 が 1 であることから,線型結合の係数の自由度は 1 減 ずる。したがって,この場合の AIC は:クラスタ数を k として, AIC =−2 ∗ (対数尤度) + 2 ∗ (3k − 1) で求められる。 表 2 において,脳梗塞のあてはめに関する対数尤度 と AIC を示した。結果として,2 つの分布の混合とし た場合のあてはめが最もよかった。以下,入院日数の 短いクラスをクラス 1,より長いものをクラス 2 と呼 ぶことにする。 表 2: クラスタ数と対数尤度, AIC クラスタ数 対数尤度 AIC 2 -296.1122 600.2244 3 -293.6723 601.3446 4 -293.6574 607.3148 5 -291.5038 609.0076 6 -288.7785 609.5573 7 -287.4351 612.8702 8 -288.7281 621.4562 9 -286.2126 622.42524.2
クラス毎の正答率の比較
図 5, 6 に 2 クラスの分類について,退院時要約の キーワードから生成したモデルを使って,交差検証法 によって得られた平均正答率をクラス毎に算出した結 果を示した。 クラス 1 については,キーワードが少ない場合は, Random Forest, Deep Learning の正答率はキーワード 数が 10 のところで最低値をとった後,正答率が上昇し, キーワード数 150 でピークをとった。ピーク後ともに, 正答率は低下したが,Random Forest の方が低下の幅 は小さかった。 一方,クラス 2 については,いったんキーワードが 4 でピークを迎え,10∼20 で最小値をとり,その後, Random Forest, Deep Learning ともに 200 でピークと なり,その後減少している。 以上から,ケースの多いクラス 1 については,Ran-dom Forest の方が正答率が高いが,ケースの少ないク ラス 2 については,Deep Learning の方が正答率が高 いことはがわかった。4.3
Random Forest の属性選択
図 7 に,キーワード数 150 の場合での Random Forest から得られた属性のランキングを示した。一位には,病 院, リハビリテーションという言葉があり,その後は, 脚,コンサルトといったキーワードが含まれているこ とから,クラスの分類には,リハビリテーションが必 要の有無等によって,入院日数が大きく変わることが 示唆される。5
考察
5.1
クラスタ数
本手法では,EM クラスタリングを適用しているが, 確率密度の線型結合を考えて,各クラスタの事後確率 を推定するため,クラスタ数を前もって与える必要が ある。ここでは,AIC によってあてはめを見ているが, 予測正答率という観点以外では,BIC のような情報量 規準 [9] による推定が望ましい。今後,どのような基準 を用いるべきかをさらに検討の余地がある。5.2
テキストマイニングの手法
本稿では,Bag of Words (BoW) からのテキストマイ ニングから分類モデルを生成したが,BoW の他,Topic Model [1] 等の方法を適用し,比較検討を深める必要があ る。また,系列を取り扱う深層学習としての RNN [4, 3] についての適用も考えて行きたい。
0.60 0.65 0.70 0.75 0.80 0.85 1 2 3 4 5 10 20 30 40 50 100 150 200 250 300 350 400 450 500 750 1000 keyword v alue method
DeepLearning one layer (10) DeepLearning two layers (10,5) DeepLearning one layer (20) DeepLearning two layers (20,10) DeepLearning two layers (40,10) Random Forest 図 5: クラス 1(入院日数短) の正答率の比較 0.2 0.3 0.4 0.5 0.6 0.7 1 2 3 4 5 10 20 30 40 50 100 150 200 250 300 350 400 450 500 750 1000 keyword v alue method
DeepLearning one layer (10) DeepLearning two layers (10,5) DeepLearning one layer (20) DeepLearning two layers (20,10) DeepLearning two layers (40,10) Random Forest
ICA E 㝧ᛶ ኻㄒ 㰯 ADL 㝜ᛶ 㢁ື⬦ 儬儈児 MMT HDL ↓傪 Ύ᫂ ⬡㉁ ῝㒊 ే⏝ ᑕ 僃僔ᚋ 儹儍兑兠 㡿ᇦ ሰᰦ ῐ傪 ㏥㝔 ฟ㞼 儗兗儙兏儬 ⬮ 兎儳儷兎優兠儛克兗 㝔 0.0 0.1 0.2 0.3 0.4 0.5 0.6 data_rp MeanDecreaseGini 図 7: Random Forest における属性選択
5.3
看護オーダのクラスタリング
岩田らは,図 8 に示すように,類別化した後のサブ グループそれぞれについての看護パスを生成する方法 を提案している [14]。本手法によって,混合正規分布 モデルによって得られたサブグループの分類モデルに より,サブグループの特徴付けが得られていることか ら,これらを元に,パスの検証を行うことが可能であ る。今後,この方法の検証を進めていく予定である。 ྛ䜽䝷䝇䝍䛻ᑐ䛩䜛 ƵĂůůƵƐƚĞƌŝŶŐ ŬсϬ͘͘ϭϬ䛷䛾⧞䜚㏉䛧 ᐇ┳ㆤ䜸䞊䝎㡯┠ ྡ䜢᪥ᩘ䛤䛸䛾㞟ィ 䜽䝷䝇䝍ᩘŬ䛻䛴䛔䛶䛾 ΰྜṇつศᕸ ;᪥ᩘͿ 䝟䝇䛾ᵓ⠏ 図 8: サブグループを考慮した看護パス生成6
おわりに
本論文では,DPC コード内での病態の均一化を混合 正規分布モデルにより,同一 DPC コードの症例を与 えられた数のサブクラスに類別化することで実現した。 生成されたクラスタについて,[12] で提案した方法を用 いて,退院時要約から,サブクラスへの分類に関する パターンを抽出することを試みた。Random Forest[2], Deep Learning[3] 等で分類器構築後,反復交差検証法 [7] を用いて,実際の退院時要約を用いて,その正答率を 比較したが,あるクラスについては,Random Forest, 別のクラスについては,Deep Learning の正答率が高 く,それぞれの分類手法の特色によるものと考えられ た。今後,さらに,SVM, 決定木等他の手法を比較す るとともに,深層学習の構造について,より深い考察 を深めていく予定である。謝辞
AIC の部分の議論については,独立行政法人統計セ ンターの椿広計先生との議論が参考になった。ここに 謝意を表したい。 本研究は科学研究費助成事業・基盤研究 (B) 15H02750 「診療クリニカルパス自動生成のためのアクティブマイ ニングプロセスに関する研究」および日本医療研究開発 機構・臨床研究・治験推進研究事業 15lk1010003h0001 「医用知能情報システム基盤の研究開発」の助成によ った。参考文献
[1] David M. Blei. Probabilistic topic models.
Com-mun. ACM, 55(4):77–84, April 2012.
[2] Leo Breiman. Random forests. Machine
Learn-ing, 45(1):5–32, 2001.
[3] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016. http://www.deeplearningbook.org.
[4] Alex Graves, Santiago Fernandez, and Faustino Gomez. Connectionist temporal classification: Labelling unsegmented sequence data with recur-rent neural networks. In In Proceedings of the
International Conference on Machine Learning, ICML 2006, pages 369–376, 2006.
[5] Motohiro Ishida. Rmecab. http://rmecab.jp/ wiki/index.php?RMeCabFunctions, 2016. [6] Haruko Iwata, Shoji Hirano, and Shusaku
Tsumoto. Maintenance and discovery of do-main knowledge for nursing care using data in hospital information system. Fundam. Inform., 137(2):237–252, 2015.
[7] Ji-Hyun Kim. Estimating classification error rate: Repeated cross-validation, repeated hold-out and bootstrap. Comput. Stat. Data Anal., 53(11):3735–3745, September 2009.
[8] Youngjoong Ko. A study of term weighting schemes using class information for text classi-fication. In Proceedings of the 35th International
ACM SIGIR Conference on Research and De-velopment in Information Retrieval, SIGIR ’12,
pages 1029–1030, New York, NY, USA, 2012. ACM.
[9] Sadanori Konishi and Genshiro Kitagawa.
In-formation Criteria and Statistical Modeling.
Springer Publishing Company, Incorporated, 1st edition, 2007.
[10] Andy Liaw and Matthew Wiener. Classifica-tion and regression by randomforest. R News, 2(3):18–22, 2002.
[11] G. J. McLachlan and D. Peel. Finite Mixture
Models. Wiley, New York, 2000.
[12] Shusaku Tsumoto, Tomohiro Kimura, Haruko Iwata, and Shoji Hirano. Construction of dis-charge summaries classifier. In 2017 IEEE
Inter-national Conference on Healthcare Informatics, ICHI 2017, Park City, UT, USA, August 23-26, 2017, pages 74–82. IEEE, 2017.
[13] Yuko Tsumoto, Haruko Iwata, Shoji Hirano, and Shusaku Tsumoto. Construction of clinical path-way using dual clustering. Neuroscience and Biomedical Engineering, 3, 2015. [14] 岩田春子, 木村知広, 津本周作, and 平野章二. 同 一 dpc コード内症例の類型化を考慮した看護クリ ニカルパス生成支援システムの開発. In 第 35 医 療情報学連合大会, 2017. [15] 津本周作, 平野章二, 岩田春子, and 木村知広. クラ スタ分析に基づく同一 dpc コード内の症例の類型 化. In 第 2 回医用人工知能研究会 (SIG-AIMED-002-12), 2016.