要介護認定業務効率化を目指した機械学習モデルの検討
神谷 達夫 岡本 悦司
福知山公立大学
キーワード: 機械学習 , 要介護認定
A machine learning model for improvement of the efficiency of the care-need
assessment of the Long-term Care Insurance
Tatsuo Kamitani, Etsuji Okamoto University of Fukuchiyama
Key words: machine learning, care-need assessment, Long-term Care Insurance Abstract:
The collection, organization, and analysis of data in the healthcare and welfare administration involves a huge amount of manual work. The authors believe that efficiency can be improved by applying machine learning technology.
In this paper, the authors used a logistic regression model as a machine learning model. As a result a logistic regression analysis model, the authors were able to create a model that reproduced the judgment processes of the care-need assessment committees based on the precedents of the secondary review of the initial computer assessment.
The authors believe that this method is effective for improving the efficiency of data collection, organization and analysis in health care and welfare administration and could be used to streamline other tasks.
いると思われる . 近年 , 手作業を減らすために人工 知能を用いるケースが数多く紹介されている . 著者 らは , 保健医療福祉行政におけるデータの収集 ・ 整 理 ・ 分析の効率化のために人工知能技術の応用を検 討 , 機械学習技術を用いた業務の効率化を提案した1). 本論文では , 上に述べたように機械学習技術を用 いた保健医療福祉行政におけるデータの収集 ・ 整理 ・ 分析業務の効率化の可能性を示し , それによって 得られた機械学習モデルの正当性を検討することを 目的としている . Ⅱ 機械学習モデル作成の対象 1. 対象の決定 本論文では , 機械学習モデルの作成対象として , 介護保険の要介護認定業務における認定審査会の二 次判定を選択した . この業務を対象としたのは , こ Ⅰ はじめに 近年のコンピュータ技術の向上により , これまで 人間が行っていた判断や意志決定をコンピュータに より実現させることが可能になってきた . その代表 例が , 人工知能関連の技術である . 人工知能関連の 技術において , 近年注目されている技術は機械学習 であり , この機械学習は , 得られたデータを統計的 に処理し結果を得るというものである . このため , 「人工知能による自動化」として , データ分析の手 法と同じ手法が使用される場合もある . つまり , 統 計的なモデルを構築し , それをできるだけ人手を介 さずにコンピュータ処理をすると , 人工知能により 自動化されたと見ることができるということであ る . 一方 , 保健医療福祉行政におけるデータの収集 ・ 整理 ・ 分析においては , 多くの手作業が発生して 神谷 達夫 福知山公立大学 TEL: 0773-24-7100 E-mail: [email protected]
原 著
の業務は市町村における保健医療福祉行政にとって 重要な業務である上に , 非効率な要素があると思わ れたことと , 電子的なデータで判定の事例が公開2) されており , 再現と検証が容易であるためである . 2. 要介護認定審査の概要 要介護認定審査とは , 介護保険において被保険者 がどれだけの介助を要するかを推定し , 月単位の支 給限度額を決定する業務であり , 市町村が実施す る . 介護保険の受給を希望する者は , まず市町村に要介 護者であることを申請する . 申請を受けた市町村 は , 訪問調査員を派遣し , 被保険者の現状を観察 し , 調査票(図 1)に記入する . 調査票は , マークシー ト方式で集計可能である . また調査票に記入できな い情報は「特記事項」として文章が記入される(図 1).
マークシート部分は , 市町村においてコンピュー タ判定される . この判定には決定木が用いられ , 決 定木の出力として要介護時間が得られる . この推計 された要介護時間に応じ要介護度が判定される . こ れが , 要介護認定審査の一次判定である . ただし , 一次判定は , 決定木により機械的に判断 されただけで , 文章で記入された「特記事項」や「主 治医意見書」は判定に利用されていない . このため , 一次判定の結果がそのまま要介護認定の結果として 確定するのではなく , 認定審査会により一次判定を 見直すべきかどうか審査され , 場合によって , 重度 又は軽度に変更されることがある . これが認定審査 の二次判定である . ただし , 二次判定は , 調査票に 記載された特記事項と主治医意見書の記載内容のみ を基に一次判定を見直すべきかどうかを評価する判 定であり , 一次判定からの再審査ではなく , 一次判 定の結果は二次判定に反映される . 3. 認定審査会の業務 認定審査委員会は医療福祉の専門職5 人程度の合 議体からなっている . この合議体は , 事前に事務局 ( 市町村介護保険課 ) によって作成された一次判定 結果の資料と調査票に記入された特記事項と主治医 意見書のみを参照して審査する . そして , 認定審査 委員会は , 一次審査の結果の判定を変えるか否かを 決定する . しかし , 判定はしかし恣意的であっては ならず , 審査委員会には専門職が必要であるため , 介護認定の業務の中では人的負担が大きい . また , 委員が適切な判定をくだせるよう事例集が刊行2)さ れていて , 委員はその内容を理解する必要がある . また , 下記の3 点の問題点が指摘されている1). ① 認定審査会の委員は異動等で頻繁に入れ代わ り , 異動により認定にバラツキが生じるおそれがあ る . ② 現在の要介護認定では , 被保険者からの申請→ 訪問調査員による訪問調査→コンピュータによる一 次判定→かかりつけ医意見書→認定審査会による二 次判定と時間がかかる . ③ 認定審査会は多忙な専門職を通常5 人から構成 される合議体であり , 毎月の日程調整に市町村担当 者は忙殺される . また委員への日当等も支払われ る . また認定審査会の権限は , 白紙から要介護度を 判定するのではなく , コンピュータによる一次判定 を変更するか否か , という制約された権限であり, 実際には大半の例で,一次判定がそのまま追認され ている ( その場合 , 結果的に二次判定により判定が 遅延することとなる ). 上記のような認定審査会における問題は , 機械化 によって軽減できるものと考えられる . 機械化す ることにより , ①過去や他市町村の認定審査会に蓄 積された夥しい経験知が継続的に生かせる , ②異動 等による委員交代による判断のバラツキをなくし正 確かつ迅速な判断が可能となる , ③さらに経験を蓄 積することにより , ④判断にかかる時間を短縮でき る , ⑤事務量と費用を節約できることが考えられ る . Ⅲ 要介護認定審査会の判定モデルの作成 1. 機械学習モデルの選定 本論文は , 要介護認定審査会における判定の機械 化検討のため , 要介護認定審査判定事例集2) に示 されている32 例の判定結果を用いた . 機械学習の モデルとしては , 実現の容易な機械学習アルゴリズ ムの1 つであるロジスティック回帰分析を用いた . 2. ロジスティック回帰分析 ロジスティック回帰分析は , 数量データの説明変 数と2 群のカテゴリデータを目的変数とする回帰分 析の一種である . ロジスティック回帰分析において は , 目的変数と説明変数を式 (1) の関係で表現する1 ). (1) ただし ,y は目的変数 ,xnは説明変数 ,n は説明変 数の個数 ,anは係数であり特にa0は定数項を示す . ロジスティック回帰分析では , 式 (1) の係数 a を決定し , 目的変数を得るためのモデルを構築す る . ロジスティック回帰分析では , 式 (1) によって 計算された尤度を求め , その尤度の対数である対 数尤度が最大となる係数anの組を求める . この対 数尤度が最大となるanの組を求めることが , ロジ スティック回帰分析による機械学習手法の本質であ る . 3. モデルの作成 (1) データの作成 まず , 要介護認定審査判定事例集2)の内容をテキ ストファイル化する . テキストファイル化にあた り , 全ての文字をテキストファイルにするのでな く , 要介護認定に対してどの項目が影響しているの かを検討してテキストファイル化する項目を選定し た . 検討の結果 , 介護認定審査会は前述したように特 記事項と主治医意見書から判定しているため , マー クシートによる決定木の項目そのものを介護認定審 査会は使用していないことが確認できた . このた め , 決定木の項目そのものはテキスト化せず , 決定
木による判定結果の要介護認定時間を利用した . また , 特記事項と主治医意見書の文章で記述され た項目は認定見直しに利用されているため , 全ての 文章をテキストファイル化した . 事例集において , 判定に利用する部分とされている項目に関しては , 別途マークをつけた . 他には , 主治医による意見書において ,「症状と しての安定性」と「介護の必要の程度に関する予後 の見通し」をテキストファイル化した ( 図2)1). こ のファイルは , 項目と内容をタブで分離し , 認定審 査に影響のあった項目にはアスタリスク*でマーク をつけている . 図2 の例では ,2-7 の項目が認定審 査に影響を与えていたため ,2-7 の項目の 3 カラム 目に*記号を記入している1). (2) 形態素解析 テキストファイル化したデータに含まれている文 章は , 形態素解析される . 形態素解析は文を単語に 分け , その単語の品詞等を分類する解析である . 本 論文では , 形態素解析にMeCab2)を用いた . 用いた 辞書はMeCab の標準辞書であり , 特に追加の単語 登録はしていない . 形態素解析の結果 , 出現頻度が多く , 記号や助詞 でなく ,「右」や「上」のようにその単語のみで意 味が分からない語を除くと , 認定審査に影響のある 単語は図 3 のようになった1). (3) モデル作成に用いた説明変数と目的変数 本論文のロジスティック回帰分析の説明変数は , 上記の形態素解析で得られた単語の他 , 要介護認定 基準時間 , 主治医の意見書に含まれている「症状の 安定性」と「予後の見通し」である . 形 態 素 解 析 の 結 果 は , 単 語 数 を 説 明 変 数 と す る . 一方 ,「症状の安定生」の項目は ,「不安定」であっ た場合を 1, それ以外を 0 として表現している . ま た ,「予後の見通し」は「悪化」であれば 1, それ 以外であれば 0 であるとして , 表現している . これ らの値は ,0 と 1 の 2 値であるため , 数量化された 説明変数として用いることができる . 同様に , 要介護認定の判定が認定審査会によって 変更された場合判定結果は 1, 変更されなかった場 合の判定結果は 0 とし , 判定結果を目的変数とし た . (4) モデルの作成 式 (1) で示される係数anを求めるため , 最尤法 により対数尤度が最大値となるような係数を求め た . 尤度 P は式 (2) のように求めた . ただし ,y は 式 (1) で求めた判別スコア ,Y は対応する目的変数 とする . (2) 対数尤度は尤度 P の自然対数である . 最尤推定の 結果 , 結果得られたモデルによる推定では , 元の データの推定は 100%推定に成功した . すなわち , 元のデータであれば , 完全に表現できるモデルを得 られたことになる . このモデルが適当かどうか , モデルの適合を検定 した . 検定に使用する統計的検定量は , 式 (2) で表 現される . ここで ,LL は対数尤度の合計 ,n1は判定 見直しの数 ,n2は判定維持の個数 ,n は全体の個数 を示す . (3) 図 2 テキストファイルの例 1) この例は , 要介護認定審査判定事例集 [1] の事例 1 を テキストファイル化した状態を示している . 図 3 形態素解析の結果1 ) 出現数が多く , 意味の無い単語や記号を削除した .
式 (3) で求めた統計的検定量は ,43.1 であり , こ れが自由度 23( 説明変数の個数 ) のχ2乗分布に従 うため ,χ2乗検定により検定する .p 値は ,χ2乗分布 の上側確率を求めることにより求めることができ る . 検定の結果 ,p 値は 0.00682 となった . この検定 の帰無仮説は ,「求められたモデルが適合していな い」であり ,p 値が十分小さいので , 帰無仮説が棄 却される . したがって , 求められたモデルには , 正 当性があると考えられる . したがって , この p 値は 十分に小さく , 作成したモデルは十分に適合してい ると考えられる . ロジスティック回帰分析のオッズ比は表 1 のよう になった1). 項目の中で「予後の見通し」と「要介 護基準時間」以外はそれぞれの単語を示している . 表 1 は , オッズ比が 1 以上のものを示しており , これ以外の項目は 1 未満である . また , 表 1 におい て ,「必要」のオッズ比は 40 を超えている一方 ,「要 介護認定時間」のオッズ比は 1 余りと急激に小さく なっている . このことから , 今回のロジスティック 回帰分析の結果から ,「必要」よりオッズ比の大き い項目が支配的になっていると考えられる1). 表 1 から ,「現在」や「予後の見通し」,「低下」 のように時間的変化に関わる項目と「移動」や「下 肢」,「歩行」のような動作に関わるような項目の 影響が大きいということが分かる .「現在」や「移 動」という語そのものは , 軽重の意味を含まない . た だ ,「現在」については , 見直しが必要であるため 現在の状況が付記されている箇所に使われているこ とが判定の見直しに影響しており ,「移動」に関し ては , 移動することができるかできないかが判定の 見直しに影響していると思われる . したがって , 表 1 の項目で示す語が含まれる場 合 , 介護認定が認定審査会において見直される可能 性が高いといえる . また , このことは定性的感覚と も大きく異ならないと思われる1). (5) モデルの交差検証 前節で求めたモデルは , モデル適合度の検定の結 果妥当であることが分かった . また , モデル作成に 使用した説明変数 ( データセット ) を作成したモデ ルで推定すると , 完全に目的変数と一致した . しか し , これだけでは , モデル作成に使用していたデー タセットの偏りなどで正しいモデルが作成できてい るかどうか確認することができない . したがって , 本論文では , 交差検証 (Cross Validation) による モデルの作成と検証も行った . 交差検証には ,k 分割交差検証を用いた . この方 法は , データセットを k 個に分割した後 ,k-1 個の データセットでモデルを作成し , 残りの 1 個を k-1 個のデータセットで作ったモデルで推定し , 推定の 精度を検証する方法である . 本論文で使用したデー タは要介護認定審査判定事例集2) に示されている 32 例から取り出したデータであるので , データセッ トの個数は 32 個である . 本論文では , 分割数を 5 としたため ,7 個のデータが含まれたデータセット を 5 個に分割した . データ数は合計 32 個であるた め ,7 個ずつに分割すると最後のデータセットは データ数が 4 個となりデータが不足する . これを補 うため , 最後のデータセットには最初の 3 個のデー タを再利用してデータセットを構成した .5 回目の 交差検証には最初のデータセットのデータを 4 個使 用しているが , 交差検証時のモデルの作成には再利 用したデータを使用しておらず , 再利用したことが 正答率に与える影響は無視できると考えられる . 交差検証の結果 , 平均 71.4% の正答率が得られた ( 表 2). この正答率は , 全データを使った場合の正 答率よりも下がっている . 平均の正答率が 7 割以上 であるため , この方法で求めた結果を使うことによ り , 手作業により判定を見直しすべきかどうかを判 断する案件を絞り込むことができる . その結果 , こ の方法は人手のかかる作業の軽減のために効果的で あると考えられる . 一方 , 交差検証の各回それぞれについてもモデル 適合検定を行った結果 , それぞれの回のモデル適合 検定は ,p 値が大きく , モデルが適合したとはいえ なかった ( 表 3).
交差検証各回のモデル適合検定はいずれも p 値が 大きく , モデルが適合しているとは言えなかったの に対し , 全てのデータセットを用いた場合はモデ ル適合度検定によりモデルの適合性が示されてい る . このことから , 使用したデータセットが必要な 数よりも少なく ,4/5 に減少するだけで適合性のあ るモデルが作成できなくなることを示している . こ のことは , 完全な交差検証をするためには , 追加 のデータが必要であることを示している . また , 全 データを使ったモデルの作成ではモデルの適合性が 検定により確認できているため , 交差検証によって 減少したデータ個数を補う程度の追加データで交差 検証モデルも適合性のあるモデルとなる可能性があ る . Ⅳ 考察 本論文では , 保健医療福祉行政におけるデータの 収集 ・ 整理 ・ 分析には膨大な手作業による労力を 軽減するための機械化の検討を目的として , 機械学 習技術を用いた介護保険の要介護認定業務における 認定審査会による二次判定作業の効率化を検討し た . 前章では , 要介護認定審査判定事例集2) に示 されている 32 例の判定結果を用て , ロジスティッ ク回帰分析により判定のモデルを作成した . 作成した判定モデルは , モデル作成に使用した データセットを全て使用した推定では 100%の正答 率を得られた上にモデル適合検定によりモデルが適 合していることを確認できた . 一方 ,k 分割交差検 証 (k=5) では , 平均 71.4% の正答率が得られた . 交 差検証では 100%の正答率を実現できていないが , 人の作業の効率化という面ではこのままでの使用可 能な正答率であると思われる . さらに , 交差検証で作成された各モデルについて のモデル適合度検定は , どのモデルでもモデルが適 合しない確率が十分小さくならず , モデル適合の確 証が得られなかった . データが 4/5 に減少するだけ で , 適合したモデルが得られなくなるということか ら , 検証のためには全体のデータが不足しているこ とが分かる . したがって , 交差検証で作成されたモ デルの適合性を得るためには , 交差検証のために減 少したデータ数以上のデータの追加が必要である . Ⅴ まとめ 本論文では , 機械学習モデルにロジスティック回 帰分析モデルを使用した . ロジスティック回帰分 析モデル作成の結果 , 介護認定審査会二次判定の事 例集の判定結果を再現するモデルを作成することが できた . 作成したモデルは , モデル適合検定で「求 められたモデルが適合していない」という帰無仮説 が棄却され (p=0.00682) モデルの妥当性が確認でき た . 帰無仮説が棄却された . したがって , 求められ たモデルには , 正当性があると考えられる . また , このモデルでは , モデル作成に使用したデータの推 定は ,100% の正答率であった . 同じデータを用いて データを 7 ブロックに分けてそれぞれの 1 ブロック を除いて作成したモデルを用い , 除いた 1 ブロッ データを推定する交差検証の結果 , 平均で 71.4% の 正答率を得ることができた . 正答率 7 割以上である ため , この方法で求めた結果を使うことにより , 手 作業により判定を見直しすべきかどうかを判断す る案件を絞り込むことができるため , 手作業の削減 には繋がると考えられる . また , 交差検証で作成 されたモデルの適合性は検定により確認できなかっ たが , これはデータ数が不足しているためであり , データ数を多くすると解決できると考えられる . 本論文では , このモデルを使用することにより認 定審査会の二次判定の効率化を事例として取り上げ たが , この手法は他の業務の効率化にも使用できる 可能性があり , 保健医療福祉行政におけるデータの 収集 ・ 整理 ・ 分析業務の効率化に有効であると考え られる . <参考文献> 1) 2) 3) 4) 神谷 達夫 , 岡本 悦司 , 奥村 貴史 , 「要介護認 定における機械学習技術の活用」, 『福知山公 立大学研究紀要』, 福知山公立大学 , 4 巻 1 号 , 2020 要 介 護 認 定 審 査 判 定 事 例 集 (2004 年 11 月 ): https://www.jcma.or.jp/news/association/1611. html (2019.3.28 閲覧 ) 厚生労働省 , 障害者自立支援法案における支 給決定・サービス利用プロセスについて , 厚 生労働省:障害保健福祉主管課長会議資料 , https://www.mhlw.go.jp/topics/2005/04/tp0428-1c/02.html (2020.1.31 閲覧 )
MeCab: Yet Another Part-of-Speech and Morphological Analyzer http://taku910.github.io/ mecab/ (2019.3.28 閲覧 )