要介護認定業務効率化を目指した機械学習モデルの検討

(1)

要介護認定業務効率化を目指した機械学習モデルの検討

神谷達夫　　　岡本悦司

福知山公立大学

キーワード：機械学習 , 要介護認定

A machine learning model for improvement of the efficiency of the care-need

assessment of the Long-term Care Insurance

Tatsuo Kamitani, Etsuji Okamoto University of Fukuchiyama

Key words: machine learning, care-need assessment, Long-term Care Insurance Abstract:

The collection, organization, and analysis of data in the healthcare and welfare administration involves a huge amount of manual work. The authors believe that efficiency can be improved by applying machine learning technology.

In this paper, the authors used a logistic regression model as a machine learning model. As a result a logistic regression analysis model, the authors were able to create a model that reproduced the judgment processes of the care-need assessment committees based on the precedents of the secondary review of the initial computer assessment.

The authors believe that this method is effective for improving the efficiency of data collection, organization and analysis in health care and welfare administration and could be used to streamline other tasks.

いると思われる . 近年 , 手作業を減らすために人工知能を用いるケースが数多く紹介されている . 著者らは , 保健医療福祉行政におけるデータの収集･整理･分析の効率化のために人工知能技術の応用を検討 , 機械学習技術を用いた業務の効率化を提案した1). 　本論文では , 上に述べたように機械学習技術を用いた保健医療福祉行政におけるデータの収集･整理･分析業務の効率化の可能性を示し , それによって得られた機械学習モデルの正当性を検討することを目的としている . Ⅱ　機械学習モデル作成の対象 1.　対象の決定　本論文では , 機械学習モデルの作成対象として , 介護保険の要介護認定業務における認定審査会の二次判定を選択した . この業務を対象としたのは , こ Ⅰ　はじめに　近年のコンピュータ技術の向上により , これまで人間が行っていた判断や意志決定をコンピュータにより実現させることが可能になってきた . その代表例が , 人工知能関連の技術である . 人工知能関連の技術において , 近年注目されている技術は機械学習であり , この機械学習は , 得られたデータを統計的に処理し結果を得るというものである . このため , 「人工知能による自動化」として , データ分析の手法と同じ手法が使用される場合もある . つまり , 統計的なモデルを構築し , それをできるだけ人手を介さずにコンピュータ処理をすると , 人工知能により自動化されたと見ることができるということである . 　一方 , 保健医療福祉行政におけるデータの収集･整理･分析においては , 多くの手作業が発生して神谷達夫　　福知山公立大学　 TEL:　0773-24-7100　　E-mail: [email protected]

原　　著

(2)

の業務は市町村における保健医療福祉行政にとって重要な業務である上に , 非効率な要素があると思われたことと , 電子的なデータで判定の事例が公開2) されており , 再現と検証が容易であるためである . 2.　要介護認定審査の概要　要介護認定審査とは , 介護保険において被保険者がどれだけの介助を要するかを推定し , 月単位の支給限度額を決定する業務であり , 市町村が実施する . 介護保険の受給を希望する者は , まず市町村に要介護者であることを申請する . 申請を受けた市町村は , 訪問調査員を派遣し , 被保険者の現状を観察し , 調査票（図 1）に記入する . 調査票は , マークシート方式で集計可能である . また調査票に記入できない情報は「特記事項」として文章が記入される（図 1）.

(3)

　マークシート部分は , 市町村においてコンピュータ判定される . この判定には決定木が用いられ , 決定木の出力として要介護時間が得られる . この推計された要介護時間に応じ要介護度が判定される . これが , 要介護認定審査の一次判定である . 　ただし , 一次判定は , 決定木により機械的に判断されただけで , 文章で記入された「特記事項」や「主治医意見書」は判定に利用されていない . このため , 一次判定の結果がそのまま要介護認定の結果として確定するのではなく , 認定審査会により一次判定を見直すべきかどうか審査され , 場合によって , 重度又は軽度に変更されることがある . これが認定審査の二次判定である . ただし , 二次判定は , 調査票に記載された特記事項と主治医意見書の記載内容のみを基に一次判定を見直すべきかどうかを評価する判定であり , 一次判定からの再審査ではなく , 一次判定の結果は二次判定に反映される . 3.　認定審査会の業務　認定審査委員会は医療福祉の専門職_{5 人程度の合} 議体からなっている . この合議体は , 事前に事務局 ( 市町村介護保険課 ) によって作成された一次判定結果の資料と調査票に記入された特記事項と主治医意見書のみを参照して審査する . そして , 認定審査委員会は , 一次審査の結果の判定を変えるか否かを決定する . しかし , 判定はしかし恣意的であってはならず , 審査委員会には専門職が必要であるため , 介護認定の業務の中では人的負担が大きい . また , 委員が適切な判定をくだせるよう事例集が刊行2)されていて , 委員はその内容を理解する必要がある . 　また , 下記の3 点の問題点が指摘されている1). ① 認定審査会の委員は異動等で頻繁に入れ代わり , 異動により認定にバラツキが生じるおそれがある . ② 現在の要介護認定では , 被保険者からの申請→ 訪問調査員による訪問調査→コンピュータによる一次判定→かかりつけ医意見書→認定審査会による二次判定と時間がかかる . ③ 認定審査会は多忙な専門職を通常_{5 人から構成} される合議体であり , 毎月の日程調整に市町村担当者は忙殺される . また委員への日当等も支払われる . また認定審査会の権限は , 白紙から要介護度を判定するのではなく , コンピュータによる一次判定を変更するか否か , という制約された権限であり，実際には大半の例で，一次判定がそのまま追認されている ( その場合 , 結果的に二次判定により判定が遅延することとなる ). 　上記のような認定審査会における問題は , 機械化によって軽減できるものと考えられる . 機械化することにより , ①過去や他市町村の認定審査会に蓄積された夥しい経験知が継続的に生かせる , ②異動等による委員交代による判断のバラツキをなくし正確かつ迅速な判断が可能となる , ③さらに経験を蓄積することにより , ④判断にかかる時間を短縮できる , ⑤事務量と費用を節約できることが考えられる . Ⅲ　要介護認定審査会の判定モデルの作成 1.　機械学習モデルの選定　本論文は , 要介護認定審査会における判定の機械化検討のため , 要介護認定審査判定事例集2) に示されている_{32 例の判定結果を用いた . 機械学習の} モデルとしては , 実現の容易な機械学習アルゴリズムの1 つであるロジスティック回帰分析を用いた . 2.　ロジスティック回帰分析　ロジスティック回帰分析は , 数量データの説明変数と2 群のカテゴリデータを目的変数とする回帰分析の一種である . ロジスティック回帰分析においては , 目的変数と説明変数を式 (_{1) の関係で表現する}1 ). 　　　(1) 　ただし ,_{y は目的変数 ,x}nは説明変数 ,n は説明変数の個数 ,_anは係数であり特にa0は定数項を示す . 　ロジスティック回帰分析では , 式 (1) の係数 a を決定し , 目的変数を得るためのモデルを構築する . ロジスティック回帰分析では , 式 (_{1) によって} 計算された尤度を求め , その尤度の対数である対数尤度が最大となる係数anの組を求める . この対数尤度が最大となるanの組を求めることが , ロジスティック回帰分析による機械学習手法の本質である . 3.　モデルの作成 (1) データの作成　まず , 要介護認定審査判定事例集2)の内容をテキストファイル化する . テキストファイル化にあたり , 全ての文字をテキストファイルにするのでなく , 要介護認定に対してどの項目が影響しているのかを検討してテキストファイル化する項目を選定した . 　検討の結果 , 介護認定審査会は前述したように特記事項と主治医意見書から判定しているため , マークシートによる決定木の項目そのものを介護認定審査会は使用していないことが確認できた . このため , 決定木の項目そのものはテキスト化せず , 決定

(4)

木による判定結果の要介護認定時間を利用した . 　また , 特記事項と主治医意見書の文章で記述された項目は認定見直しに利用されているため , 全ての文章をテキストファイル化した . 事例集において , 判定に利用する部分とされている項目に関しては , 別途マークをつけた . 　他には , 主治医による意見書において ,「症状としての安定性」と「介護の必要の程度に関する予後の見通し」をテキストファイル化した ( 図₂₎1). このファイルは , 項目と内容をタブで分離し , 認定審査に影響のあった項目にはアスタリスク＊でマークをつけている . 図_{2 の例では ,2-7 の項目が認定審} 査に影響を与えていたため ,_{2-7 の項目の 3 カラム} 目に＊記号を記入している1). (2) 形態素解析　テキストファイル化したデータに含まれている文章は , 形態素解析される . 形態素解析は文を単語に分け , その単語の品詞等を分類する解析である . 本論文では , 形態素解析にMeCab2)を用いた . 用いた辞書は_{MeCab の標準辞書であり , 特に追加の単語} 登録はしていない . 　形態素解析の結果 , 出現頻度が多く , 記号や助詞でなく ,「右」や「上」のようにその単語のみで意味が分からない語を除くと , 認定審査に影響のある単語は図 3 のようになった1). (3) モデル作成に用いた説明変数と目的変数　本論文のロジスティック回帰分析の説明変数は , 上記の形態素解析で得られた単語の他 , 要介護認定基準時間 , 主治医の意見書に含まれている「症状の安定性」と「予後の見通し」である . 　形態素解析の結果は , 単語数を説明変数とする . 一方 ,「症状の安定生」の項目は ,「不安定」であった場合を 1, それ以外を 0 として表現している . また ,「予後の見通し」は「悪化」であれば 1, それ以外であれば 0 であるとして , 表現している . これらの値は ,0 と 1 の 2 値であるため , 数量化された説明変数として用いることができる . 　同様に , 要介護認定の判定が認定審査会によって変更された場合判定結果は 1, 変更されなかった場合の判定結果は 0 とし , 判定結果を目的変数とした . (4) モデルの作成　式 (1) で示される係数_anを求めるため , 最尤法により対数尤度が最大値となるような係数を求めた . 尤度 P は式 (2) のように求めた . ただし ,y は式 (1) で求めた判別スコア ,Y は対応する目的変数とする . 　　　(2) 　対数尤度は尤度 P の自然対数である . 最尤推定の結果 , 結果得られたモデルによる推定では , 元のデータの推定は 100％推定に成功した . すなわち , 元のデータであれば , 完全に表現できるモデルを得られたことになる . 　このモデルが適当かどうか , モデルの適合を検定した . 検定に使用する統計的検定量は , 式 (2) で表現される . ここで ,LL は対数尤度の合計 ,_n₁は判定見直しの数 ,_n₂は判定維持の個数 ,n は全体の個数を示す . 　　　(3) 　　　　　　図 2 テキストファイルの例 1) この例は , 要介護認定審査判定事例集 [1] の事例 1 を　　　テキストファイル化した状態を示している .　　　　　　図 3 形態素解析の結果1 ) 出現数が多く , 意味の無い単語や記号を削除した .

(5)

　式 (3) で求めた統計的検定量は ,43.1 であり , これが自由度 23( 説明変数の個数 ) の_χ2乗分布に従うため ,_χ2乗検定により検定する .p 値は ,_χ2乗分布の上側確率を求めることにより求めることができる . 　検定の結果 ,p 値は 0.00682 となった . この検定の帰無仮説は ,「求められたモデルが適合していない」であり ,p 値が十分小さいので , 帰無仮説が棄却される . したがって , 求められたモデルには , 正当性があると考えられる . したがって , この p 値は十分に小さく , 作成したモデルは十分に適合していると考えられる . 　ロジスティック回帰分析のオッズ比は表 1 のようになった1). 項目の中で「予後の見通し」と「要介護基準時間」以外はそれぞれの単語を示している . 　表 1 は , オッズ比が 1 以上のものを示しており , これ以外の項目は 1 未満である . また , 表 1 において ,「必要」のオッズ比は 40 を超えている一方 ,「要介護認定時間」のオッズ比は 1 余りと急激に小さくなっている . このことから , 今回のロジスティック回帰分析の結果から ,「必要」よりオッズ比の大きい項目が支配的になっていると考えられる1). 　表 1 から ,「現在」や「予後の見通し」,「低下」のように時間的変化に関わる項目と「移動」や「下肢」,「歩行」のような動作に関わるような項目の影響が大きいということが分かる .「現在」や「移動」という語そのものは , 軽重の意味を含まない . ただ ,「現在」については , 見直しが必要であるため現在の状況が付記されている箇所に使われていることが判定の見直しに影響しており ,「移動」に関しては , 移動することができるかできないかが判定の見直しに影響していると思われる . 　したがって , 表 1 の項目で示す語が含まれる場合 , 介護認定が認定審査会において見直される可能性が高いといえる . また , このことは定性的感覚とも大きく異ならないと思われる1). (5) モデルの交差検証　前節で求めたモデルは , モデル適合度の検定の結果妥当であることが分かった . また , モデル作成に使用した説明変数 ( データセット ) を作成したモデルで推定すると , 完全に目的変数と一致した . しかし , これだけでは , モデル作成に使用していたデータセットの偏りなどで正しいモデルが作成できているかどうか確認することができない . したがって , 本論文では , 交差検証 (Cross Validation) によるモデルの作成と検証も行った . 　交差検証には ,k 分割交差検証を用いた . この方法は , データセットを k 個に分割した後 ,k-1 個のデータセットでモデルを作成し , 残りの 1 個を k-1 個のデータセットで作ったモデルで推定し , 推定の精度を検証する方法である . 本論文で使用したデータは要介護認定審査判定事例集2) に示されている 32 例から取り出したデータであるので , データセットの個数は 32 個である . 本論文では , 分割数を 5 としたため ,7 個のデータが含まれたデータセットを 5 個に分割した . データ数は合計 32 個であるため ,7 個ずつに分割すると最後のデータセットはデータ数が 4 個となりデータが不足する . これを補うため , 最後のデータセットには最初の 3 個のデータを再利用してデータセットを構成した .5 回目の交差検証には最初のデータセットのデータを 4 個使用しているが , 交差検証時のモデルの作成には再利用したデータを使用しておらず , 再利用したことが正答率に与える影響は無視できると考えられる . 　交差検証の結果 , 平均 71.4% の正答率が得られた ( 表 2). この正答率は , 全データを使った場合の正答率よりも下がっている . 平均の正答率が 7 割以上であるため , この方法で求めた結果を使うことにより , 手作業により判定を見直しすべきかどうかを判断する案件を絞り込むことができる . その結果 , この方法は人手のかかる作業の軽減のために効果的であると考えられる . 　一方 , 交差検証の各回それぞれについてもモデル適合検定を行った結果 , それぞれの回のモデル適合検定は ,p 値が大きく , モデルが適合したとはいえなかった ( 表 3).

(6)

　交差検証各回のモデル適合検定はいずれも p 値が大きく , モデルが適合しているとは言えなかったのに対し , 全てのデータセットを用いた場合はモデル適合度検定によりモデルの適合性が示されている . このことから , 使用したデータセットが必要な数よりも少なく ,4/5 に減少するだけで適合性のあるモデルが作成できなくなることを示している . このことは , 完全な交差検証をするためには , 追加のデータが必要であることを示している . また , 全データを使ったモデルの作成ではモデルの適合性が検定により確認できているため , 交差検証によって減少したデータ個数を補う程度の追加データで交差検証モデルも適合性のあるモデルとなる可能性がある . Ⅳ　考察　本論文では , 保健医療福祉行政におけるデータの収集･整理･分析には膨大な手作業による労力を軽減するための機械化の検討を目的として , 機械学習技術を用いた介護保険の要介護認定業務における認定審査会による二次判定作業の効率化を検討した . 前章では , 要介護認定審査判定事例集2) に示されている 32 例の判定結果を用て , ロジスティック回帰分析により判定のモデルを作成した . 　作成した判定モデルは , モデル作成に使用したデータセットを全て使用した推定では 100％の正答率を得られた上にモデル適合検定によりモデルが適合していることを確認できた . 一方 ,k 分割交差検証 (k=5) では , 平均 71.4% の正答率が得られた . 交差検証では 100％の正答率を実現できていないが , 人の作業の効率化という面ではこのままでの使用可能な正答率であると思われる . 　さらに , 交差検証で作成された各モデルについてのモデル適合度検定は , どのモデルでもモデルが適合しない確率が十分小さくならず , モデル適合の確証が得られなかった . データが 4/5 に減少するだけで , 適合したモデルが得られなくなるということから , 検証のためには全体のデータが不足していることが分かる . したがって , 交差検証で作成されたモデルの適合性を得るためには , 交差検証のために減少したデータ数以上のデータの追加が必要である . Ⅴ　まとめ　本論文では , 機械学習モデルにロジスティック回帰分析モデルを使用した . ロジスティック回帰分析モデル作成の結果 , 介護認定審査会二次判定の事例集の判定結果を再現するモデルを作成することができた . 作成したモデルは , モデル適合検定で「求められたモデルが適合していない」という帰無仮説が棄却され (p=0.00682) モデルの妥当性が確認できた . 帰無仮説が棄却された . したがって , 求められたモデルには , 正当性があると考えられる . また , このモデルでは , モデル作成に使用したデータの推定は ,100% の正答率であった . 同じデータを用いてデータを 7 ブロックに分けてそれぞれの 1 ブロックを除いて作成したモデルを用い , 除いた 1 ブロッデータを推定する交差検証の結果 , 平均で 71.4% の正答率を得ることができた . 正答率 7 割以上であるため , この方法で求めた結果を使うことにより , 手作業により判定を見直しすべきかどうかを判断する案件を絞り込むことができるため , 手作業の削減には繋がると考えられる . また , 交差検証で作成されたモデルの適合性は検定により確認できなかったが , これはデータ数が不足しているためであり , データ数を多くすると解決できると考えられる . 　本論文では , このモデルを使用することにより認定審査会の二次判定の効率化を事例として取り上げたが , この手法は他の業務の効率化にも使用できる可能性があり , 保健医療福祉行政におけるデータの収集･整理･分析業務の効率化に有効であると考えられる . ＜参考文献＞ 1） 2） 3） 4）神谷達夫 , 岡本悦司 , 奥村貴史 , 「要介護認定における機械学習技術の活用」, 『福知山公立大学研究紀要』, 福知山公立大学 , 4 巻 1 号 , 2020 要介護認定審査判定事例集 (2004 年 11 月 ): https://www.jcma.or.jp/news/association/1611. html (2019.3.28 閲覧 ) 厚生労働省 , 障害者自立支援法案における支給決定・サービス利用プロセスについて , 厚生労働省：障害保健福祉主管課長会議資料 , https://www.mhlw.go.jp/topics/2005/04/tp0428-1c/02.html (2020.1.31 閲覧 )

MeCab: Yet Another Part-of-Speech and Morphological Analyzer http://taku910.github.io/ mecab/ (2019.3.28 閲覧 )

要介護認定業務効率化を目指した機械学習モデルの検討