形態素解析を行わない自然言語処理の医療応用

(1)

形態素解析を行わない自然言語処理の医療応用

Medical Applications of Natural Language Processing without Morphological

Analysis

山本康仁

1

Yasuhito Yamamoto

1 1

_{東京都立広尾病院}

1

_{Tokyo metropolitan hiroo hospital}

Abstract: A large amount of medical records are digitized, but the abbreviations are not unified and do not follow any grammar, so it is difficult to analyze them with normal natural language processing. The newly developed HiPER NLP does not perform morphological analysis but focuses on the correct interpretation of abbreviations. In case of processing errors, the translation results are stored with the source phrase, and a user interface is provided to point out errors.

医療 DWH がもつ問題点

DWH を定義した Inmon は、2007 年に医療 DWH が他の職種と異なりその価値を享受していないと指摘している。医療と比較すると一般業務は、顧客と数量が変化するだけで業務パターンがある程度一定で、正規化がすすみ、情報活用期間が短い。対して医療では状況が多彩でパターン化しにくく、取り扱われる情報も冗長な文章ばかりで、そのままの利用が難しく、何十年にもわたり情報を収集しなければならない。Inmon は(1)医療情報 DWH で成功をおさめるのなら、専門用語や略語の統一が必要で、専門領域と語彙の関連情報の活用や自然言語処理を備える必要があると述べている。クリニカルパスなどで医療プロセスを可視化し、業種をまたがって問題を共有するという仕組みはあるが、病態は各個人多彩であり、異常状態に対応する医療という特性からパターン化は難しい。専門用語や略語の統一の必要性は認識されているが、実際には遅々として進んでいない。本邦でも大学病院規模では１ヶ月に２０万以上の電子カルテ文章が発生するが、記述内容の具体については医療従事者に一任され、二次利用するためには非文法的かつ断片化した文章から医療情報を抽出する必要がある。(2)

HiPER NLP について

診療録に含まれる情報は患者の症状や医師の判断など重要な内容を含み、構造化して利活用が求められる反面、意思決定支援などへの応用は、自然言語処理等の精度不足が懸念される。そこで当院では、 DPC コーディングや各種業務支援への利用に止めた。ここでは、2010 年に実施した先行研究と、そこから発展し 2014 年から利用 7 年目となる自然言語処理（HiPER NLP）の利活用と仕組みを簡単に説明する。

先行研究としての症候群サーベイ

ランス

都立広尾病院で2007 年から 2009 年まで約３年間で収集した医師プログレスノート200 万件を抽出し， 2008 年 2 月までの 135 万件と以降の 65 万件に分割した。前半の135 万件から、「喘鳴，発熱，発疹，咳嗽，嘔吐，下痢、痙攣」の７項目に関連する文章の断片20 万個を収集した。20 万個の文章断片の前後の文節を含めて、採用すべき語彙，採用すべきでない語彙を分類した。前段階で同義語を判別し，複雑な記載を簡単な単語に要約したのちに、ルールベースに従い除外する言い回しを検討している。こうして作成された処理装置を検証した。誤差２％、信頼人工知能学会第二種研究会資料 SIG-AIMED-010-02

(2)

度95％、母比率 10％と仮定して，サンプル数を 865 とした。サンプルは、後半の65 万件から前述した７項目を含む記載83654 件を検索し、無作為に 865 件を抽出した。この文章について、自然言語処理装置が正しく文章を解析したのかを、医師が目視で確認した。無作為に抽出した865 件のプログレスノートの記載の中から症候７項目についてその有無を正しく解析できたのは824 件で、正確度は 95.3％であった。例えば，「発熱があるときは再来すること」のような仮定文や、主語が本人を示さない場合，あるいは「昔からよく発熱する子だった」というような現状を示さない文章は除外することができた。（３）

検知器の精度

新型インフルエンザが流行した 2009-2010 シーズンインフルエンザを対象に2009 年 4 月 28 日から検討を開始した。翌年3 月 8 日までの 316 日間で 24 万 4500 記載が収集された。この期間において 4582 回のインフルエンザ迅速診断が施行され、1177 回の陽性が確定している。その間の発熱患者はのべ 12159 名であった。流行開始を検知する意味で，24 時間でインフルエンザA 型迅速診断陽性が２名を超える状況を検知するよう、決定木を設定して計測した。これは過去の流行から、７症候の患者数，その割合がインフルエンザ２名を超えるパターンを示した場合に警告を出すものである。結果は東京エリアで夏に流行した新型インフルエンザを描出し、特異度 97.5％、陽性反応的中度は 93.5％であった。

診療録のリアルタイム自然言語処理

記載からその時点で存在する病態、病名、所見をコード化して取得することを目的とした。またこれらの情報を強化する意味で、構造化済みのデータも合わせて収集し、時系列ログとしてグループで収集できるようにしている。病名・病態出現時に同時に存在した病名・病態集合体も合わせて収集、記録した。構造化データの詳細については、ここでは触れないが、例えば手術オーダーに含まれる病名やDPC 病名などの集積、有害事象共通用語基準CTCAE v4 を用い検査結果の異常値を病態としてマッピングしてコード化している。このリアルタイム自然言語処理のアルゴリズムは古典的なルールベースのエンジンの派生に過ぎないが、大量の診療録を高速に処理することに主眼を置き、 Inmon が指摘した略語の問題を逆に捉え、略語こそ考え、正しく解釈することに主眼をおいて設計し、過剰に細分化される傾向のある形態素解析を行なわなかった。先行研究で得られた知見から陽性所見を優先、一部の陰性所見を除き否定、仮定、主語がことなるもの、時制として過去のものなどは除外するという前提で自然言語処理を設計した。また、実際の診療録は論文やサマリーと異なり断片的で、箇条書きや省略が多いことから、形態素解析を用いず、文字コードから大きな単位で切断を行なった。このことで過剰な単語の切断を行わず、最長一致による認識を優先した。

箇条書きへの対応

文頭の記号やナンバリングなど、箇条書きなど文章中のマクロ構造を大まかに認識し、文章をグループ化するルールベース処理を実装した。

文字種を利用した分かち書き

句読点、句点、改行を用いて文章を切り出しつつ、アルファベット、数値、ひらがな、カタカタ、漢字の文字種類で文章を細分化して処理を行なった。この時に、TMN 分類などアルファベットと数値の組みあわせによる記号などは例外的に連結させる処理を追加している。同様に「疑、症、障害、低下、上昇、異常、継続、陽性、陰性、後」などの後部接続、「左、右、慢性、急性、陳旧性、術後、両側」など前部接続、単位の一部などを考慮して切り出している。これら簡略化された文章切断は精度をもとめることなく実施され、その後の切断誤りを含め、ルールベースの修正処理を実施している。

辞書の規模

病名はICD10 対応標準病名マスターのサブセットを用い約２6000 病名とその索引 51000 を利用し独自に整備した略語辞書6300 を加えている。これらの病名に付随するICD コードの最初の１文字を参考にしつつ、文脈類推のためのカテゴライズを付加した。(表 1）（表1）カテゴライズの一覧ベクトル種別 1 ペースメーカー関連 2 心臓カテーテル関連 3 手術関連 4 乳がん関連 5 妊娠関連

(3)

6 病理所見関連 7 放射線検査関連 8 化学療法 9 エコー検査関連 10 歯科関連 11 免疫関係 12 抗菌剤、培養関係 13 内視鏡 14 感染症および寄生虫症 15 新生物 16 血液および造血器、免疫疾患 17 精神疾患 18 神経系 19 眼科疾患、耳鼻科疾患 20 循環器 21 呼吸器系 22 消化器系 23 皮膚疾患 24 骨格筋疾患、結合組織 25 尿路疾患 26 妊娠、分娩 27 周産期 28 先天奇形、染色体異常 29 症状、兆候、検査異常 30 損傷、中毒、外因 31 内分泌、代謝

略語処理

略語の多くは3 文字から 2 文字のアルファベットを中心とする文字列だが、同じ文字列で複数の全く異なった意味を持つ場合があり、書いた本人も時間経過とともに読めなくなる場合もある。自然言語処理の目標は他科の医師程度に略語を解釈することである。また略語から直接コード化せず、いったん漢字仮名交じり文である日本語に変換することで、2 バイト文字の羅列を一種の中間処理コードとして用いた。略語は、記載した医師の所属する診療科を考慮しつつ、先のカテゴライズを意味ベクトルとしてより文脈的に通る変換をおこなえるよう、一旦文章の終わりまでスキャンする2 パス方式で略語解釈を行った。運用4 年目での見直しで、さらに略語の後ろの文字種類によって重み付けを加える改良と、特定の文字列が続く場合の優先処理辞書の拡張を行っている。こうして、文脈を考慮しつつ略語を変換し、その結果を後続の文脈処理にも続けて適応する隠れマルコフモデルを活用した略語処理を行い、中間処理言語として冗長な日本語を軸に、最終的にICD10 コード付加を行った。

時制処理

「10 日前」や「25 歳のとき」などの表記に対して、患者基本情報などから時期を補完した。また、月日などの年号省略や、元号などの処理も同時に処理して、陽性所見判定に利用している。

電子カルテ記載の特殊性への対応

業務利用を目的としたため、利用中の富士通製 EG-MAIN GX に関連する処理も追加した。当該システムは検査結果をカルテにコピーアンドペーストした場合、単純な文字列としての保存ではなく、内部的には正常値範囲と検査コードを含むメタ情報も埋め込まれる。このタグを直接解釈すれば、精度が向上することはわかっていたが、応用性を考えメタ情報を完全に削除した文字列を対象として処理している。検査結果の羅列はアルファベットと数値の混在したセクションであり、時に略語処理に影響を及ぼすため、電子カルテで使われる検査マスターから検査名の文字列と数値や単位記載をキーにしてメタ情報を復活させる全処理を追加した。このことで、削除したメタ情報がなくとも文章中の検査結果記載エリアが特定され、文脈処理への影響を低減した。

中間処理結果および、訂正可能な UI の実装

について

陽性所見を利用するときに、その出所を合わせて保存しUI 等に利用するために、中間処理時に文章切り出しマーカーを埋設した。処理例のなかで<@x>で示されるタグで、これらは否定文や仮定文、将来の計画や本人以外の記載など、ルールベースにて中間処理結果が添削されても、オリジナル文章の位置がわかるようになっている。陽性所見はコードとともに、オリジナルの文章（あるいは文節）が保存され、利用時にマウスオーバーで表示する、あるいは説明根拠の文字列で利用するなどしている。（図1）

(4)

図1 病態タグと印象箇所表示

処理例

原文：

【既往歴】

# PAF 治療後 CHADS2vasc (HTN, age2, stroke2, vas1)6p

2022/1/21 PVI(HBA) no touch up, 1m rec+ 2022/09/24 SVC isolation CTI ablation #.SSS(ⅡⅢ)

AF 停止時 pause

2022/1/6 ECG Sinus arrest > 無症状であり reject 中 # anteroseptal OMI

013/05/05 PCI

#7 Nobori 2.75x24mm, 2.5x14mm 2023/06/13 PCI

#6 Nobori 3.0x28mm

※Nippon study clopidgrel 2013/11/05 中止 2023/2/11 CAG patant # HTN # mildAR/MR

HiPER NLP の中間結果：

【|既往歴|】<@33>| # | 発作性心房細動 <icd=I480>Paroxysmal atrial fibrillation,発作性心房細動</icd>| |治療後| |心房細動患者における脳卒中発症リスクの評価指標|2vasc| (|

高血圧<icd=I10>Essential (primary) hypertension,高血圧症</icd>|, |age|2|, |stroke|2|, |vas|1|)|6p|<@34>| |2022/01/21 既往| |肺静脈隔離術|(|高周波ホットバルーンアブレーション |) |no| |touch| |up|, |1m| |rec|+<@35>|

|2022/09/24 既往| |上大静脈| |隔離| |下大静脈三尖弁輪間峡部ライン| |アブレーション治療|<@36>| #|洞結節不全症候群<icd=I495>Sick sinus syndrome,洞不全症候群</icd>|(|ⅡⅢ|)<@37>|

|心房細動<icd=I489>Atrial fibrillation and atrial flutter, unspecified,心房細動</icd>|停止時|pause|<@38>| |2022/01/06 既往| |心電図| |Sinus| |arrest| > |無症状|であり|reject|中|<@39>| # |anteroseptal| | 陳旧性心筋梗塞 <icd=I252>Old myocardial infarction,陳旧性心筋梗塞</icd>|<@40>| |013|/|05|/|05| | 経皮的冠動脈インターベンション |<@41>| #|7| | 薬剤溶出型冠動脈ステント Nobori| |2.75x|24mm|, |2.5x|14mm|<@42>| |2023/06/13 既往| |経皮的冠動脈インターベンション |<@43>| #|6| | 薬剤溶出型冠動脈ステント Nobori| |3.0x|28mm|<@44>|

|2023/02/11 既往| |冠動脈造影| |patant|<@46>| # |高血圧<icd=I10>Essential (primary) hypertension,高血圧症</icd>|<@47>|

# | 軽度 | 大動脈弁逆流症 <icd=I351>Aortic (valve) insufficiency,大動脈弁逆流症</icd>|(|大動脈弁閉鎖不全症<icd=I351>Aortic (valve) insufficiency,大動脈弁逆流症</icd>|)|/|僧帽弁逆流症<icd=I340>Mitral (valve) insufficiency,僧帽弁逆流症</icd>|<@48>|

利用例

（1） DPC コーディングにおける副傷病名の記述漏れに関して、カルテ本文から候補を列挙する。（2）救急車で来院した身体疾患患者に、精神疾患が合併している場合、カルテ記載から抽出し自動的に精神神経科へのコンサルテーションリストにアップする。（3）介護保険法施行令第 2 条各号に規定する特定疾病を有する場合、 65 歳未満でも入院時総合評価加算対象に編入する。（4）陽性所見のカルテ全文検索機能の提供など

考察

時間軸を考慮しつつテキストから病名・症状を抽出し、国際疾病分類(ICD)に準拠する病名コードを付与し病名・症状を正規化する試みは、国立情報研究所の研究プロジェクトの一つ「MedNLP-2」(4)(5)に相当する。このプロジェクトは2014 年に始まり、2018 年には文章の合体から病名、病態をあらたに類推する機能を期待する「MEDNLP-3」（6）へと発展していく。一方、本HiPER NLP も時を同じく 2014 年に開始されたが、当初から単純な正規化にとどまらず否定文や仮定文などを除外し、現実に意味のある症

(5)

状、病態、病名の抽出に特化している。これは、2010 年に行った先行研究により、陽性所見を患者横断的に集計し、外来全体から新興感染を検知する症候群サーベイランスの成果が強く影響している。これまで多忙な日常臨床で作成されるカルテテキストは、誤変換と略語にあふれ低品質であるという指摘は繰り返されてきた。（7）逆に HiPER NLP は略語こそ高頻度かつ重要な内容が集積しているととらえ、略語を正確に翻訳することに注力した。そのためには、略語以外の文脈類推だけでなく、時制表現と検査名、TMN 分類表現に関して解釈するアルゴリズムが必要だった。またリアルワールドでの活用を強みと捉え、網羅的な収集しリアルタイムで処理するとともに、なぜその病態を抽出したのか根拠となる記載や事象を利用時に示す仕組みと、誤りを指摘できるUI を実装することで、効率の良いメンテナンスを実現した。

参考文献

[１] Inmon W H:Data Warehousing in the Healthcare Environment ,[http://inmoncif.com/registration/whitepape rs/DATA WAREHOUSING IN THE HEALTHCARE ENVIRONMENTR1.pdf], 2007 [２] 荒牧英治, 岡久太郎,矢野憲,若宮翔子,伊藤薫大規模医療コーパス開発に向けて、言語処理学会第 23 回年次大会発表論文集 1200-1203,2017 [３] 山本康仁,平成 22 年度厚生労働科学研究費補助金（健康安全・危機管理対策総合研究事業）「健康危機事象の早期探知システムの実用化に関する研究」分担研究報告書

[４] Eiji Aramaki, Mizuki Morita, Yoshinobu Kano and Tomoko Ohkuma:Overview of the NTCIR-11 MedNLP-2 Task,

[http://research.nii.ac.jp/ntcir/workshop/OnlineProceedin gs11/pdf/NTCIR/OVERVIEW/01-NTCIR11-OV-MEDNLP-AramakiE.pdf]

[５] NTCIR11 MedNLP 2 ， [http://mednlp.jp/ntcir11/index-ja.html] [６] NTCIR MEDNLPDOC(MEDNLP-3) ， [https://sites.google.com/site/mednlpdoc/] [７] 荒牧英治：【医療情報が紡ぐ『いのち・ヒト・夢』】 (夢)自然言語処理技術の最前線と医療応用の可能性自然言語処理の医療応用のこれまでとこれから 3 つの開発事例をもとに、医療情報学、医療情報学38（1）， 41−46，2018

形態素解析を行わない自然言語処理の医療応用