Word2Vecを用いた不具合用語定義文の類似性評価

(1)

医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-006-02

02-01

Word2Vec を用いた不具合用語定義文の類似性評価

Evaluation Using Word2Vec of Similar Definitions of Terms in Medical Device

Adverse Events

谷川原綾子

1

_上杉正人

2

_横井英人

3

Ayako Yagahara

1

_{, Masahito Uesugi}

2

_{, and Hideto Yokoi}

3 1

_{北海道科学大学保健医療学部}

1

_{Faculty of Health Sciences, Hokkaido University of Science}

2

_{北海道情報大学医療情報学部医療情報学科}

2

_{Department of Medical Management and Informatics, Hokkaido Information University}

3

_{香川大学附属病院医療情報部}

3

_{Department of Medical Informatics, Kagawa University Hospital}

Abstract: The purpose of our study is to use Word2Vec to access the accuracy of the extraction of similar term definitions used in the terminology of Medical Device Adverse Events. In Word2Vec, a morphological analyzer, Mecab, was used to obtain training data with word segmentation from the Japanese version of Wikipedia. We compared the accuracy using two model architectures to produce a distributed representation of the words: continuous bag-of-words (CBOW) and Skip-gram. In addition, we compared the number of vector dimensions to 200, 300, 500, and 1,000 in each model. For accuracy evaluation, 125 term definition pairs of adverse events were extracted. The terms were acquired by separating each definition. Sentences were given vectors through the model by Word2Vec. We calculated the average vector value using the vectors of the terms in each definition sentence. Then, the cosine similarities of the pairs were calculated. As the gold standard, out of 125 pairs, 50 similar definition pairs and 75 other definitions were identified by three experts on medical device safety. We conducted an ROC analysis to evaluate the accuracy of the extraction of similar definition pairs. Comparing the accuracy of the learning model showed that AUC and the sensitivity of Skip-gram were higher than those of CBOW regardless of the number of the dimensions of the vector. However, the comparison revealed many false positives that had been extracted because the specificity of Skip-gram was lower than that of CBOW.

1 背景

診療中に医療機器の不具合(カテーテルの破損など)が生じた場合に，医療機関，もしくは医療機器製造企業が厚生労働省に医療機器不具合報告(以下，不具合報告)の提出が求められている．この不具合報告において，医療機器の不具合事象や，患者に与えた健康被害などの記載方法がフリーテキストであったため，事例のカテゴリー化や統計解析を行うことへの労力が多大なものであった．そこで，不具合報告に使用される用語の標準化のために，医療機器不具合用語集(以下，用語集)が平成 27 年 3 月に公開された[1]．この用語集は主に，医療機器の不具合事象を表現する「不具合用語」，人体への健康被害を表現する「健康被害用語」，加えて，医療機器を構成する「部品・構成品用語」から成り， 6000 を超える用語が収載されている．各用語には，定義文，同義語に加え，米国食品医薬品局(FDA)の医療機器不具合用語集と対応する用語が付与されている(図 1)．用語集の構築において，13 医療機器団体がそれぞれ専門に扱う 89 の医療機器に関する用語集を独立で構築された．そのため，我々はこの用語集のマッピングを行い，用語集の維持管理の効率化と不具合報告解析の利便性を向上させることを目指している．マッピングを行う際の問題点として，同義と考えられる用語の表記が用語集によって異なる場合が存在するが，不具合用語だけでも約 3500 語存在するため，人手による確認は多くの労力を要する．そこで我々はこれまでに，同義語の自動判別法の

(2)

医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-06-02 02-02 図1 医療機器不具合用語集の構成(概略図) 検討を行ってきた[2,3]．各用語に付与されている定義文を利用して，文字列の挿入，置換，削除回数から文章の類似性を評価する編集距離を用いて定義文の類似性から同義語の抽出を試みた．その結果，上記操作回数を検出し，同義もしくは，異義を判定できたのは全体の20％程度であり，抽出精度の向上のためには単語の意味を考慮した同義語の判定が可能な手法が求められた．そこで，単語をベクトル化して表現する手法である Word2Vec を用いて，不具合用語の定義文の類似性を評価することが有用であるのではないかと考えた．本研究では，用語集の精緻化に向けた類義語の自動検出を目的とし，Word2Vec を用いて不具合用語の定義文を対象とした類義語検出精度の評価を行った．

2 方法

2.1 解析データの抽出

本実験では，不具合用語を対象とし，不具合用語と用語に付与された定義文を抽出した．総当たりで定義文の組み合わせ(定義文対)を作成し，編集距離において同義語の判別が困難であった定義文対 593592 の中から任意の 125 対を抽出した．

2.2 Word2Vec による類似文の抽出実験

Word2Vec の学習データには，Wikipedia 日本語版 (2018 年 6 月 29 日ダウンロード)を使用し，形態素解析器Mecab にて分かち書きを行った．Mecab の辞書にはmecab-ipadic-NEologd を使用した．本研究では，単語の分散表現を作成するためのモデルとして， continuous bag-of-words (CBOW)と Skip-gram を使用した．加えて，それぞれのモデルにおけるベクトルの次元数についても比較するために，200，300，500， 1000 と次元数を変化させた．ここまでの作業は Python のライブラリ gensim を用いた．次に，生成された分散表現モデルを用いて各不具合用語定義文にベクトルの付与を行った．不具合用語の定義文をMecab にて分かち書きを行い，各単語にベクトルを付与した．その後，文中の単語のベクトルの平均値を算出し，これを文ベクトルとした．定義文対の類似指標として，文ベクトルのコサイン類似度を算出した．

2.3 評価

Gold standard として，医療機器企業に勤務する医療機器安全対策の専門家3 名が 125 の定義文対から類似と考えられる組み合わせを抽出し，2 名以上が類似と回答した 50 の定義文対を類似，そうでない 75 の定義文対を非類似とした．類似定義文の抽出精度の評価としてReceiver operating characteristic (ROC) 解析を実施し，Area under curve (AUC)を算出した．また，ROC 曲線から Youden Index によりカットオフ値を同定し，感度，特異度を算出した．ROC 解析は JMP13.2.1 を使用した．

3 結果

ROC 曲線解析の結果を図 2 に，感度，特異度，AUC の値を表1 に示す．モデルを比較した場合，Skip-gram の方がベクトル次元数に関わらず感度は高かったが，特異度は低かった．また，Skip-gram の方が AUC はわずかに大きかった．ベクトル次元数はSkip-gram にてベクトル次元数を500 とした場合に，最も感度が高くなったが，特異度は最も低かった．表2 に Skip-gram(ベクトル次元数 500)を利用した定義文判定例を示す．図2 ROC 曲線 (凡例はモデルとベクトルの次元数の組み合わせを示す)

(3)

医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-06-02 02-03 表1 各手法における抽出精度とカットオフ値モデル次元数感度特異度 AUC カットオフ値 CBOW 200 0.6200 0.7067 0.6901 0.9313 300 0.6400 0.7067 0.6901 0.9213 500 0.6400 0.6933 0.6912 0.9129 1000 0.6400 0.7067 0.6885 0.9051 Skip-gram 200 0.8600 0.4800 0.7027 0.9335 300 0.8600 0.4800 0.7029 0.9221 500 0.9000 0.4533 0.7059 0.8925 1000 0.8800 0.4667 0.7061 0.8795 表2 Skip-gram(ベクトルの次元数 500)の場合の定義文対の判定例 Gold Standard Word2Vec 不具合用語の 定義文対 (カッコ内は不具合用語) コサイン 類似度類似類似・間違った部位を穿刺すること．(誤穿刺) ・目的以外の部位への穿刺．(使用) 0.9311 非類似 類似・一次包装から保存液が漏れた状態 (一次包装不良) ・加湿槽などの液体充填部に亀裂が生じた時に液体がそこから漏れること．(故障) 0.9177 類似非類似・チューブ自体もしくは連結部分から液が漏れる(流路液漏れ) ・液体がもれること．(機械異常) 0.8300 非類似 非類似・血液が飛び散ること．(汚染) ・菌，血液，薬剤の影響が残ること (その他の事象) 0.8727

4 考察

不具合用語の類似定義文の抽出精度をモデルとベクトル次元数の観点から比較した．その結果，Skip-gram において，ベクトルの次元数が 500 の時に感度が 0.9 と高い結果となった．用語集のマッピングにおいて，感度が高い方がマッピングの網羅性が向上する．そのため，モデルとしては Skip-gram の方が有用であると考える．しかし，特異度が0.45 と最低の結果となったため，類似でない定義文対も多く含まれていることが問題であると考える．Gold Standard にて非類似とされているが，Word2Vec で類似と判定された定義文の特徴として，表2 で示すように，一方の定義文には不具合が生じた対象が具体的に記載されている場合や，不具合の事象を生じさせた部品や物質が異なっている場合が見受けられた．これを解決するためには，これまで検討を進めてきた編集距離を応用し，文字列の一致と不一致箇所を検出して評価することが必要であると考える．特異度の向上に向けて，今後は Skipgram を用いた Word2Vec と編集距離の併用を踏まえた類似文の抽出方法を検討していきたいと考えている．

5 結語

類義語の自動検出を目的として，Word2Vec を用いて不具合用語を対象とした類義語検出の精度を評価した結果，学習モデルは Skip-gram の方が類似語検出の感度が 0.9 と高く有用な手法であることが明らかとなった．しかし，偽陽性の割合が高いため，今後は特異度を向上させるための手法の検討が必要とされた．

謝辞

本研究は医薬品等規制調和・評価研究事業「医療機器の不具合用語集の維持管理及び利活用のあり方に関する研究」の助成を受けたものである．

参考文献

[１] 一般社団法人日本医療機器産業連合会: 医療機器不具合用語集の活用について ,2015. [http://www.jfmda.gr.jp/fuguai/ (cited 2018-Nov-9)]. [２] 谷川原綾子, 辻真太朗, 福田晋久, 他. 医療機器不具合用語集のハンドリングツール構築に向けた同義語候補の同定に関する検討. 第 20 回日本医療情報学会春季学術大会抄録集. pp. 142-143, (2016) [３] 谷川原綾子，西本尚樹，横井英人，他. 編集距離を用いた同義語同定手法の検討. 第 21 回日本医療情報学会春季学術大会抄録集, pp. 120-121, (2017)

Word2Vecを用いた不具合用語定義文の類似性評価