医療ビッグデータの深い言語解析による疾患サーベイランスへ向けて

(1)

医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-06

医療ビッグデータの深い言語解析による

疾患サーベイランスへ向けて

Toward bigdata disease surveillance based on deep NLP analysis

荒牧英治

1

Eiji Aramaki

1

_{奈良先端科学技術大学院大学}

1

_NAIST

Abstract: With the recent rise in popularity and size of social media, there is a growing need for systems that can extract useful information from this amount of data. We have been addressing an issue of detecting influenza epidemics using social media. Although previous methods relied mainly on frequencies of the influenza related words, they suffered from the noisy words. To deal with this problem, this study proposes deeper Natural Language Processing (NLP) approach that focuses on the each person. This paper discus the basic feasibility of the proposed approach basded on our experiences.

背景

ここ数年，医療におけるビッグデータ活用の動きに期待が集まっている．特にWeb 工学や自然言語処理といった情報処理分野では，比較的データがオープンな Twitter や Facebook をはじめとした Social Network Service（以降，SNS）の利活用に注目が集まり，感染症や危機事象の把握（以降，サーベイランス）などを目標した研究が多く発表されている[1-5]．これらに共通する基本アイデアは，「（ブログや TwitterのつぶやきなどのSNS情報の）一つ一つの情報の信頼性は低くとも，多くのデータを収集し，集計することで，大まかな傾向としては正しい情報を抽出できる」というものであり，これは他ドメインのビッグデータアプローチとも共通するものである．この特徴に加え，SNS ベースの疾患サーベイランスは次の２つの利点があると言われている[6]． l 【大規模】従来実現不可能であった大規模な調査が可能となる．例えば，単語「インフルエンザ」を含んだ Twitter 上での発言は平均 1,000 発言/日を超えている（2008 年 11 月）．このデータのボリュームは，これまでの調査手法，例えば，本邦における医療機関の定点観測の集計を圧倒する大規模な情報収集を可能とする． l 【即時性】これまでにない早い速度での情報収集が可能である．特に，早期発見が重視 (a) (b) 図1: (a) Twitter によるインフルエンザ・サーベイランス・システム「インフルくん」と(b) Twitter による風邪話題度測定システム「カゼミル」

(2)

医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-06 される感染症の流行予測やバイオテロなどの危機事象においては即時性が重要な性質である. 以上のような利点が期待され，米国では，実用化も検討されているものの[7]，本邦では応用事例が少なく，その実際の性質はよく知られていない．

材料：「インフルくん」運用の事例

このような背景の中，筆者の研究グループは，2011 年から Twitter を利用したインフルエンザ流行（図 1a）や風邪（図 1b）の現状把握に関するシステムを稼働しつづけてきた．この結果，SNS によるサーベイランスが，従来の報告と高い相関をみせること，さらに，この分野で最も有名なシステムの１つであるGoogle Flu Trend[2]と統計的に差のない精度を上げることを示し，その有効性を実証的に示した[1] （図2）．さらに，新たに以下の長所と短所があることが分かってきた． l 【災害時の頑健性】2011 年の東日本大震災時には，被災地（福島県）からのインフルエンザ報告が途絶えた．そのような状況においても，SNS インフラは大きな影響を受けず， Twitter によるサーベイランスが可能であった（図 3）．ただし，正解となるべき情報が得られないため，この正確性については不明である． l 【未知事例への脆弱性】2009 年 4 月 WHO はパンデミックについて懸念を表明した（図 3）．この際の大量のニュース関連のリツイートがノイズとなり，大きな影響を受けた．この影響は，Web 検索クエリによる Google Flu Trend と比べ遥かに大きい（図 4）．この原因は， Twitter がそもそもコミュニケーションツールであり，非常時にニュースへの言及が大量に発生すること（図 5），さらに，ノイズを防ぐための機械学習による分類も未知の単語（Unseen word）を含むデータを解析できなかったことに起因する．このような未知のデータへの脆弱性は，提案手法だけでなく，あらゆる機械学習ベースの手法に共通した弱点であると考えられる．この後者の未知事例への脆弱性という短所は，ビッグデータアプローチの特徴の１つである「一つ一つの情報の信頼性の低さ」を「データ量」で担保するという考え方が通用せず，信頼性のないデータを莫大な量を集めてもバイアスが増大するだけである可能性を示しており，実用上大きな問題となりうる．

提案手法：深い言語処理によるアプ

ローチ

そこで，我々はこれまでの研究のようにデータを発言頻度に注目して解析するだけなく，同時に，個々の事例を深く解析し，精査することを抽出することを目指す．具体的には，先のパンデミックの例では，図 2: インフルエンザ流行の相対度数（シーズンの最高値を１とした値）．（a）2008-2009, (b)2012-2013．灰色棒グラフは，感染症情報センターの報告，実線はTwitter の発言頻度，破線は Google Flu Trend[2]の値を示す．文献[8]より引用．

図3: 2011 年 3 月の福島県での Twitter 発言頻度．文献[6]より引用．

(3)

医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-06 「新型インフルエンザ」の症状を有し，かつ，２週間以内に渡航歴がある人物だけを可視化するような技術が望ましい．このような事例のみをリアルタイムに検出できれば抽出結果が，たとえ，１例であったとしても，政策決定や情報配信の際に一考されるべき重要なデータである可能性がある．このような深い検索を実現させるためには， Twitter 発言から，イベントと時間情報を構造化した形でデータベースに収載することが必要である．ここでは，この形を「時系列構造化臨床データ」と呼ぶ．この時系列構造化臨床データへの変換技術は，文法的に記述された文章については，かねてより研究されてきた．例えば，言語処理システム「TEXT ２TABLE」[9]は，例えば，退院サマリといった比較的整理された自然言語文章を時系列ごとに整理し，表形式に可視化している（図6）．このように，１つの発言を１カウントとして集計せずに，個人に注目してデータを集計することで，ニュースなどの拡散による大量の発言の影響を受けにくく，かつ，「海外渡航履歴あり」かつ「発熱」といった複雑なクエリに該当する検索も可能となる．しかし，非文法的な表現に対し，症状を抽出することは難しく，Web で記述される症状表現が正確な医学用語と乖離することも多い（表1）．これに対応するため，海外渡航などのアクション（入退院，移動），医薬品（一般名），症状（MedDRA／J における Prefered Term）をアノテーションした Web 症状コーパスを構築している．現在，ブログや Twitter など SNS テキスト 2.1MB についてアノテーションを開始した．なお，患者記述文章では，病歴のみならず， QOL と関連した情報も多い．これにについては，これを静岡分類[10]にて分類し，アノテーションを行なっている．これらを含めて，今年度を目標にサービスを開始予定である．

まとめと今後の展望

これまでの Twitter などの SNS を用いたサーベイランスは，発言を集計することで大まかな傾向を捉えるアプローチが主流であった．これは，平常時においては有効に機能するが，パンデミックなどの非常事態においては，大量の未知データの影響を受ける恐れがある．そこで，発言単位でなく，個人単位の病歴に注目した集計を試みる．これには，電子カルテの解析に用いられる深い解析が必要であり，そのためのコーパス，アノテーションの枠組みを整備している．今後，Web にて公開予定である．図3．WHO による懸念の表明．図4．2009 年パンデミック時のサーベイランス結果．灰色棒グラフは，感染症情報センターの報告，実線はTwitter の発言頻度，破線は Google Flu Trend[2]の値を示す．文献[8]より引用．Twitter の発言頻度は膨大なものとなっている．

図 5: 通常流行時（ epidemic）とパンデミック時（pandemic）での「インフルエンザ」を含む Twitter 発言の内訳．

(4)

医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-06 (a) (b) 図6: TEXT2TABLE の入力となる退院サマリ文章(a) と表形式の解析結果（b）．表1: Web で見られる症状表現と医学用語の対応例．文献[11]より．

参考文献

1. Aramaki, E., S. Maskawa, and M. Morita, Twitter

catches the flu: detecting influenza epidemics using Twitter, in EMNLP. 2011. p. 1568-1576.

2. Ginsberg, J., et al., Detecting influenza epidemics

using search engine query data. Nature, 2009. 457.

3. Hulth, A., G. Rydevik, and A. Linde, Web Queries as

a Source for Syndromic Surveillance. PLoS ONE,

2009. 4(2).

4. Paul, M. and M. Dredze. You Are What You Tweet:

Analysing Twitter for Public Health. in the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM). 2011.

5. Polgreen, P., et al., Using Internet Searches for

Influenza Surveillance. Clinical Infectious Diseases,

2009. 47(11): p. 1443–1448.

6. 荒牧英治, 増川佐知子, and 森田瑞樹, 文章分類と疾患モデルの融合によるソーシャルメディアからの感染症把握. 自然言語処理, 2012. 19(5).

7. Thompson, H. National Geographic News. 2013 [cited 2015 9/21]; Available from:

http://news.nationalgeographic.com/news/2013/ 01/130110-google-twitter-track-flu-cases-health -science/.

8. Morita, M., S. Maskawa, and E. Aramaki.

Comparison between Social Media and Search Activity as Online Human Sensors for Detection of Influenza. in The 5th International Symposium on Languages in Biology and Medicine (LBM 2013).

2013.

9. Aramaki, E., et al. TEXT2TABLE: Medical Text

Summarization System Based on Named Entity Recognition and Modality Identification. in the Human Language Technology conference and the North American chapter of the Association for Computational Linguistics (HLT-NAACL2009) Workshop on BioNLP. 2009.

10. Yamaguchi, K., et al., Cancer patients' distresses and

inquiries: proposal of four-level classification based on consultation service and questionnaire survey..

Cancer Sci, 2007. 98(4): p. 612-616.

11. 荒牧英治, et al., 患者と医師が使う言葉の違い 〜闘病記の医学的な応用に向けて〜. 人工知能