医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-06
医療ビッグデータの深い言語解析による
疾患サーベイランスへ向けて
Toward bigdata disease surveillance based on deep NLP analysis
荒牧英治
1Eiji Aramaki
11
奈良先端科学技術大学院大学
1NAIST
Abstract: With the recent rise in popularity and size of social media, there is a growing need for systems that can extract useful information from this amount of data. We have been addressing an issue of detecting influenza epidemics using social media. Although previous methods relied mainly on frequencies of the influenza related words, they suffered from the noisy words. To deal with this problem, this study proposes deeper Natural Language Processing (NLP) approach that focuses on the each person. This paper discus the basic feasibility of the proposed approach basded on our experiences.
背景
ここ数年,医療におけるビッグデータ活用の動き に期待が集まっている.特にWeb 工学や自然言語処 理といった情報処理分野では,比較的データがオー プンな Twitter や Facebook をはじめとした Social Network Service(以降,SNS)の利活用に注目が集ま り,感染症や危機事象の把握(以降,サーベイラン ス)などを目標した研究が多く発表されている[1-5]. こ れ ら に 共 通 す る 基 本 ア イ デ ア は ,「( ブ ロ グ や TwitterのつぶやきなどのSNS情報の)一つ一つの情 報の信頼性は低くとも,多くのデータを収集し,集 計することで,大まかな傾向としては正しい情報を 抽出できる」というものであり,これは他ドメイン のビッグデータアプローチとも共通するものである. この特徴に加え,SNS ベースの疾患サーベイランス は次の2つの利点があると言われている[6]. l 【 大 規 模 】 従来実現不可能であった大規模 な調査が可能となる.例えば,単語「インフ ルエンザ」を含んだ Twitter 上での発 言 は 平均 1,000 発言/日を超えている(2008 年 11 月).このデータのボリュームは,これ までの調査手法,例えば,本邦における医療 機関の定点観測の集計を圧倒する大規模な 情報収集を可能とする. l 【 即 時 性 】これまでにない早い速度での情 報収集が可能である.特に,早期発見が重視 (a) (b) 図1: (a) Twitter によるインフルエンザ・サーベイラ ンス・システム「インフルくん」と(b) Twitter によ る風邪話題度測定システム「カゼミル」
医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-06 される感染症の流行予測やバイオテロなど の 危 機 事 象においては即時性が重要な性質 である. 以上のような利点が期待され,米国では,実用化も 検討されているものの[7],本邦では応用事例が少な く,その実際の性質はよく知られていない.
材料:「インフルくん」運用の事例
このような背景の中,筆者の研究グループは,2011 年から Twitter を利用したインフルエンザ流行(図 1a)や風邪(図 1b)の現状把握に関するシステムを 稼働しつづけてきた.この結果,SNS によるサーベ イランスが,従来の報告と高い相関をみせること, さらに,この分野で最も有名なシステムの1つであ るGoogle Flu Trend[2]と統計的に差のない精度を上 げることを示し,その有効性を実証的に示した[1] (図2).さらに,新たに以下の長所と短所があるこ とが分かってきた. l 【災害時の頑健性】2011 年の東日本大震災 時には,被災地(福島県)からのインフルエ ンザ報告が途絶えた.そのような状況におい ても,SNS インフラは大きな影響を受けず, Twitter によるサーベイランスが可能であっ た(図 3).ただし,正解となるべき情報が 得られないため,この正確性については不明 である. l 【未知事例への脆弱性】2009 年 4 月 WHO はパンデミックについて懸念を表明した(図 3).この際の大量のニュース関連のリツイー トがノイズとなり,大きな影響を受けた.こ の影響は,Web 検索クエリによる Google Flu Trend と比べ遥かに大きい(図 4).この原因 は, Twitter がそもそもコミュニケーション ツールであり,非常時にニュースへの言及が 大量に発生すること(図 5),さらに,ノイ ズを防ぐための機械学習による分類も未知 の単語(Unseen word)を含むデータを解析 できなかったことに起因する.このような未 知のデータへの脆弱性は,提案手法だけでな く,あらゆる機械学習ベースの手法に共通し た弱点であると考えられる. この後者の未知事例への脆弱性という短所は,ビッ グデータアプローチの特徴の1つである「一つ一つ の情報の信頼性の低さ」を「データ量」で担保する という考え方が通用せず,信頼性のないデータを莫 大な量を集めてもバイアスが増大するだけである可 能性を示しており,実用上大きな問題となりうる.提案手法:深い言語処理によるアプ
ローチ
そこで,我々はこれまでの研究のようにデータを 発言頻度に注目して解析するだけなく,同時に,個々 の事例を深く解析し,精査することを抽出すること を目指す.具体的には,先のパンデミックの例では, 図 2: インフルエンザ流行の相対度数(シーズンの 最高値を1とした値).(a)2008-2009, (b)2012-2013. 灰色棒グラフは,感染症情報センターの報告,実線 はTwitter の発言頻度,破線は Google Flu Trend[2]の 値を示す.文献[8]より引用.図3: 2011 年 3 月の福島県での Twitter 発言頻度.文 献[6]より引用.
医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-06 「新型インフルエンザ」の症状を有し,かつ,2週 間以内に渡航歴がある人物だけを可視化するような 技術が望ましい.このような事例のみをリアルタイ ムに検出できれば抽出結果が,たとえ,1例であっ たとしても,政策決定や情報配信の際に一考される べき重要なデータである可能性がある. こ の よ う な 深 い 検 索 を 実 現 さ せ る た め に は , Twitter 発言から,イベントと時間情報を構造化した 形でデータベースに収載することが必要である.こ こでは,この形を「時系列構造化臨床データ」と呼 ぶ.この時系列構造化臨床データへの変換技術は, 文法的に記述された文章については,かねてより研 究されてきた.例えば,言語処理システム「TEXT 2TABLE」[9]は, 例えば,退院サマリといった比 較的整理された自然言語文章を時系列ごとに整理し, 表形式に可視化している(図6).このように,1つ の発言を1カウントとして集計せずに,個人に注目 してデータを集計することで,ニュースなどの拡散 による大量の発言の影響を受けにくく,かつ,「海外 渡航履歴あり」かつ「発熱」といった複雑なクエリ に該当する検索も可能となる. しかし,非文法的な表現に対し,症状を抽出する ことは難しく,Web で記述される症状表現が正確な 医学用語と乖離することも多い(表1).これに対応 するため,海外渡航などのアクション(入退院,移 動),医薬品(一般名),症状(MedDRA/J における Prefered Term)をアノテーションした Web 症状コー パスを構築している.現在,ブログや Twitter など SNS テキスト 2.1MB についてアノテーションを開始 した.なお,患者記述文章では,病歴のみならず, QOL と関連した情報も多い.これにについては,こ れを静岡分類[10]にて分類し,アノテーションを行 なっている.これらを含めて,今年度を目標にサー ビスを開始予定である.
まとめと今後の展望
これまでの Twitter などの SNS を用いたサーベイ ランスは,発言を集計することで大まかな傾向を捉 えるアプローチが主流であった.これは,平常時に おいては有効に機能するが,パンデミックなどの非 常事態においては,大量の未知データの影響を受け る恐れがある.そこで,発言単位でなく,個人単位 の病歴に注目した集計を試みる.これには,電子カ ルテの解析に用いられる深い解析が必要であり,そ のためのコーパス,アノテーションの枠組みを整備 している.今後,Web にて公開予定である. 図3.WHO による懸念の表明. 図4.2009 年パンデミック時のサーベイランス結果. 灰色棒グラフは,感染症情報センターの報告,実線 はTwitter の発言頻度,破線は Google Flu Trend[2]の 値を示す.文献[8]より引用.Twitter の発言頻度は膨 大なものとなっている.図 5: 通 常 流 行 時 ( epidemic) と パ ン デ ミ ッ ク 時 (pandemic)での「インフルエンザ」を含む Twitter 発言の内訳.
医療情報学会・人工知能学会 AIM 合同研究会資料 SIG-AIMED-001-06 (a) (b) 図6: TEXT2TABLE の入力となる退院サマリ文章(a) と表形式の解析結果(b). 表1: Web で見られる症状表現と医学用語の対応例. 文献[11]より.
参考文献
1. Aramaki, E., S. Maskawa, and M. Morita, Twitter
catches the flu: detecting influenza epidemics using Twitter, in EMNLP. 2011. p. 1568-1576.
2. Ginsberg, J., et al., Detecting influenza epidemics
using search engine query data. Nature, 2009. 457.
3. Hulth, A., G. Rydevik, and A. Linde, Web Queries as
a Source for Syndromic Surveillance. PLoS ONE,
2009. 4(2).
4. Paul, M. and M. Dredze. You Are What You Tweet:
Analysing Twitter for Public Health. in the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM). 2011.
5. Polgreen, P., et al., Using Internet Searches for
Influenza Surveillance. Clinical Infectious Diseases,
2009. 47(11): p. 1443–1448.
6. 荒牧英治, 増川佐知子, and 森田瑞樹, 文章分類 と疾患モデルの融合によるソーシャルメディア からの感染症把握. 自然言語処理, 2012. 19(5).
7. Thompson, H. National Geographic News. 2013 [cited 2015 9/21]; Available from:
http://news.nationalgeographic.com/news/2013/ 01/130110-google-twitter-track-flu-cases-health -science/.
8. Morita, M., S. Maskawa, and E. Aramaki.
Comparison between Social Media and Search Activity as Online Human Sensors for Detection of Influenza. in The 5th International Symposium on Languages in Biology and Medicine (LBM 2013).
2013.
9. Aramaki, E., et al. TEXT2TABLE: Medical Text
Summarization System Based on Named Entity Recognition and Modality Identification. in the Human Language Technology conference and the North American chapter of the Association for Computational Linguistics (HLT-NAACL2009) Workshop on BioNLP. 2009.
10. Yamaguchi, K., et al., Cancer patients' distresses and
inquiries: proposal of four-level classification based on consultation service and questionnaire survey..
Cancer Sci, 2007. 98(4): p. 612-616.
11. 荒牧英治, et al., 患者と医師が使う言葉の違い 〜闘病記の医学的な応用に向けて〜. 人工知能