ビッグデータがもたらす超情報社会 -すべてを視る情報処理技術：基盤から応用まで-：6．ソーシャルビッグデータ利活用のための自然言語処理

全文

(1)特集. ビッグデータがもたらす超情報社会 ─すべてを視る情報処理技術：基盤から応用まで─. 6 ソーシャルビッグデータ利活用のための自然言語処理基応専般. 鍜治伸裕吉永直樹（東京大学／情報通信研究機構）. ソーシャルメディアが生み出す超大規模テキストデータソーシャルメディアとは，個人による自由な情報発信や知人との情報共有など，人と人との社会的つながりを介した情報発信および拡散を特徴とするインターネットメディアの総称である．たとえば，インターネットが社会に浸透し始めた 2000 年頃に流行した電子掲示板や日記サイト（ブログ）などは，ソーシャルメディアの先駆け的な存在である．最近では，Twitter ☆ 1（図 -1）や Weibo のような短文投稿サイト（マイクロブログ），Facebook ☆ 2 のよ. ディアを介して発信されるテキストデータがいかに. うな交流サイト，Vine ☆ 3 や Instagram ☆ 4 のよう. 巨大であるかが分かる．さらに，スマートフォンや. な動画像投稿サイトなどが有名である．. タブレット端末の普及により，人々は自身の意見や. 現在，ソーシャルメディアは爆発的な勢いで拡. 体験を「その場」で「即座」に発信・共有するよう. 大を続け，マスメディアを補完する新しい生活イ. になっており☆ 7，投稿が内包する情報の実世界空. ンフラとしての地位を確立しつつある．たとえば. 間に対する網羅性・リアルタイム性はこれまでにな. Twitter 社の公式発表☆ 5 によると，2015 年 3 月末. く高まっている．. 時点で Twitter がサポートしている言語数は英語や. 3 億人に到達しているとされる．こうした数字から. ソーシャルテキストの利活用. も，ソーシャルメディアが世界中の人々に利用され. このように現在大量に生成されているソーシャル. ており，現代社会に深く根付いていることをうかが. テキストデータには，これまで従来メディアからは. い知ることができる．. 発信されてこなかった貴重な情報が大量に眠ってい. こうしたソーシャルメディアからは，日々大量. る．そのため，そうした情報を計算機を用いて検索・. 日本語など 30 を超え，月間アクティブユーザ数は. のテキストデータが発信されている．2013 年の. ☆1. によると，Twitter を介し. ☆2. て発信された日本語の投稿の総数は，1 カ月あたり. ☆4. 約 18 億にものぼる．新聞記事の電子版 1 年分がお. ☆6. よそ 100 万文であることを考えると，ソーシャルメ. ☆7. Semiocast 社の調査. 982. 図 -1 ソーシャルメディアサービス Twitter のスナップショット. ☆6. 情報処理 Vol.56 No.10 Oct. 2015. ☆3 ☆5. https://www.twitter.com/ https://www.facebook.com/ https://vine.co/ https://instagram.com/ https://about.twitter.com/company http://www.technologyreview.com/graphiti/522376/the-manytongues-of-twitter/ https://biz.twitter.com/ja/whos-twitter.

(2) 6 ソーシャルビッグデータ利活用のための自然言語処理. 理解・抽出・整理し，分析することによって，さまざまな目的に利活用しようとする試みが行われている．. ✜✜世論の分析. 誰もが自由に情報発信できるソーシャルメディアにおいては，人々の個人的な意見や感情に関する投稿が多数見られる．これは，人々の内面という通常であれば観測不可能なものが，テキストを介して表出化し，ソーシャルメディア上に蓄積されていると見ることができる．こうした現象は旧来メディアにはまったく見られなかったものであり，ソーシャルメディアに特有のものである．ソーシャルテキストにこのような特徴が見られることから，そこから「顧客の声」を自動抽出してビ. 図 -2 Twitter の投稿からインフルエンザの流行状況を分析する ☆9 Web サービス「インフルくん」. ジネスに活用しようとする動きが見られる．たとえば，ソーシャルテキストにはさまざまな製品やサー. を目撃した人がその内容をその場で即座に投稿する. ビスに対する評判や要望などが書き込まれているの. など，マスメディアと比べて格段に速報性の高い情. で，それらの内容を分析することができれば，新製. 報が発信可能になっている．. 品の開発やサービスの改善に役立てることができる. そこで，ソーシャルテキストをセンサ情報の代替. と考えられる．また，大量のソーシャルテキストか. として活用する試みが近年増加している．たとえば，. ら製品やサービスの知名度を把握することができれ. ゲリラ豪雨や竜巻といった現在の技術では正確な予. ば，これまでに行った広告の効果を測定することな. 測が難しい自然現象や，突発的な交通事故や事件の. ども可能になると期待できる．. 発生を，ソーシャルテキストの内容を解析すること. ✜✜実世界イベントの即時的検知. によって検知し，近隣にいる人々に知らせる試み☆ 10 などが進められている．また，インフルエンザなど. 一方，営利目的の利用にとどまらず，ソーシャル. の疾病の流行をソーシャルテキストから推定する試. メディアを介して発信されている国民の意見を分析. みも行われている（図 -2）．インフルエンザなどの. し，その結果を政策決定などの高度な意思決定に利. 流行状況に関しては，国による統計情報が発表され. 用することも期待されている．たとえば，憲法改正. ているものの速報性が乏しいため，それを補完する. や選挙権年齢引き下げといった社会的関心事に対し. 役割が期待されている．. て，反対意見と賛成意見を持っている国民がどの程. きれば，それらの政策の策定を行う上で貴重な判断. ソーシャルテキストの利活用を実現する自然言語処理技術. 材料となると考えられる．関連して，ソーシャルメ. これまで述べたように，ソーシャメルディアを介. ディアの投稿を元に，国政選挙の当選者数や論点な. して発信される情報を分析する意義は大きいが，テ. 度の割合で分布していて，どのような理由から反対もしくは賛成しているのかなどを分析することがで. ☆8. どを予測・分析する試み. も行われている．. キストで発信される情報は構造化されていないため，. さて，ソーシャルメディアから発信される情報の. ☆8. リアルタイム性に注目すると，たとえば，交通事故. ☆ 10. ☆9. http://www.asahi.com/special/billiomedia/ http://mednlp.jp/influ/ http://disaana.jp/. 情報処理 Vol.56 No.10 Oct. 2015. 983.

(3) 特集. ビッグデータがもたらす超情報社会 ─すべてを視る情報処理技術：基盤から応用まで─. 図 -3 基礎言語解析のパイプライン. 多くの情報はテキスト中に言わば「埋もれた」状態にある．これは，同じ意味内容を記述するのに自然言語ではさまざまな表現が可能なためである．投稿内容を理解し，内包する情報を検索可能にするには，これまで自然言語処理で広く研究されてきた形態素解析や係り受け解析などの基礎言語解析が有効である．また，基礎言語解析を通して得られた情報から有用な情報を抽出・整理する手段としては，評判分析. ☆ 11. 図 -4 Twitter のトレンド視覚化. 技術，投稿者の性別・年代・居住地といった属性分析，投稿を現実世界の時空間・事物（エンティティ）. ースト検知を行えば，ソーシャルテキストストリー. に紐付ける投稿位置推定やエンティティリンキング. ムにおけるトレンド（話題語）を捉えることが可能. などの諸技術が用いられる．以下で，これらの技術. である．また，特定のトピック（語）に関する投稿. について概説する．. を把握するのに，その語の共起語をタグクラウドで. ✜✜投稿内容の分析. ソーシャルテキストを形態素解析するに際して. ソーシャルテキストの投稿内容の分析では，まず. は，口語調のくだけた表現が解析誤りを引き起こす. 個別のソーシャルメディア特有の前処理を行ったの. ことが知られている．ただ，既存の日本語形態素解. ち，形態素解析，係り受け解析，格解析といった基. 析器の多くは辞書を基本とした設計になっており，. 礎言語解析（図 -3）を用いて内容を標準化し，そ. Wikipedia などを利用して新語を増補した辞書☆ 12. の後，評判分析など具体的な分析を行う．. を用いたり，辞書項目を適宜追加することで，解析. 前処理では，たとえばブログであれば HTML タ. 結果をユーザレベルで改善していくことが可能であ. グの除去，Twitter であれば末尾のハッシュタグや. る．辞書だけでは対応が難しい，くだけた表現の解. URL などの削除を行い，その後，全角半角変換な. 析についてはのちほど触れる．. ど簡単な正規化を行ったのち，最終的に句点などを手がかりに基礎言語解析の処理単位である文に分割. 984. 可視化することもしばしば行われる（図 -4 下）．. ■■ 構文解析（係り受け解析）. ソーシャルメディアでは（話題語など）興味の. する．前処理は実際には，後段の処理より遅くなら. ある事物に関して投稿を絞り込んだとしても，依. ないよう留意しつつ，後段で用いる基礎言語解析ツ. 然，人が処理できない量の投稿が存在する場合も多. ールの特性も考慮して作り込む必要がある．. い．そのような場合，構文解析以上の深い言語解析. 形態素解析では単語分割，品詞付与，見出し語化. ☆ 11. を行う．形態素解析後，たとえば名詞に着目してバ. ☆ 12. 情報処理 Vol.56 No.10 Oct. 2015. http://www.lab-kadokawa.com/release/detail.php?id=0003 より引用 https://github.com/neologd/.

(4) 6 ソーシャルビッグデータ利活用のための自然言語処理. を行い，人の代わりに計算機にテキストを読ませることで，内容を集約することが有用である．たとえば，話題語（例 : 安倍首相）と係り受け関係にある動詞（例 : 発言する，訪問する）に注目すれば，その事物に関するイベントの推移を俯瞰することが可能となる．なお日本語の構文解析では，応用で使い. 図 -5 KNP による格・照応解析. やすく直感的な文節を単位とした文節間の係り受け解析が主に用いられる．. 現段階では，格・照応解析といった意味解析はソ. 係り受け解析では，問題を解くために係り元と係. ーシャルテキストを解析するには精度・速度の両面. り先の文節の組合せを考慮する必要があり，形態素. で課題があるが，低頻度のロングテールの事象にリ. 解析の辞書のような，一般ユーザが手軽に解析処理. ーチし，ソーシャルテキストのビッグデータとして. に介入できる枠組みを提供することが難しい．その. の価値を高めるためには欠かせない技術であり，今. ため，解析結果を利用する際には，解析誤りの傾向. 後注力していくべき最重要技術である．. に対する配慮が必要となる．ソーシャルテキストの係り受け解析で特徴的に見られる解析誤りとしては，. ■■ 評判分析. ソーシャルテキストを世論の分析に活用するため. 前段の処理（文分割や形態素解析）に起因する誤り. の技術として，テキストに記述されている評判情報. と，助詞の欠落など機能語の省略に起因する誤りが. や意見情報を自動分析する手法が研究されている．. 挙げられる．特に後者は，助詞が文節区切りの同定. そうしたテキスト解析技術は，Sentiment Analysis. のみならず，係り先の同定でも手がかりとなること. （感情分析，評判分析）と称され，2000 年初頭から. から，その影響が大きい．. 盛んに研究が行われている．. さらに，係り受け解析では，文節（あるいは構成. 評判分析の研究が盛んになるきっかけを作ったの. する単語）間の組合せを手がかりとして考慮する必. は，2002 年に自然言語処理分野のトップ国際会議. 要があることから，形態素解析と比べて解析速度が. ACL ☆ 16 と EMNLP ☆ 17 で独立に発表された 2 本. 桁違いに遅くなる場合が多い．そのため，以前はソ. の論文である．いずれの論文も，製品やサービスに. ーシャルテキストのような超大規模テキストを実用. 対する評判が記述されたテキストを扱うための技術. 的な速度で解析するのは困難であった．現在は東大. が当時の自然言語処理には欠落していたという問題. の研究グループが開発する J.DepP ☆ 13 や奈良先端. を指摘するとともに，レビュー文書を肯定的か否定. 大の研究グループで開発され，近年高速化が施され. 的かいずれかに自動分類する手法を提案している．. た CaboCha ☆ 14 など，解析の精度と速度を両立した. 以降，これらの研究に触発された論文が次々と発表. 係り受け解析器もあるので，積極的に活用されたい．. されるようになり，2004 年と 2006 年には評判分析. ■■ 意味解析（格解析・照応解析）. を専門に扱う国際ワークショップが開催されるなど，. ソーシャルメディアでも特にマイクロブログにお. 評判分析は自然言語処理の一分野としての地位を確. いては，投稿が口語調で一文が短く，語の省略も起. 立して現在に至っている．. きやすいため，内容を正確に読み取るには格解析や. 初期の評判分析の研究は，テキスト（レビュー文. 照応解析など，さらに深い基礎言語解析を行う必. 書）の 2 値分類問題（否定と肯定）を取り扱い，そ. 要がある．図 -5 は，日本語構文・格・照応解析シ. れを教師有り学習を用いて解くというものであった．. ステム KNP. ☆ 15. による文の解析例であり，「太郎」. がケーキを買ったことや，「ケーキ」がおいしいことが読み取れている．. ☆ 13 ☆ 14 ☆ 15 ☆ 16 ☆ 17. http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jdepp/ http://taku910.github.io/cabocha/ http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP http://www.aclweb.org/ http://www.cs.jhu.edu/~yarowsky/sigdat.html. 情報処理 Vol.56 No.10 Oct. 2015. 985.

(5) 特集. ビッグデータがもたらす超情報社会 ─すべてを視る情報処理技術：基盤から応用まで─. 従来より（マイクロ）ブログを対象として書き手の性別や年代を推定する研究が広く行われており，人による推定を上回る精度での自動推定が可能となっている．推定の手がかりには，主に投稿中の語句が利用されるが，テキストに表出する（人が読み取れる）性・年齢と生物学的な性・年齢との間には齟齬があるとの報告もあり，投稿のみを手がかりとした手法には限界がある．今後はユーザが投稿した写真図 -6 英語の評価表現辞書 SentiWordNet. や友人関係にあるユーザの属性など，幅広い手がかりを活用した手法の開発が望まれる．. そして，その後，肯否定に加えて中立というカテゴ. 一方で，（特に）マイクロブログの投稿では，ユ. リを導入した 3 値分類問題や，連続量で表現された. ーザの生活スタイルなど細かい粒度の行動が読み取. 肯否定の程度を推定する回帰問題など，より複雑な. れることから，投稿内容からユーザの居住地や職業. タスクが提案されている．また，評判分析を分類問. を推定する研究も広く行われている．. 題や回帰問題として扱うのではなく，テキストからいう，情報抽出の一種として捉える研究も多く見ら. ✜✜投稿を実世界に紐付ける技術. れる．. タイム性に着目する場合，投稿を実世界の時空間位. 評判分析の研究が盛り上がると同時に，モデルの. 置に紐付けることは，情報を利活用する上できわめ. 学習に必要なアノテーション付きコーパスや評価表. て重要な課題となる．同時に，投稿が実世界のどの. 現辞書といった，言語資源を整備する試みも行われ. ような事物（商品や施設）に関して言及しているの. ている．特に，これらの言語資源を（半）自動構築. か明らかにすることも，重要な課題となる．. 製品の評判に関する構造化された情報を抽出すると. する研究が盛んであり，ブートストラップ法や語彙ネットワークに基づく方法など，多くの手法が研究. ■■ 時空間位置への紐付け. ソーシャルメディアで，ユーザ自身が投稿に現在. されている．こうした研究成果の一部はすでに公開. 位置を付与することはまれなので，投稿内容からユ. されているものもある．英語における代表的な言語. ーザの位置を推定する手法が検討されている．この. 資源としては，たとえば意味辞書 WordNet を拡張. タスクは前述の居住地推定と似ているが，より細か. ☆ 18. （図 -6）がある．また，日. い粒度で位置を推定することが期待される一方，推. 本語資源についても，東大☆ 19 や東工大☆ 20 の研究. 定に利用できる手がかりが少なく，より難しいタス. グループが開発，公開しているものが存在する．. クとなっている．Twitter で位置情報（geotag）が. した SentiWordNet. ✜✜投稿者の属性分析. 付与された投稿の位置を推定する場合，数十 km レベルの誤差が生じるなど，ピンポイントの推定はき. ソーシャルメディアユーザの性別や年代，居住地や. わめて困難となっている．. 職業などの属性を（プロフィールや投稿内容などから）. そもそも，ユーザは必ずしも現在位置と関係のあ. 推定することで，投稿内容を多様な側面から分析す. る投稿を行うとは限らないため，位置情報が付与さ. ることができるようになる．たとえば，世論分析では. れた投稿すべてを学習／評価用データとすること自. 性別や世代間での意見の違いを，また感染症の分. 体に問題があるように思われる．少なくとも評価デ. 析では患者の地理的分布を把握することができる．ソーシャルメディアユーザの性別や年代については，. 986. ソーシャルメディアから投稿される情報のリアル. 情報処理 Vol.56 No.10 Oct. 2015. ☆ 18 ☆ 19 ☆ 20. http://sentiwordnet.isti.cnr.it/ http://www.tkl.iis.u-tokyo.ac.jp/~kaji/polardic/ http://www.lr.pi.titech.ac.jp/~takamura/pndic_en.html.

(6) 6 ソーシャルビッグデータ利活用のための自然言語処理. ータについては，たとえば，東北大の研究グループが進めているように（具体的な）場所を参照する表現を含む投稿☆ 21 に絞るなどするのが適切であろう．空間位置と同様に，ユーザは必ずしもリアルタイム性のある（投稿時刻と同期する行動・意見を含む）投稿を行うとは限らない．投稿内容には過去の行動や未来の予定のほか，願望や仮定なども含まれる．これについては，疾病の流行分析など即自的検知が重要となるタスクについて，その重要性が確認されている．関連して，流言・デマ情報を検知する手法の研究も進められている．. 図 -7 形態素情報と正規化情報がアノテーションされた Twitter コーパスの例. ■■ エンティティリンキング. ーシャルビッグデータを対象とした場合には，テキ. 投稿を実世界の事物（エンティティ）に紐付ける. ストの「質」や「量」の違いが解析に問題を引き起. ことも，情報を整理する上では有用である．自然言. こし，これが新たな研究課題として認識されるよう. 語では，異なる表記が同じエンティティを指すこと. になっている．以下で，これらの研究課題に対する. もあれば，同じ表記が異なるエンティティを指すこ. 研究動向について概説する．. ともある．たとえば，漫画の「ONE PIECE」に関を含む投稿も分析対象に含めたい一方で，（服の）「ワ. ✜✜くだけたテキストの頑健な言語解析. ンピース」に関する投稿は含めたくないはずである．. 現や言い間違いといった，くだけた表現を多く含ん. エンティティリンキングでは，投稿に含まれる実. でいる．そのため，ソーシャルテキストに対して高. 世界の事物（エンティティ）に対する言及を，知識. い精度で基礎言語解析（形態素解析や係り受け解析. ベースのエントリ（主に Wikipedia の記事）に対応. など）を行うことが困難になっている．. 付けることで，投稿中で言及されているエンティテ. この問題に対する 1 つのアプローチとして，ソー. ィを明らかにする．各言及の参照先記事を推定する. シャルテキストに形態素や係り受けなどの情報を人. のには，言及の文脈と記事の類似度などが手がかり. 手でアノテーションし，それを用いてソーシャルテ. に用いられる．実世界では新しい芸術作品や製品，. キストを頑健に解析できるモデルを学習するという. 技術など，新エンティティが日々生まれるため，ソ. 試みが行われている．これは，ソーシャルメディア. ーシャルテキストストリームを対象とする場合は，. を新ドメインとみなし，そのドメイン専用の解析モ. 知識ベースに未登録のエンティティをどう取り扱う. デルを学習するという考え方である．英語において. かが課題となる．. は，品詞，係り受け，固有表現などの情報のアノテ. する投稿を分析する場合，「ワンピース」と言う語. ソーシャルテキストの利活用に向けた自然言語処理技術の研究動向. 前述のように，ソーシャルテキストは，口語調表. ーションが進められており，それを用いてモデル学習を行うことによって精度が改善することが報告されている．一方，日本語においては形態素解析が最も重要な処理となることから，形態素情報と正規化. 自然言語処理，特に基礎言語解析では，これまで. 情報（後述）をアノテーションしたコーパスの構築. 主に新聞記事のような整った書き言葉のテキストを. が行われている（図 -7）．. 念頭に技術の開発が進められてきた．そのため，ソ. こうしたアノテーション付きコーパスの構築とは. ☆ 21. http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/. 相補的な試みとして，テキスト正規化処理に関する. 情報処理 Vol.56 No.10 Oct. 2015. 987.

(7) ビッグデータがもたらす超情報社会 ─すべてを視る情報処理技術：基盤から応用まで─. Relative #tweets per min.. 特集. 6. 2011/03/11-12 2012/03/12-13. 5. い基礎言語解析を用いる場合，解析のリアルタイム性が損なわれることが起こり得る．. 4 3. この問題については，バーストの要因となる出来. 2. 12. 10. 08. 06. 04. 02. 00. 22. 20. 18. 析の適応的高速化手法が提案されている．具体的に. 16. 0 14. 事について投稿内容が偏ることに着目した，言語解. 12. 1. :0. :0. :0. :0. :0. :0. :0. :0. :0. :0. :0. :0. :0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. Time 図 -8 東日本大震災発生日と翌年の分間投稿数（震災発生前の平均を 1 とする）. 械学習の）分類問題の結果を再利用することで，内容の類似する投稿の解析を高速化するものである．. 研究も並行して行われている．これは，くだけたソ. 適用例として，前述の東日本大震災時の投稿を係り. ーシャルテキストを整った形式に事前に変換するこ. 受け解析した場合，投稿数の増加に呼応して解析が. とによって，既存モデルでも高精度で解析できるよ. 高速化されることが確認されている．. うにするものである．正規化処理の研究は，以前か. に注目を集めている分野である．これまで，単語の. ソーシャルビッグデータの分析例：東日本大震災を対象として. 正規化辞書を自動構築するアプローチや，機械翻訳. 最後に，東日本大震災発生日の Twitter での投稿. やスペル訂正などの類似タスクで提案されているモ. を題材に，ソーシャルビッグデータをリアルタイム. デルの拡張など，さまざまな研究が行われている．. で解析することで実世界の動きを把握するリアルタ. また，形態素解析などの基礎解析と正規化を同時に. イム話題追跡システムを紹介する．. 行うモデルも提案されている．. このシステムでは，入力に対して適応的に高速化. らも電子メールなどを対象として行われていたが，近年，ソーシャルテキストの増加によって，にわか. する日本語係り受け解析器 J.DepP を用いて Twit-. ✜✜バーストに頑健な高速言語解析. ソーシャルメディアに投稿されるテキストは，単. に表出した話題語（名詞句）について，単位時間辺. に量が多いというだけでなく，単位時間当たりの投. りの結果がまとまり次第，直ちに表示する．. 稿数が実世界の変化に呼応して時に激しく変化する. 図 -9 は，図 -8 に示した東日本大震災時の投稿を. ことが知られている．特に，大規模な地震やスポー. 擬似的にストリームとして入力し話題を分析した結. ツイベントなど大域的なイベントが発生したときに. 果である．地震の本震（14：46）が発生すると，投. ter の投稿のテキストストリームを解析し，Twitter. ☆ 22. は瞬間的に投稿数が増加（バースト）する. ．. 稿の内容は石原氏の都知事選出馬の話題から地震に. 図 -8 は，我々の研究室で収集している Twitter. 関する話題に一変し，その後も目まぐるしく話題が. の投稿において，東日本大震災が発生した 2011 年. 変遷しているのが確認できる．最初は地震の被害情. 3 月 11 日と，翌年の同週末分について投稿数の増. 報（14：40 〜 15：00）やお台場での火災（15：00 〜. 加率を比較したものである．図から，震災発生日に. 15：20）に関連する速報が共有されている．続いて. ついては地震発生直後から持続的に投稿が増加して. 夕方になると，都市圏の交通が麻痺して帰宅難民と. いることが確認できる．これに限らず，特定の事物. なった人々の間で，（立教大学）14 号館など避難場. （商品，政策，疾病など）に焦点を当てて投稿を分. 所の情報やトイレの無料開放など，人々が有用と感. 析する場合でも，ニュースや炎上案件などによって，. じた情報が拡散している（18：40 〜 19：20）．さらに，. その事物に関する投稿が急増することは多い．結果. 20：40 以降では銀座線や半蔵門線などの運行再開情. として，特に，構文解析や意味解析といった深く遅. 報が拡散している．. ☆ 22. 988. は，言語解析を行う際に，部分問題として解く（機. https://yearinreview.twitter.com/ja/tps.html. 情報処理 Vol.56 No.10 Oct. 2015. 図 -10 では，「怖い」という感情（形容詞）に対.

(8) 6 ソーシャルビッグデータ利活用のための自然言語処理. 図 -9 東日本大震災発生時の Twitter の投稿における話題語の追跡. 図 -10 東日本大震災発生時の Twitter の投稿における人々の恐怖の対象の追跡. して格助詞「が」を介して係る名詞句を，その恐怖. より多くのテキストを言語解析するだけでは不十分. の対象として追跡している．震災後早い段階で原発. であり，同時により深く言語解析し，人間のように，. や放射能に対して不安を覚える人がいるほか，震災. テキストに埋もれた情報を読み解く必要がある．. 翌日未明（3/12 04：00 〜 05：00）において，（緊急. ソーシャルビッグデータには，テキスト以外にも. 地震速報の）音に対する恐怖が表出していることが. 動画像をはじめとする非言語データが含まれている．. 分かった．このような人々の瞬間的な情動は，リア. 今後の課題としては，テキストと非言語データが描. ルタイム性の高いマイクロブログによって初めて記. 写する情報を相補的に組み合わせ，単独では得られ. 録されるようになったものであり，興味深い．. ない新しい発見を生み出すことが挙げられる．. ソーシャルテキスト解析の今後爆発的に増加しているソーシャルテキストの高度な利活用を実現することは，これからの超情報社会における喫緊の課題であると言える．ロングテールの事象にリーチし，ソーシャルテキストのビッグデータとしての価値を最大限に高めるためには，単に. （2015 年 8 月 10 日受付）鍜治伸裕（正会員）[email protected] 2005 年東京大学大学院情報理工学系研究科博士課程修了．博士（情報理工学）．2007 年東京大学生産技術研究所特任助教を経て，現在，東京大学生産技術研究所特任准教授，情報通信研究機構主任研究員（兼任）．自然言語処理の研究に従事．吉永直樹（正会員）[email protected] 2005 年東京大学大学院情報理工学系研究科博士課程修了．博士（情報理工学）．日本学術振興会特別研究員（DC1，PD）を経て，現在，東京大学生産技術研究所特任准教授，情報通信研究機構主任研究員（兼任）．自然言語処理の研究に従事．. 情報処理 Vol.56 No.10 Oct. 2015. 989.

(9)