• 検索結果がありません。

ビッグデータがもたらす超情報社会 -すべてを視る情報処理技術:基盤から応用まで-:6.ソーシャルビッグデータ利活用のための自然言語処理

N/A
N/A
Protected

Academic year: 2021

シェア "ビッグデータがもたらす超情報社会 -すべてを視る情報処理技術:基盤から応用まで-:6.ソーシャルビッグデータ利活用のための自然言語処理"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)特集. ビッグデータがもたらす超情報社会 ─すべてを視る情報処理技術:基盤から応用まで─. 6 ソーシャルビッグデータ利活用の ための自然言語処理 基応 専般. 鍜治 伸裕 吉永 直樹(東京大学/情報通信研究機構). ソーシャルメディアが生み出す超大規 模テキストデータ ソーシャルメディアとは,個人による自由な情報 発信や知人との情報共有など,人と人との社会的つ ながりを介した情報発信および拡散を特徴とするイ ンターネットメディアの総称である.たとえば,イ ンターネットが社会に浸透し始めた 2000 年頃に流 行した電子掲示板や日記サイト(ブログ)などは, ソーシャルメディアの先駆け的な存在である.最近 では,Twitter ☆ 1(図 -1)や Weibo のような短文 投稿サイト(マイクロブログ) ,Facebook ☆ 2 のよ. ディアを介して発信されるテキストデータがいかに. うな交流サイト,Vine ☆ 3 や Instagram ☆ 4 のよう. 巨大であるかが分かる.さらに,スマートフォンや. な動画像投稿サイトなどが有名である.. タブレット端末の普及により,人々は自身の意見や. 現在,ソーシャルメディアは爆発的な勢いで拡. 体験を「その場」で「即座」に発信・共有するよう. 大を続け,マスメディアを補完する新しい生活イ. になっており☆ 7,投稿が内包する情報の実世界空. ンフラとしての地位を確立しつつある.たとえば. 間に対する網羅性・リアルタイム性はこれまでにな. Twitter 社の公式発表☆ 5 によると,2015 年 3 月末. く高まっている.. 時点で Twitter がサポートしている言語数は英語や. 3 億人に到達しているとされる.こうした数字から. ソーシャルテキストの利活用. も,ソーシャルメディアが世界中の人々に利用され. このように現在大量に生成されているソーシャル. ており,現代社会に深く根付いていることをうかが. テキストデータには,これまで従来メディアからは. い知ることができる.. 発信されてこなかった貴重な情報が大量に眠ってい. こうしたソーシャルメディアからは,日々大量. る.そのため,そうした情報を計算機を用いて検索・. 日本語など 30 を超え,月間アクティブユーザ数は. の テ キ ス ト デ ー タ が 発 信 さ れ て い る.2013 年 の. ☆1. によると,Twitter を介し. ☆2. て発信された日本語の投稿の総数は,1 カ月あたり. ☆4. 約 18 億にものぼる.新聞記事の電子版 1 年分がお. ☆6. よそ 100 万文であることを考えると,ソーシャルメ. ☆7. Semiocast 社の調査. 982. 図 -1 ソーシャルメディアサービス Twitter のスナップショット. ☆6. 情報処理 Vol.56 No.10 Oct. 2015. ☆3 ☆5. https://www.twitter.com/ https://www.facebook.com/ https://vine.co/ https://instagram.com/ https://about.twitter.com/company http://www.technologyreview.com/graphiti/522376/the-manytongues-of-twitter/ https://biz.twitter.com/ja/whos-twitter.

(2) 6 ソーシャルビッグデータ利活用のための自然言語処理. 理解・抽出・整理し,分析することによって,さまざ まな目的に利活用しようとする試みが行われている.. ✜✜世論の分析. 誰もが自由に情報発信できるソーシャルメディア においては,人々の個人的な意見や感情に関する投 稿が多数見られる.これは,人々の内面という通常 であれば観測不可能なものが,テキストを介して表 出化し,ソーシャルメディア上に蓄積されていると 見ることができる.こうした現象は旧来メディアに はまったく見られなかったものであり,ソーシャル メディアに特有のものである. ソーシャルテキストにこのような特徴が見られる ことから,そこから「顧客の声」を自動抽出してビ. 図 -2 Twitter の投稿からインフルエンザの流行状況を分析する ☆9 Web サービス「インフルくん」. ジネスに活用しようとする動きが見られる.たとえ ば,ソーシャルテキストにはさまざまな製品やサー. を目撃した人がその内容をその場で即座に投稿する. ビスに対する評判や要望などが書き込まれているの. など,マスメディアと比べて格段に速報性の高い情. で,それらの内容を分析することができれば,新製. 報が発信可能になっている.. 品の開発やサービスの改善に役立てることができる. そこで,ソーシャルテキストをセンサ情報の代替. と考えられる.また,大量のソーシャルテキストか. として活用する試みが近年増加している.たとえば,. ら製品やサービスの知名度を把握することができれ. ゲリラ豪雨や竜巻といった現在の技術では正確な予. ば,これまでに行った広告の効果を測定することな. 測が難しい自然現象や,突発的な交通事故や事件の. ども可能になると期待できる.. 発生を,ソーシャルテキストの内容を解析すること. ✜✜実世界イベントの即時的検知. によって検知し,近隣にいる人々に知らせる試み☆ 10 などが進められている.また,インフルエンザなど. 一方,営利目的の利用にとどまらず,ソーシャル. の疾病の流行をソーシャルテキストから推定する試. メディアを介して発信されている国民の意見を分析. みも行われている(図 -2).インフルエンザなどの. し,その結果を政策決定などの高度な意思決定に利. 流行状況に関しては,国による統計情報が発表され. 用することも期待されている.たとえば,憲法改正. ているものの速報性が乏しいため,それを補完する. や選挙権年齢引き下げといった社会的関心事に対し. 役割が期待されている.. て,反対意見と賛成意見を持っている国民がどの程. きれば,それらの政策の策定を行う上で貴重な判断. ソーシャルテキストの利活用を実現す る自然言語処理技術. 材料となると考えられる.関連して,ソーシャルメ. これまで述べたように,ソーシャメルディアを介. ディアの投稿を元に,国政選挙の当選者数や論点な. して発信される情報を分析する意義は大きいが,テ. 度の割合で分布していて,どのような理由から反対 もしくは賛成しているのかなどを分析することがで. ☆8. どを予測・分析する試み. も行われている.. キストで発信される情報は構造化されていないため,. さて,ソーシャルメディアから発信される情報の. ☆8. リアルタイム性に注目すると,たとえば,交通事故. ☆ 10. ☆9. http://www.asahi.com/special/billiomedia/ http://mednlp.jp/influ/ http://disaana.jp/. 情報処理 Vol.56 No.10 Oct. 2015. 983.

(3) 特集. ビッグデータがもたらす超情報社会 ─すべてを視る情報処理技術:基盤から応用まで─. 図 -3 基礎言語解析のパイプライン. 多くの情報はテキスト中に言わば「埋もれた」状態に ある.これは,同じ意味内容を記述するのに自然言語 ではさまざまな表現が可能なためである.投稿内容を 理解し,内包する情報を検索可能にするには,これま で自然言語処理で広く研究されてきた形態素解析や 係り受け解析などの基礎言語解析が有効である. また,基礎言語解析を通して得られた情報から有 用な情報を抽出・整理する手段としては,評判分析. ☆ 11. 図 -4 Twitter のトレンド視覚化. 技術,投稿者の性別・年代・居住地といった属性分 析,投稿を現実世界の時空間・事物(エンティティ). ースト検知を行えば,ソーシャルテキストストリー. に紐付ける投稿位置推定やエンティティリンキング. ムにおけるトレンド(話題語)を捉えることが可能. などの諸技術が用いられる.以下で,これらの技術. である.また,特定のトピック(語)に関する投稿. について概説する.. を把握するのに,その語の共起語をタグクラウドで. ✜✜投稿内容の分析. ソーシャルテキストを形態素解析するに際して. ソーシャルテキストの投稿内容の分析では,まず. は,口語調のくだけた表現が解析誤りを引き起こす. 個別のソーシャルメディア特有の前処理を行ったの. ことが知られている.ただ,既存の日本語形態素解. ち,形態素解析,係り受け解析,格解析といった基. 析器の多くは辞書を基本とした設計になっており,. 礎言語解析(図 -3)を用いて内容を標準化し,そ. Wikipedia などを利用して新語を増補した辞書☆ 12. の後,評判分析など具体的な分析を行う.. を用いたり,辞書項目を適宜追加することで,解析. 前処理では,たとえばブログであれば HTML タ. 結果をユーザレベルで改善していくことが可能であ. グの除去,Twitter であれば末尾のハッシュタグや. る.辞書だけでは対応が難しい,くだけた表現の解. URL などの削除を行い,その後,全角半角変換な. 析についてはのちほど触れる.. ど簡単な正規化を行ったのち,最終的に句点などを 手がかりに基礎言語解析の処理単位である文に分割. 984. 可視化することもしばしば行われる(図 -4 下).. ■■ 構文解析(係り受け解析). ソーシャルメディアでは(話題語など)興味の. する.前処理は実際には,後段の処理より遅くなら. ある事物に関して投稿を絞り込んだとしても,依. ないよう留意しつつ,後段で用いる基礎言語解析ツ. 然,人が処理できない量の投稿が存在する場合も多. ールの特性も考慮して作り込む必要がある.. い.そのような場合,構文解析以上の深い言語解析. 形態素解析では単語分割,品詞付与,見出し語化. ☆ 11. を行う.形態素解析後,たとえば名詞に着目してバ. ☆ 12. 情報処理 Vol.56 No.10 Oct. 2015. http://www.lab-kadokawa.com/release/detail.php?id=0003 よ り引用 https://github.com/neologd/.

(4) 6 ソーシャルビッグデータ利活用のための自然言語処理. を行い,人の代わりに計算機にテキストを読ませる ことで,内容を集約することが有用である.たとえ ば,話題語(例 : 安倍首相)と係り受け関係にある 動詞(例 : 発言する,訪問する)に注目すれば,そ の事物に関するイベントの推移を俯瞰することが可 能となる.なお日本語の構文解析では,応用で使い. 図 -5 KNP による格・照応解析. やすく直感的な文節を単位とした文節間の係り受け 解析が主に用いられる.. 現段階では,格・照応解析といった意味解析はソ. 係り受け解析では,問題を解くために係り元と係. ーシャルテキストを解析するには精度・速度の両面. り先の文節の組合せを考慮する必要があり,形態素. で課題があるが,低頻度のロングテールの事象にリ. 解析の辞書のような,一般ユーザが手軽に解析処理. ーチし,ソーシャルテキストのビッグデータとして. に介入できる枠組みを提供することが難しい.その. の価値を高めるためには欠かせない技術であり,今. ため,解析結果を利用する際には,解析誤りの傾向. 後注力していくべき最重要技術である.. に対する配慮が必要となる.ソーシャルテキストの 係り受け解析で特徴的に見られる解析誤りとしては,. ■■ 評判分析. ソーシャルテキストを世論の分析に活用するため. 前段の処理(文分割や形態素解析)に起因する誤り. の技術として,テキストに記述されている評判情報. と,助詞の欠落など機能語の省略に起因する誤りが. や意見情報を自動分析する手法が研究されている.. 挙げられる.特に後者は,助詞が文節区切りの同定. そうしたテキスト解析技術は,Sentiment Analysis. のみならず,係り先の同定でも手がかりとなること. (感情分析,評判分析)と称され,2000 年初頭から. から,その影響が大きい.. 盛んに研究が行われている.. さらに,係り受け解析では,文節(あるいは構成. 評判分析の研究が盛んになるきっかけを作ったの. する単語)間の組合せを手がかりとして考慮する必. は,2002 年に自然言語処理分野のトップ国際会議. 要があることから,形態素解析と比べて解析速度が. ACL ☆ 16 と EMNLP ☆ 17 で独立に発表された 2 本. 桁違いに遅くなる場合が多い.そのため,以前はソ. の論文である.いずれの論文も,製品やサービスに. ーシャルテキストのような超大規模テキストを実用. 対する評判が記述されたテキストを扱うための技術. 的な速度で解析するのは困難であった.現在は東大. が当時の自然言語処理には欠落していたという問題. の研究グループが開発する J.DepP ☆ 13 や奈良先端. を指摘するとともに,レビュー文書を肯定的か否定. 大の研究グループで開発され,近年高速化が施され. 的かいずれかに自動分類する手法を提案している.. た CaboCha ☆ 14 など,解析の精度と速度を両立した. 以降,これらの研究に触発された論文が次々と発表. 係り受け解析器もあるので,積極的に活用されたい.. されるようになり,2004 年と 2006 年には評判分析. ■■ 意味解析(格解析・照応解析). を専門に扱う国際ワークショップが開催されるなど,. ソーシャルメディアでも特にマイクロブログにお. 評判分析は自然言語処理の一分野としての地位を確. いては,投稿が口語調で一文が短く,語の省略も起. 立して現在に至っている.. きやすいため,内容を正確に読み取るには格解析や. 初期の評判分析の研究は,テキスト(レビュー文. 照応解析など,さらに深い基礎言語解析を行う必. 書)の 2 値分類問題(否定と肯定)を取り扱い,そ. 要がある.図 -5 は,日本語構文・格・照応解析シ. れを教師有り学習を用いて解くというものであった.. ステム KNP. ☆ 15. による文の解析例であり,「太郎」. がケーキを買ったことや, 「ケーキ」がおいしいこ とが読み取れている.. ☆ 13 ☆ 14 ☆ 15 ☆ 16 ☆ 17. http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/jdepp/ http://taku910.github.io/cabocha/ http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP http://www.aclweb.org/ http://www.cs.jhu.edu/~yarowsky/sigdat.html. 情報処理 Vol.56 No.10 Oct. 2015. 985.

(5) 特集. ビッグデータがもたらす超情報社会 ─すべてを視る情報処理技術:基盤から応用まで─. 従来より(マイクロ)ブログを対象として書き手の 性別や年代を推定する研究が広く行われており,人 による推定を上回る精度での自動推定が可能となっ ている.推定の手がかりには,主に投稿中の語句が 利用されるが,テキストに表出する(人が読み取れ る)性・年齢と生物学的な性・年齢との間には齟齬 があるとの報告もあり,投稿のみを手がかりとした 手法には限界がある.今後はユーザが投稿した写真 図 -6 英語の評価表現辞書 SentiWordNet. や友人関係にあるユーザの属性など,幅広い手がか りを活用した手法の開発が望まれる.. そして,その後,肯否定に加えて中立というカテゴ. 一方で,(特に)マイクロブログの投稿では,ユ. リを導入した 3 値分類問題や,連続量で表現された. ーザの生活スタイルなど細かい粒度の行動が読み取. 肯否定の程度を推定する回帰問題など,より複雑な. れることから,投稿内容からユーザの居住地や職業. タスクが提案されている.また,評判分析を分類問. を推定する研究も広く行われている.. 題や回帰問題として扱うのではなく,テキストから いう,情報抽出の一種として捉える研究も多く見ら. ✜✜投稿を実世界に紐付ける技術. れる.. タイム性に着目する場合,投稿を実世界の時空間位. 評判分析の研究が盛り上がると同時に,モデルの. 置に紐付けることは,情報を利活用する上できわめ. 学習に必要なアノテーション付きコーパスや評価表. て重要な課題となる.同時に,投稿が実世界のどの. 現辞書といった,言語資源を整備する試みも行われ. ような事物(商品や施設)に関して言及しているの. ている.特に,これらの言語資源を(半)自動構築. か明らかにすることも,重要な課題となる.. 製品の評判に関する構造化された情報を抽出すると. する研究が盛んであり,ブートストラップ法や語彙 ネットワークに基づく方法など,多くの手法が研究. ■■ 時空間位置への紐付け. ソーシャルメディアで,ユーザ自身が投稿に現在. されている.こうした研究成果の一部はすでに公開. 位置を付与することはまれなので,投稿内容からユ. されているものもある.英語における代表的な言語. ーザの位置を推定する手法が検討されている.この. 資源としては,たとえば意味辞書 WordNet を拡張. タスクは前述の居住地推定と似ているが,より細か. ☆ 18. (図 -6)がある.また,日. い粒度で位置を推定することが期待される一方,推. 本語資源についても,東大☆ 19 や東工大☆ 20 の研究. 定に利用できる手がかりが少なく,より難しいタス. グループが開発,公開しているものが存在する.. クとなっている.Twitter で位置情報(geotag)が. した SentiWordNet. ✜✜投稿者の属性分析. 付与された投稿の位置を推定する場合,数十 km レ ベルの誤差が生じるなど,ピンポイントの推定はき. ソーシャルメディアユーザの性別や年代,居住地や. わめて困難となっている.. 職業などの属性を (プロフィールや投稿内容などから). そもそも,ユーザは必ずしも現在位置と関係のあ. 推定することで,投稿内容を多様な側面から分析す. る投稿を行うとは限らないため,位置情報が付与さ. ることができるようになる.たとえば,世論分析では. れた投稿すべてを学習/評価用データとすること自. 性別や世代間での意見の違いを,また感染 症の分. 体に問題があるように思われる.少なくとも評価デ. 析では患者の地理的分布を把握することができる. ソーシャルメディアユーザの性別や年代については,. 986. ソーシャルメディアから投稿される情報のリアル. 情報処理 Vol.56 No.10 Oct. 2015. ☆ 18 ☆ 19 ☆ 20. http://sentiwordnet.isti.cnr.it/ http://www.tkl.iis.u-tokyo.ac.jp/~kaji/polardic/ http://www.lr.pi.titech.ac.jp/~takamura/pndic_en.html.

(6) 6 ソーシャルビッグデータ利活用のための自然言語処理. ータについては,たとえば,東北大の研究グループ が進めているように(具体的な)場所を参照する表 現を含む投稿☆ 21 に絞るなどするのが適切であろう. 空間位置と同様に,ユーザは必ずしもリアルタイ ム性のある(投稿時刻と同期する行動・意見を含 む)投稿を行うとは限らない.投稿内容には過去の 行動や未来の予定のほか,願望や仮定なども含まれ る.これについては,疾病の流行分析など即自的検 知が重要となるタスクについて,その重要性が確認 されている.関連して,流言・デマ情報を検知する 手法の研究も進められている.. 図 -7 形態素情報と正規化情報がアノテーションされた Twitter コーパスの例. ■■ エンティティリンキング. ーシャルビッグデータを対象とした場合には,テキ. 投稿を実世界の事物(エンティティ)に紐付ける. ストの「質」や「量」の違いが解析に問題を引き起. ことも,情報を整理する上では有用である.自然言. こし,これが新たな研究課題として認識されるよう. 語では,異なる表記が同じエンティティを指すこと. になっている.以下で,これらの研究課題に対する. もあれば,同じ表記が異なるエンティティを指すこ. 研究動向について概説する.. ともある.たとえば,漫画の「ONE PIECE」に関 を含む投稿も分析対象に含めたい一方で, (服の) 「ワ. ✜✜くだけたテキストの頑健な言語解析. ンピース」に関する投稿は含めたくないはずである.. 現や言い間違いといった,くだけた表現を多く含ん. エンティティリンキングでは,投稿に含まれる実. でいる.そのため,ソーシャルテキストに対して高. 世界の事物(エンティティ)に対する言及を,知識. い精度で基礎言語解析(形態素解析や係り受け解析. ベースのエントリ(主に Wikipedia の記事)に対応. など)を行うことが困難になっている.. 付けることで,投稿中で言及されているエンティテ. この問題に対する 1 つのアプローチとして,ソー. ィを明らかにする.各言及の参照先記事を推定する. シャルテキストに形態素や係り受けなどの情報を人. のには,言及の文脈と記事の類似度などが手がかり. 手でアノテーションし,それを用いてソーシャルテ. に用いられる.実世界では新しい芸術作品や製品,. キストを頑健に解析できるモデルを学習するという. 技術など,新エンティティが日々生まれるため,ソ. 試みが行われている.これは,ソーシャルメディア. ーシャルテキストストリームを対象とする場合は,. を新ドメインとみなし,そのドメイン専用の解析モ. 知識ベースに未登録のエンティティをどう取り扱う. デルを学習するという考え方である.英語において. かが課題となる.. は,品詞,係り受け,固有表現などの情報のアノテ. する投稿を分析する場合, 「ワンピース」と言う語. ソーシャルテキストの利活用に向けた 自然言語処理技術の研究動向. 前述のように,ソーシャルテキストは,口語調表. ーションが進められており,それを用いてモデル学 習を行うことによって精度が改善することが報告さ れている.一方,日本語においては形態素解析が最 も重要な処理となることから,形態素情報と正規化. 自然言語処理,特に基礎言語解析では,これまで. 情報(後述)をアノテーションしたコーパスの構築. 主に新聞記事のような整った書き言葉のテキストを. が行われている(図 -7).. 念頭に技術の開発が進められてきた.そのため,ソ. こうしたアノテーション付きコーパスの構築とは. ☆ 21. http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/. 相補的な試みとして,テキスト正規化処理に関する. 情報処理 Vol.56 No.10 Oct. 2015. 987.

(7) ビッグデータがもたらす超情報社会 ─すべてを視る情報処理技術:基盤から応用まで─. Relative #tweets per min.. 特集. 6. 2011/03/11-12 2012/03/12-13. 5. い基礎言語解析を用いる場合,解析のリアルタイム 性が損なわれることが起こり得る.. 4 3. この問題については,バーストの要因となる出来. 2. 12. 10. 08. 06. 04. 02. 00. 22. 20. 18. 析の適応的高速化手法が提案されている.具体的に. 16. 0 14. 事について投稿内容が偏ることに着目した,言語解. 12. 1. :0. :0. :0. :0. :0. :0. :0. :0. :0. :0. :0. :0. :0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. Time 図 -8 東日本大震災発生日と翌年の分間投稿数(震災発生前の平 均を 1 とする). 械学習の)分類問題の結果を再利用することで,内 容の類似する投稿の解析を高速化するものである.. 研究も並行して行われている.これは,くだけたソ. 適用例として,前述の東日本大震災時の投稿を係り. ーシャルテキストを整った形式に事前に変換するこ. 受け解析した場合,投稿数の増加に呼応して解析が. とによって,既存モデルでも高精度で解析できるよ. 高速化されることが確認されている.. うにするものである.正規化処理の研究は,以前か. に注目を集めている分野である.これまで,単語の. ソーシャルビッグデータの分析例:東 日本大震災を対象として. 正規化辞書を自動構築するアプローチや,機械翻訳. 最後に,東日本大震災発生日の Twitter での投稿. やスペル訂正などの類似タスクで提案されているモ. を題材に,ソーシャルビッグデータをリアルタイム. デルの拡張など,さまざまな研究が行われている.. で解析することで実世界の動きを把握するリアルタ. また,形態素解析などの基礎解析と正規化を同時に. イム話題追跡システムを紹介する.. 行うモデルも提案されている.. このシステムでは,入力に対して適応的に高速化. らも電子メールなどを対象として行われていたが, 近年,ソーシャルテキストの増加によって,にわか. する日本語係り受け解析器 J.DepP を用いて Twit-. ✜✜バーストに頑健な高速言語解析. ソーシャルメディアに投稿されるテキストは,単. に表出した話題語(名詞句)について,単位時間辺. に量が多いというだけでなく,単位時間当たりの投. りの結果がまとまり次第,直ちに表示する.. 稿数が実世界の変化に呼応して時に激しく変化する. 図 -9 は,図 -8 に示した東日本大震災時の投稿を. ことが知られている.特に,大規模な地震やスポー. 擬似的にストリームとして入力し話題を分析した結. ツイベントなど大域的なイベントが発生したときに. 果である.地震の本震(14:46)が発生すると,投. ter の投稿のテキストストリームを解析し,Twitter. ☆ 22. は瞬間的に投稿数が増加(バースト)する. .. 稿の内容は石原氏の都知事選出馬の話題から地震に. 図 -8 は,我々の研究室で収集している Twitter. 関する話題に一変し,その後も目まぐるしく話題が. の投稿において,東日本大震災が発生した 2011 年. 変遷しているのが確認できる.最初は地震の被害情. 3 月 11 日と,翌年の同週末分について投稿数の増. 報(14:40 〜 15:00)やお台場での火災(15:00 〜. 加率を比較したものである.図から,震災発生日に. 15:20)に関連する速報が共有されている.続いて. ついては地震発生直後から持続的に投稿が増加して. 夕方になると,都市圏の交通が麻痺して帰宅難民と. いることが確認できる.これに限らず,特定の事物. なった人々の間で,(立教大学)14 号館など避難場. (商品,政策,疾病など)に焦点を当てて投稿を分. 所の情報やトイレの無料開放など,人々が有用と感. 析する場合でも,ニュースや炎上案件などによって,. じた情報が拡散している(18:40 〜 19:20).さらに,. その事物に関する投稿が急増することは多い.結果. 20:40 以降では銀座線や半蔵門線などの運行再開情. として,特に,構文解析や意味解析といった深く遅. 報が拡散している.. ☆ 22. 988. は,言語解析を行う際に,部分問題として解く(機. https://yearinreview.twitter.com/ja/tps.html. 情報処理 Vol.56 No.10 Oct. 2015. 図 -10 では,「怖い」という感情(形容詞)に対.

(8) 6 ソーシャルビッグデータ利活用のための自然言語処理. 図 -9 東日本大震災発生時の Twitter の投稿における話題語の追跡. 図 -10 東日本大震災発生時の Twitter の投稿における人々の恐怖の対象の追跡. して格助詞「が」を介して係る名詞句を,その恐怖. より多くのテキストを言語解析するだけでは不十分. の対象として追跡している.震災後早い段階で原発. であり,同時により深く言語解析し,人間のように,. や放射能に対して不安を覚える人がいるほか,震災. テキストに埋もれた情報を読み解く必要がある.. 翌日未明(3/12 04:00 〜 05:00)において,(緊急. ソーシャルビッグデータには,テキスト以外にも. 地震速報の)音に対する恐怖が表出していることが. 動画像をはじめとする非言語データが含まれている.. 分かった.このような人々の瞬間的な情動は,リア. 今後の課題としては,テキストと非言語データが描. ルタイム性の高いマイクロブログによって初めて記. 写する情報を相補的に組み合わせ,単独では得られ. 録されるようになったものであり,興味深い.. ない新しい発見を生み出すことが挙げられる.. ソーシャルテキスト解析の今後 爆発的に増加しているソーシャルテキストの高度 な利活用を実現することは,これからの超情報社会 における喫緊の課題であると言える.ロングテール の事象にリーチし,ソーシャルテキストのビッグデ ータとしての価値を最大限に高めるためには,単に. (2015 年 8 月 10 日受付) 鍜治 伸裕(正会員)[email protected] 2005 年東京大学大学院情報理工学系研究科博士課程修了.博士(情 報理工学).2007 年東京大学生産技術研究所特任助教を経て,現在, 東京大学生産技術研究所特任准教授,情報通信研究機構主任研究員(兼 任).自然言語処理の研究に従事. 吉永 直樹(正会員)[email protected] 2005 年東京大学大学院情報理工学系研究科博士課程修了.博士(情 報理工学).日本学術振興会特別研究員(DC1,PD)を経て,現在, 東京大学生産技術研究所特任准教授,情報通信研究機構主任研究員(兼 任).自然言語処理の研究に従事.. 情報処理 Vol.56 No.10 Oct. 2015. 989.

(9)

参照

関連したドキュメント

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

全国の 研究者情報 各大学の.

事務情報化担当職員研修(クライアント) 情報処理事務担当職員 9月頃

東京大学 大学院情報理工学系研究科 数理情報学専攻. [email protected]

情報理工学研究科 情報・通信工学専攻. 2012/7/12

Instagram 等 Flickr 以外にも多くの画像共有サイトがあるにも 関わらず, Flickr を利用する研究が多いことには, 大きく分けて 2

理工学部・情報理工学部・生命科学部・薬学部 AO 英語基準入学試験【4 月入学】 国際関係学部・グローバル教養学部・情報理工学部 AO

「系統情報の公開」に関する留意事項