ビッグデータ時代の 自然言語処理"
72
0
0
全文
(2) 仙台に来て5年目になります。 ブライトン (2004) . 奈良先端大! (2002〜10) . 東北大! (2010〜) 東工大! (1986〜98) . 九工大! (1998〜02) . シドニー (1993, 94) .
(3) 東北大学 自然言語処理研究室 研究スタッフ! 新任 募集中 . ! 乾健太郎郎 教授. 岡崎直観 准教授. 松林林優⼀一郎郎 特任助教. ⽥田 然. 特任助教. 水野淳太 井之上直也 C. Kruengkrai 研究員 (NICT研究員) . 研究員 . 研究員 . 募集中 . 40 13. 30. スタッフ 研究⽣生. 20. 6. 10. 12. 修⼠士. 4. 学部. 0. 2010. 2011. 2012. 2013. 2014. 博⼠士.
(4) 様々な方面でお世話になっています。 • ネットにあふれる健康・医療情報の信頼性をどう担保するか? 〜自然言語処理からの情報科学的アプ ローチ〜.仙台市医師会報 巻頭言, May 2014. ! • ソーシャルメディア時代のソーシャルリスニング. 仙台泉倫理法人会モーニングセミナー, Jan. 2014.! • ビッグデータから知をつむぐ自然言語処理. 第13回東北大学-NTT技術交流会, Dec. 2013.! • 言葉が少しわかるようになったコンピュータの使い方. 仙台エコーライオンズクラブ, Nov. 2013.! • ビッグデータから知をつむぐ自然言語処理. 東北大学 電気・情報 東京フォーラム, Nov. 2013.! • ビッグデータと対話する自然言語処理. お茶の水女子大学情報科学科 理学総論, Nov. 2013. ! • 自然言語処理から見たビッグデータの可能性. ITCみやぎ・SAAJ東北・JISTA東北ワークショップ2013, Oct. 2013.! • 「行間を読む」自然言語処理への挑戦. 豊田工業大学 第9回ジョイントCSセミナー, Oct. 2013.! • ソーシャルメディア時代のソーシャルリスニング. 仙台青葉倫理法人会モーニングセミナー, Oct. 2013.! • 耐災害ICTを目指す自然言語処理. 東北大学 電気通信研究機構シンポジウム, July 2013. • 自然言語処理によるネット情報分析、およびツイート分析と報道. 三金会, 仙台, July 2013.! • ビッグデータと対話する自然言語処理. 東京大学 大学院情報理工学研究科講演会, July 2013. • ビッグデータ時代の自然言語処理. 東北データベースソサエティ, June 2013. • 言葉がわかるコンピューターはどこまでできたか ~言葉の不思議と自然言語処理の最前線. 東北大学 サイエンスカフェ, Feb. 2013. ! • ビッグデータ時代の自然言語処理. 鹿児島大学 情報工学科先端科学特別講義, Feb. 2013. .
(5) 仙台から発信していきます。 2010年9月 !言語処理学会 第16回年次大会 最優秀発表賞 2011年2月 !CICLing-2011 Best Paper Award (First Place)! 2011年3月 !言語処理学会 2010年度 最優秀論文賞 2011年6月 !日本経済新聞社 技術トレンド調査 総合3位 2011年9月 !NLP若手の会 第6回シンポジウム 奨励賞 2012年5月 !情報処理学会 自然言語処理研究会 学生奨励賞 2012年9月 !情報処理学会 2012年度 山下記念研究賞! 2012年9月 !言語処理学会 第18回年次大会 優秀賞 2012年9月 !NLP若手の会 第7回シンポジウム 奨励賞! 2013年3月 !東北大学 情報科学研究科長賞! 2013年3月 !情報処理学会 第75回全国大会 学生奨励賞 ! 2013年3月 !情報処理学会 東北支部 学生奨励賞 2013年9月 !言語処理学会 第19回年次大会 優秀賞! 2013年11月 !日本リスク研究学会 年次大会 優秀発表論文賞! 2014年3月 !言語処理学会 第20回年次大会 最優秀賞! 2014年3月 !言語処理学会 第20回年次大会 優秀賞! 2014年3月 !言語処理学会 第20回年次大会 若手奨励賞! 2014年3月 !言語処理学会 2013年度 論文賞! !.
(6) h.p://www.hitachi.co.jp/Prod/ comp/so;1/spcon/itbnavi_1205/ . 「ビッグデータ」. ダイアモンド IT&ビジネス 「2012年 ビッグデータ経営革命」 http://diamond.jp/articles/-/16192 .
(7) 広がるソーシャルメディア. h.p://shapedream.net/wp-‐content/uploads/649b8ef91f014b4c1be5f19bb55f4e65.png .
(8) 前回の情報爆発 情報爆発 . 文化革命 . 科学革命 ニュートン . ニュートン . グーテンベルク コペルニクス . 産業革命 .
(9) あらゆる分野に変革. h.p://jpn.nec.com/cloud/ service/saas_common/ m2m.html . h.p://www.hitachi.co.jp/Prod/ comp/so;1/spcon/itbnavi_1205/ .
(10) あらゆる社会活動の根幹 . 言語(ことば)による. コミュニケーション.
(11) 自然言語処理 人工知能. 言葉がわかる賢いコンピュータを作る 言葉(=自然言語)で伝達される情報を 理解・検索・抽出・翻訳・整理・分析し、 地球規模のコミュニケーションを支援するソフトウェア技術 . 自然言語処理.
(12) 自然言語処理による情報・知識の編集 議論・合意形成支援 . 意思決定支援 . 信頼性・根拠分析 . リスク・未来分析 . 意見・評判分析 . 社会分析 . アプリケーション . 意 味 解 解 析 析. (@mhlw). 解析・集約 . &. 国民 . (@tkyken). 313. (@mhlw). (@hanatky). 談 話 解 析. HP http://bit.ly/gQxWZq. !. (@jirosaka). 78. (NHK. )& (@miyako) !. . . . ウェブ・SNS . 知 識 獲 得. &. (@tohokutaro). &. 情 報 マスメディア 検 索. (@tokaia). . . . 大学・ 研究機関 . 言 語 解 政府・会社 析. 情報・意見の整理・集約・可視化 .
(13) ニーズは社会のどこにでもある! 例えば、ソーシャルリスニング. 参院選の世論分析(朝日新聞) . 例えば、耐災害ICT. 誤情報の検出と検証の支援!. コスモ石油: 5時間で訂正,24時間で収束 . 風評被害の分析(NHK) .
(14) 産学連携・学際共同研究 (乾・岡崎研究室の最近1年間の実績) . デンソー トヨタ自動車 . ヘルスケア • 東北大医学部 . リスクコミュニケーション 富士通研究所 日立製作所 NEC . • 保健医療科学院 . 交通状態解析 • 東北大情報科学(土木) . 防災情報収集・分析 朝日新聞社 Smart News サイバー・ラボ . • 情報通信研究機構 . 地方議会議事録解析 • 東北大情報科学(政治学) .
(15) 本日の講演内容 情報・知識の編集へ • ツイートデータの解析 • 情報信憑性の判断の支援 . 耐災害ICTを目指す言語処理 • 防災情報のDB化の支援 . その先の言語理解研究へ • 「行間を読む」言語処理への挑戦 .
(16) ツイートデータの解析例① . 福島の桃 with NHK!. h.p://www.youtube.com/watch?v=RwIjlqDVNdg . 2013.9.8 .
(17) ツイート数の推移 「福島」と「桃(もも、モモ)」を両方含むツイートの数 .
(18) ツイート数の推移(肯定・否定別) 「福島産のモモを買うこと、食べること」に肯定的か否定的か . 肯定側ツイート . 否定側ツイート . 福島の桃は市場に出てい るものはしっかりと調べら れているので安全です! 何よりこんな笑顔が素敵な おじちゃんおばちゃんの愛 がつまってるのでめちゃめ ちゃ美味しいです! . 福島では山梨からトラックが 桃を安値で買い占めに来て いる。山梨産といっても安心 はできない。 .
(19) 「桃の購入」に否定的な理由 (暫定)基準値に対する不信感 • NHKで福島のももが売れないというニュース。基準値を下回っているので、「風評被害」で ある、という視点をおしだしていたが、基準値が高すぎるわけで風評被害と決めつけられ ないのではないか。(2011) . 0ベクレルへの拘り • NHKが朝から福島の桃のPRをしてたよ ちゃんと基準値の1/10程度は出てると言ってい たが・・・ 食べたい方はどうぞ 我が家は食べません (2011) . 数値を出してほしい • 福島県産の食品が全て危険だ、と言うつもりはない。数値が表示されていないから、安心 して買えないのだ。(2012) . 国・東電が補償すべき • お願いですからフクシマの農家は作物を破棄して、東電と政府から十分な補償をしても らって下さい!(2013) . 風評対策に対する批判 • 佐藤知事は、なんで汚染水の対応じゃなくて、大阪に桃を配りに来ているのか?(2013) .
(20) 0 全期間 . 2013-‐08 . 2013-‐07 . 2013-‐06 . 2013-‐05 . 2013-‐04 . 2013-‐03 . 2013-‐02 . 2013-‐01 . 2012-‐12 . 2012-‐11 . 2012-‐10 . 0.4 . 2012-‐09 . 0.5 . 2012-‐08 . その他 . 2012-‐07 . 0.6 . 2012-‐06 . 2012-‐05 . 2012-‐04 . 2012-‐03 . 2012-‐02 . 2012-‐01 . 肯定派 . 2011-‐12 . 2011-‐11 . 2011-‐10 . 2011-‐09 . 否定派 . 2011-‐08 . 2011-‐07 . 2011-‐06 . 2011-‐05 . 2011-‐04 . 2011-‐03 . 放射能関連情報 . 否定側は数値によく言及する 福島県産のモモの放射能汚染の実態 h.p://**** 福島県だけでない。茨城県のなし (幸水)1.0、山形県のさくらんぼ(佐藤錦)6.0、 …(東都生協残留放射能調査) . いつまで言う気かNHK(怒)!ウクライナの基準 は40Bq/kg日本は500Bq/kg桁違う @****:「N HKおはよう日本」福島県産の桃。暫定規準値 の約9分の1の「57ベクレル」だったので「健 康に害はまったくない」「安全だ」と連呼。 . 0.3 . 0.2 . 0.1 .
(21) 放射能関連情報 . 否定側は数値によく言及する 否定派 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 . 肯定派 . どちらでもない . 否定派が数量に言及するツ イート数は肯定派の5.1倍 (ツイートの総数は否定派 が肯定派の0.66倍) 年を追うごとに数値 への言及が減少 . 2011年夏 . 2012年夏 . 2013年夏 . 全期間 .
(22) リツイート . RTネットワークの可視化 • ユーザの「つながり」をネットワークで可視化! – 点: 福島の桃に関してつぶやいたユーザ! – 線: ユーザ間のリツイート(RT)関係(下図参照)! 福島の桃の出荷が始まった. . めちゃめちゃ美味しいです! . のツイートを. が2回以上リツイートした場合にリンク(線): . • 似ている意見を持ったユーザ同士が繋がる! • ユーザが福島の桃を買うことに肯定的か否定 的かをポジネガ分析で推定する .
(23) リツイート . RTネットワーク 否定的な意見が強い . 肯定的な意見が強い . • RTネットワーク上で2つのクラスタ(グループ)に分離! – 肯定・否定の推測結果に一致する!. • 反対の立場のツイートはあまりRTされない! – 反対側のツイートは拡散させたいと思われない!.
(24) 10回以上RTされたことがあるユーザ(肯定派140人,否定派193人) . オピニオンリーダのツイートを RTするユーザの立ち位置とその分布 . 人 1400 . ※肯定派もしくは否定派のツイートを5回以上RTしたことが ある人のみを分析対象とする . 1200 . 専ら否定側のツイートをRTする人 1000 . 専ら肯定側のツイートをRTする人 . 800 . のいずれかに二極化している . 600 400 200 0 -‐1 否定側のみ . -‐0.8 . -‐0.6 . -‐0.4 . -‐0.2 . 0 肯定・否定の どちらも . 0.2 . 0.4 . 0.6 . 0.8 . 1 肯定側のみ .
(25) 肯定派・否定派はそれぞれムラを作っている 両者の意見交換は少ない → 風評対策の難しさ . 収穫前に何をはかったのでしょう?福島県 産の桃の総出荷量の何パーセントがベクレ ル検査されているんですか?検出限界値は いくつですか? @xxxxxxx: 福島の桃農家で すが、収穫前にちゃんと検査して安全なの は確認してますよ?何が不満なんですか .
(26) 肯定派・否定派はそれぞれムラを作っている 両者の意見交換は少ない → 風評対策の難しさ 否定→否定 0% 2011-‐05 2011-‐07 2011-‐09 2011-‐11 2012-‐01 2012-‐03 2012-‐05 2012-‐07 2012-‐09 2012-‐11 2013-‐01 2013-‐03 2013-‐05 2013-‐07 . 10% . 20% . 30% . 否定→肯定 40% . 支持→肯定 50% . 60% . 肯定→肯定 70% . 80% . 90% . 100% .
(27) ツイートデータの解析例② . 参議院選挙. with 朝日新聞. (2013年7月3日, 22日,26日 朝日新聞掲載)!.
(28) 参議院選挙のツイート分析 ( 2013年7月3日 朝日新聞掲載) 分析内容 政策・政党名でツイートを検索し, 日々のツイート数,関連語を分析 知見 • ツイート総数が衆院選前と比べ 3割減(参院選への関心低い)! • 共産党に関するツイートが増加! • 維新の会のツイートは激減! • ネット選挙に関連して,未成年 のリツイート問題が話題に! • 原発を含むツイートが依然多い .
(29) 世の中の関心を自動的に掘り起こす ( 2013年7月26日 朝日新聞掲載) 分析内容 記者のフィル ターを介さずに,ツイートか ら社会の論点・関心を抽出 結果と課題 • 「児童ポルノ禁止法改正. 案」「Jリーグの2ステージ 制」など,新聞が取り上げ ていない話題を抽出 • 分析結果がそのまま新聞 記事に掲載された • 賛否を分離して数を出す ことは出来なかった .
(30) 議論になっている話題 朝日新聞社とライセンス契約(2013)!.
(31) 信頼できる情報を 見分けるための支援" 情報の「背景」の可視化 (@tohokutaro) 313. (@hanatky) HP http://bit.ly/gQxWZq 78. (@jirosaka) !. (@ichirok) @tohokutaro. (NHK. )&.
(32) 震災直後に流れたデマ .
(33) デマを否定する情報も .
(34) 情報の期限切れ .
(35) 情報の期限切れ ツイート数 . 要 解 請 決 . . 5h . 《緊急:拡散希望》ICUのみ自家発電中。燃料のA重油 も朝7時でなくなり、人工呼吸器も止まってしまいます。 A重油の入手先をご教示ください。0222482131(仙台 市太白区広南病院用度課電気室) [拡散希望]電話すると、仙台市太白区広南病院用度 課電気室は燃料のA重油は解決したとのこと 自衛隊に届け! #japan 朝の七時までに広南病院に A重油を下さい。全ての人の呼吸器がとまります。至 急A重油の入手先をご教示ください。0222482131仙 台市太白区広南病院用度課電気室。 ... . 要請の拡散が収束しない! .
(36) 情報の信頼性をどう担保するか 情報の「背景」の可視化 東北太郎(@tohokutaro) イソジンを飲めば甲状腺がんを防げるよ. 反論 . 313人がリツイート . 東京花子(@hanatky) イソジンの件はデマです. 放射線研究所HPを見て!! http://bit.ly/gQxWZq 78人がリツイート . 反論 懐疑 九州一郎(@ichirok) @tohokutaro これ本当? . 大阪二郎(@jirosaka) ヨウ素を含むうがい薬”飲ま ない で” (NHKニュース) .
(37) 情報の信頼性をどう担保するか 情報の「背景」の可視化 . 近畿鯛(@kinkidai) みんな,これ見て! . 東海亜(@tokaia) 北海道君(@hokka) . 反論 . ちょっとイソジン買ってくる. . 厚労省(@mhlw) . ソースは? 東北太郎(@tohokutaro) イソジンを飲んではいけ ません. 反論 懐疑 イソジンを飲めば甲状腺がんを防げるよ. 参照 . 同意 . 発言 . 同意 . 313人がリツイート . 東京兼(@tkyken) . 同意 . 反論 . イソジン飲んでみたけど, 超まずかった. . 反論 . 同意 . 発言 . 懐疑 . 厚労省(@mhlw) . 東京花子(@hanatky) . 参照 . 大阪二郎(@jirosaka) . 消毒薬を服用すると,下 痢・腹痛が発生します. . イソジンの件はデマです. 参照 放射線研究所HPを見て!! 参照 http://bit.ly/gQxWZq 78人がリツイート 発言 . ヨウ素を含むうがい薬”飲ま 参照 参照 ない で” (NHKニュース) 宮城子(@miyako) . 九州一郎(@ichirok) 同意 中部力(@chuburiki) . 震災の混乱に乗じた! 悪質な流言に注意を . @tohokutaro これ本当? 新聞で読んでびっくり. 参照 . 参照 . 同意 . 山陰塊(@saninkai) 情報社会でもこんなこ とが起こるとは…. .
(38) 言論マップ 質問 . イソジンで被曝を防げる?. 肯定 . 被曝を軽減するにはイゾジンがいい 否定 . イソジンは被曝対策には使えません.
(39) 平時の一般のトピックでも.
(40) 同意・対立・根拠の認識 事実性(モダリティ)解析 + 構造的アライメント + 関係パターン認識 Collagen has beautiful skin effects.. コラーゲンには美肌効果がある +存在 . + existence . − 存在 . − existence . コラーゲンをサプリメントで飲んでも、 Even when taken as a supplement, 途中でアミノ酸に分解されてしまうので、 (collagen) ends up broken down into amino acids so,!. 肌をきれいにする効果は期待できません。 (Φが) we cannot expect (collagen) to be effective at making skin pretty..
(41) 事実性の推定 そのイベントは起こったのか起こっていないのか . 流出しなかった (流出しなかった)! 流出したではないか (流出した)! 流出しただけでない (流出した)! 流出を防いだ (流出しなかった)! 流出を抑えた (流出した,でも少し)! 流出を止めたい (流出した,今も流出)!.
(42) 同意・対立・根拠の認識 事実性(モダリティ)解析 + 構造的アライメント + 関係パターン認識 対立意見の根拠 evidence of opposing opinion . Collagen has beautiful skin effects.. コラーゲンには美肌効果がある . 美肌=肌を美しくする beautiful skin = to beautify skin. 肌を美しくする to beau(fy skin 美しい→きれい beau(ful→pre2y . +存在 . + existence . − 存在 . 対立 conflict . − existence . コラーゲンをサプリメントで飲んでも、 Even when taken as a supplement, 途中でアミノ酸に分解されてしまうので、 (collagen) ends up broken down into amino acids so,!. 根拠 . evidence . 肌をきれいにする効果は期待できません。 (Φが) we cannot expect (collagen) to be effective at making skin pretty..
(43) 言論マップで利用している語彙知識 • 日本語WordNet(Bond+ 2009): 56,741 synsets,92,241 語! – 過剰: 冗多,過多,冗長,余った,余計,余分! – 効果: 効目,実効,効,利き目,効き目,利き,効力,効き,功能,効能! – 病気 ⇔ 具合い, 丈夫, 健康, フィットネス, 健全, 多幸! • 事象間関係知識(Matsuyoshi+ 2008): 約140万対! – <誰か>が<何か>を摂取する − <誰か>が<何か>を取る (上位語) ! – <何か>が普通だ − <何か>が異常だ (反義) ! • Wikipediaから抽出した同義語: 113,401 synsets! – HIDランプ−高圧放電灯−高輝度放電ランプ! – バイオ燃料−エコ燃料−バイオエネルギー ! • Wikipediaから抽出した上位下位関係(Sumida+ 2008): 約350万対! – イソフラボン−女性ホルモン様成分! – キシリトール−甘味添加物! • 文脈類似度に基づく動詞間含意関係(ALAGIN): 約170万対! – 引き起こす−もたらす, 予防する−防げる, ケアする−防止する!.
(44) 賛否によるネット情報の自動分析は世界初 言語処理学会 最優秀発表賞(2010)! 言語処理学会 若手奨励賞(2010)! CICLing Best Paper Award(2011)! 日経新聞技術トレンド調査 総合3位(2011)! 情報処理学会 山下記念研究賞(2012) .
(45) 現在のウェブの問題 誤情報を見ている人に 訂正情報が伝わらない! . ハイパー リンク ④ _____ まとめ . ③ _____ _____ デマ . ① _____ _____ 訂正情報 ハイパー リンク _____ . 現在の Web空間 .
(46) ウェブの情報の流れを変える 論理的な 言論空間 . 対立 . 誤情報 批判 . まとめ ハイパー リンク ④ _____ まとめ . ③ _____ _____ 誤情報 . ① _訂正情報 ____ _____ . 発信 . 賛成 _____ ① _____ _____ 訂正情報 ハイパー リンク ② _____ . 現在の Web空間 .
(47) 「裏を取る」を支援 「ω-3脂肪酸はADHDの改善に有効」 の対立ページ. 深海魚油 ソフトカプセル Deep sea Fish Oil So; Capsules . 健康食品データベース DHA... [独立行政法人 国立栄養研究所] 小児のADHDは血中DHAレベルの低さと 関連があるが、 DHAは小児の注意欠陥多 動性障害(ADHD)に対して、経口摂取で効 果がないことが示唆されている。DHAを1 日あたり345mg摂取しても改善はみられ なかった.... ○○社によって製造された深海 魚油のソフトカプセルです。... 主な成分であるω-3脂肪酸は, 血液のより良い循環を促進し, 高コレステロールの改善,血栓 の防止,高血圧の改善,心臓の 健康維持をサポートします。ま た、双極性障害,ADHDの改善 に有効です。. 魚油のオメガ3脂肪酸、頭を良 くする効果ない=英研究. 対立 . [ロイター] 英国で行われた研究によると、 魚油に含まれるオメガ3脂肪酸は、心臓の 健康のためには良いが、脳の機能を高める 効果はないという。ロンドン大学の研究者 らが専門誌「アメリカン・ジャーナル・オ ブ・クリニカル.... 「ω-3脂肪酸はADHDの改善に有効」 の根拠ページ. 生活習慣をサポートする 『オメガ3脂肪酸 (後編)』. 根拠 . [サプマートUSA] ... ADHD、統合失調症、 アルツハイマー疾患のような精神・認知に 関する疾患を患う人は、血中のオメガ3脂 肪酸レベルが低い人が多いことから、この ような精神・認知に関係する疾患に対し、 オメガ3脂肪酸は有効性が期待できます。.... あ れ ? ち が う の か ぁ.
(48) 耐災害ICTを目指す 自然言語処理 .
(49) 東日本大震災で判明した災害対応の課題. 被災者. 警察・消防. 医療機関. 防災情報 . 市町村の 災害対策本部 ・各部局 .
(50) さまざまな防災情報 業務区分 本部_̲消⽕火活動. 17時現在、15時に発⽣生した洞洞沢の⽕火災は鎮⽕火しました。. 本部_̲物資調達. ベビーおむつの在庫が⽀支所にはありません。中上薬局か ら粉ミルクも確保する必要があります。. 本部_̲交通規制対応. ⼤大⾕谷の国道45線は津波によって陥没しており、通⾏行行不不 能です。. 避難所開設・閉鎖. ⼩小泉中の避難所を副分団⻑⾧長が確認しました。昨⽇日より開 設とのこと、電気もガスも⽔水も使えないので⽀支援願いま す。⼩小泉地区、管理理番号は⼩小泉ー2です。トイレ使⽤用可 能は30です. 避難所施設復復旧. 津⾕谷中学校は、停電していますが、教室を解放して避難 者を受け⼊入れています。. 物資(避難所). 寺⾕谷からおにぎりが100個の到着したので、仙翁寺に いる約200⼈人の消防団へ届けました。. 仮設トイレ(避難所). ⼩小泉中学校です。仮設トイレの設置をお願いします。⾄至 急、10個ほど設置できないでしょうか?. とりまとめ様式・避難者. 避難者の報告です。⼩小泉中学校が約400⼈人、はまなす の丘が約300⼈人になります。.
(51) 我が国の基礎自治体における災害対応 自治体. 紙と音声での情報収集・伝達 防災情報. 避難者○人 △△地区○人 □□地区○人 . (多種・多量) . ホワイトボード 音声. 情報共有の手段は紙とホワイトボード. FAX. 隣の部局間でも情報が共有できない. 画像. メール . SNS .
(52) 東日本大震災で判明した災害対応の課題 国 部局A. 自治体 部局B. 被災者. 警察・消防. 医療機関. 防災情報 . 自治体. 情報が錯綜・断絶 横の繋がり・連係が困難 被災者に対して. 迅速・公平な支援ができない. 次の災害へ.
(53) 既存の災害対応情報システム 防災情報 (多種・多量) . 情報入力の ボトルネック. 音声. 災害対応情報システム. FAX. 防災情報データベース 画像. メール . SNS . 米国 専門職員による キーボード入力. 日本ではDBに入力する人が足りない 東日本大震災でも機能しなかった.
(54) JST/RISTEX プロジェクト (代表者:乾,2013〜2015) . 防災情報のデータベース化を技術で支援 防災情報 (多種・多量) . 音声. FAX. 画像. メール . SNS . 防災情報DB化システム 自然言語処理. ユーザ インタ フェース. 災害対応情報システム 防災情報データベース. 音声認識・画像認識. 防災情報のDB化のコストを大幅縮減.
(55) JST/RISTEX プロジェクト (代表者:乾,2013〜2015) . 防災情報のDB化の支援 音声認識 (画像認識). 自然言語で語られる生の防災情報は計算機処理不可 構造化されていない . 構造が統一された表(DB)に情報をふるい分ける 構造化されていない防災情報. 国道4号線のA交差点付近、陥没 自然言語処理 してますが、応急工事が終わって 通れます。 [生活基盤部] 土木施設調査・応急・復旧スキーマ 報告 施設 ID 日時 種別 . 名称 . 町村 名 . 被害内容 . 区間 . 83 . 5/11 道路 13:46 . 97 . Dトンネル 5/11 国道45線 道路 B町 南出口 13:49 Cバイパス N○:E○ . 国道 4号線 . 防災情報データベース. B町 A交差点 N○:E○ . 使用 応急復旧 復旧 落 亀 崩 陥 詳細 可否 終了時期 完了日 下 裂 壊 没 情報 な な な あ し し し り . 可 . 5/11 . な な あ な 土砂 否 し し り し 崩れ . 未定 .
(56) JST/RISTEX プロジェクト (代表者:乾,2013〜2015) . 音声認識・衛星通信と連携した図上訓練. $. 情報の構造化. (2014年度). $. NPO. 利用環境整備. $. スキーマ設計. ⾳音声⼊入⼒力力. ○○市. 防災情報システム (WebEOC). 防災情報DB化 ⽀支援システム. ⾳音声 認識識. 宮城県. ⾔言語 解析. 地図表⽰示. DB. 取りまとめ報 ⾃自動⽣生成 (⼀一部). 市⻑⾧長. A課. 気仙沼市. 防災情報 DB化⽀支援 システム. 防災情報 DB化⽀支援 システム. B課. 災対本部 C課.
(57) JST/RISTEX プロジェクト (代表者:乾,2013〜2015) . プロトタイプシステム.
(58) 情報通信研究機構(NICT)との共同研究 . 耐災害情報分析システム(2014年度公開予定) #. NICT. #. # # #. •. ××. ××. ##. □□. □□. # •. 4/11# # 4/12#. #. #. #. ![. !#. ]#. Twi.er. #. #. #. #. ○○ #. !. :#. #. !. # #. H24 # # #. #. # #. :# #.
(59) 情報通信研究機構(NICT)との共同研究 . 情報の「裏を取る」支援 NICT QAシステムに聞く 質問「放射能に効くのは何ですか?」 . イソジン . とろろ . ワカメ . 東北大言論マップで裏を取る .
(60) その先の言語理解研究へ 「行間を読む」言語処理への挑戦 .
(61) ビッグデータとの対話 自然言語処理 情報の編集 . 知識の獲得 .
(62) 「行間を読む」 週末に母とやなぎに行ってみました。 うどんを食べるために . うどん屋の名前 . 私は評判のきつねうどんを頼んだの 私はうどんを食べた . やなぎで . ですが、期待通りの味に大満足。 うどんが美味しいと . きつねうどんの .
(63) 乾 ・岡崎 研究室 . 「行間を読む」 常識に基づく推論 . 庭に洗濯物を干したとたんに雨が降ってきた ガッカリ 庭に洗濯物を干す . 雨が降る . 〈洗濯物を干す〉 目的 〈洗濯物を乾かす〉 常識的な 知識 条件 〈洗濯物が乾く〉 〈晴れ〉.
(64) 大問題! 膨大な知識をどうやって集めるか 言葉の理解に必要な知識 • • • • •. 「洗濯物を干す」目的は「洗濯物を乾かす」こと 「洗濯物が乾く」条件は「晴れている」こと 「うどん」は,「レストラン(うどん屋)で食べる」 「(料理を)注文する」ことを「頼む」とも言う 「レストラン」では,「料理を注文」して,しばらく すると料理が「出て」きて,それを「食べる」 .
(65) 常識をビッグデータから集める 天気が良いので,洗濯物がよく乾く 最近,晴れが続いているので,洗濯物がよく乾く 日が当たらないので,洗濯物が乾くのもままならず お天気は晴れマークが多かったから,洗濯物が乾く 湿度はなかったから,洗濯物が乾く 今日は,空気が乾燥していて,洗濯物がよく乾く 梅雨空が続いたため,洗濯ものが乾かず . 天気が良い(晴れる) → 洗濯物がよく乾く .
(66) ビッグデータ出現のインパクト 自然言語処理 知識の編集 . 知識の獲得 .
(67) 仮説推論(abduction) 観測に対する最良の仮説(説明)を求める推論!. 仮説 . スプリンクラー消し忘れ? . 夜のうちに雨が降った? . 観測 . 自宅の庭が濡れている . 隣りの庭も濡れている .
(68) 背景知識 . 「行間を読む」仮説推論 . 「何かを食べる」には「飲食店に行って、それを注文」すればよい! 食べる(x, z) → 飲食店(w) ∧ 行く(x, w) ∧ 注文する(x, z, w)! 「(店で)注文する」ことを「頼む」とも言う! 注文する(x, z, w) → 頼む(x, z, w) 「ある食べ物が評判」なら「それを食べたい」と思う! 評判(z) → 食べる(x, z)!. 評判(z) 評判だから食べに行った . 私はきつねうどんを食べた . 仮説 . 飲食店(w) . やなぎ=飲食店 . 食べる(x, z) . 食べる目的 で行った . y=w . 注文する(x, z, w) . 「頼む」= やなぎで注文する . w=v . 観測 私(x) ∧ やなぎ(y) ∧ 行く(x, y) ∧ きつねうどん(z) ∧ 頼む(x, z, v) ∧ 評判(z) . 母とやなぎに行った。. 評判のきつねうどんを頼んだ。 .
(69) 背景知識 . 「行間を読む」仮説推論 . 論理推論と統計的機械学習の融合が可能に 「何かを食べる」には「飲食店に行って、それを注文」すればよい! 食べる(x, z) → 飲食店(w) ∧ 行く(x, w) ∧ 注文する(x, z, w)!. B 背景知識 . H 仮説 . ∪ . 「(店で)注文する」ことを「頼む」とも言う! 注文する(x, z, w) → 頼む(x, z, w) . = | . 「ある食べ物が評判」なら「それを食べたい」と思う!. 処理の手順を捨象した宣言的知識 評判(z) → 食べる(x, z)!. O 観測 . 評判(z) 評判だから食べに行った . 私はきつねうどんを食べた . 食べる(x, z) . 解釈=仮説推論の副産物 仮説 . 飲食店(w) . やなぎ=飲食店 . 食べる目的 で行った . y=w . 注文する(x, z, w) . 「頼む」= やなぎで注文する . w=v . 観測 私(x) ∧ やなぎ(y) ∧ 行く(x, y) ∧ きつねうどん(z) ∧ 頼む(x, z, v) ∧ 評判(z) . 母とやなぎに行った。. 評判のきつねうどんを頼んだ。 .
(70) (S1: A lot of traffic once used Folsom Dam Road. )! S2: Right now, the road is closed.! S3: Most of the people who used the road every day are angry. event (_18, Angry-adj~_21, EF, S2) $0.36/23 _26=_18, _21=Angry-adj, S2=_27 event (_18~_26, Angry-adj, EF, S2~_27) $3.17/26 cause. cause. cause (_0, ENF, _18~_26, EF) $0.00/27 cause. ^. cause. ^. cause (X1, F, _0, ENF) $0.00/4. _0=_30, _31=ENF, _26=_18. X1=_17, _0=_30, _31=ENF. cause (_0~_30, ENF~_31, _18, EF) $0.22/46. cause (X1~_17, F, _0~_30, ENF~_31) $0.22/45 Transitive. value (_0, Neg, _1) $1.44/7. inhibit. Transitive. REScause6-2. ^. polar event (_0, Use-vb, ENF, _1) $1.20/3. event (X1~_17, Close-vb~_19, F, S1) $0.36/21. inhibit. cause (X1~_17, F, _18, EF) $0.36/20 REScause6-2 REScause6-2. ^. event (E16~_20, Angry-adj~_21, F, S2) $0.36/22 REScause6-2. ^ X1=_17, _19=Close-vb Res (S1, S2) $1.20/6. Resultamve . _20=E16, _21=Angry-adj. (原因-‐結果) . ?. S2 . event (X1, Close-vb, F, S1) $1.00/0. CoRel (S1, S2) $1.00/2. event (E16, Angry-adj, F, S2) $1.00/1. S3 .
(71) (S1: A lot of traffic once used Folsom Dam Road. )! S2: Right now, the road is closed.! S3: Most of the people who used the road every day are angry. . ③ 言語処理への応用" ① 世界最速の推論エンジン" 7分(US) → 3秒(東北大)!. NLPAR2013! NLP若手の会 奨励賞 (2011)! 言語処理学会 年次大会最優秀賞 (2014) . COLING2012, PAIR2011! 情報処理学会 山下記念賞 (2012)! 言語処理学会 年次大会優秀賞 (2012) . ② 仮説の評価関数の学習(世界初)! CICLing2013! NLP若手の会 奨励賞 (2012)! 自然言語処理研究会 学生奨励賞 (2012)! IBIS 2012 Honorable Mention (2012) Resultamve (原因-‐結果) .
(72) まとめ グーテンベルク以来の情報爆発 地球規模のコミュニケーションの支援へ 鍵は自然言語処理による情報・知識編集 耐災害・ソーシャルリスニング・メディエーション 言語処理技術自身もビッグデータで飛躍 「行間を読む」言語処理は知識×推論 言語処理から人工知能にブレークスルーを .
(73)
関連したドキュメント
「課題を解決し,目標達成のために自分たちで考
非自明な和として分解できない結び目を 素な結び目 と いう... 定理 (
この設定では、管理サーバ(Control Center)自体に更新された Windows 用の Dr.Web Agent のコンポ ーネントがダウンロードされませんので、当該 Control Center で管理される全ての Dr.Web
Classroom 上で PowerPoint をプレビューした状態だと音声は再生されません。一旦、自分の PC
限られた空間の中に日本人の自然観を凝縮したこの庭では、池を回遊する園路の随所で自然 の造形美に出会
本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o
町の中心にある「田中 さん家」は、自分の家 のように、料理をした り、畑を作ったり、時 にはのんびり寝てみた
里親委託…里親とは、さまざまな事情で家庭で育てられない子どもを、自分の家庭に