• 検索結果がありません。

ビッグデータから知をつむぐ 自然言語処理

N/A
N/A
Protected

Academic year: 2021

シェア "ビッグデータから知をつむぐ 自然言語処理"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)

ビッグデータから知をつむぐ 自然言語処理

ビッグデータから知をつむぐ 自然言語処理

乾 健太郎

東北大学 情報科学研究科

[email protected]

乾 健太郎

東北大学 情報科学研究科

[email protected]

東北大学電気・情報 東京フォーラム

2013

11

21

(2)

コミュニケーション コミュニケーション

あらゆる社会活動の根幹

最も重要なメディア

言語 (こと

ば)

(3)

ソーシャルメディアの爆発的普 ソーシャルメディアの爆発的普 及

http://internet.watch.impress.co.jp/docs/event/itweek12/20120511_532162.html

(4)

言葉がわかる賢いコンピュータを 言葉がわかる賢いコンピュータを 作る

作る

自然言語処理 自然言語処理

自然言語処理 人工知能

自然言語処理

言葉 (=自然言語)で伝達される情報を 理解・検索・抽出・翻訳・整理・分析し、

地球規模のコミュニケーションを支援するソフトウェア技術

(5)

言語意味解析による情報の編集 言語意味解析による情報の編集

ウェブ・

SNS

マスメディア 政府・会社 研究機関大学・

国民

談 話 解 析 談 話 解 析

情 報 検 索 情 報 検 索 リ ン ク 解 析 リ ン ク 解 析

言 語 解 析 言 語 解 析

情報・意見の整理・集約・可視 化

知 識 獲 得 知 識 獲 得 意 味 解 析 意 味 解 析

デマ検出

信憑性分析 根拠検索 健康・危機管理 行動決定支援

アプリケーシ ョン

情報リテラシー

政府

震災 混乱に乗じた 悪質な流言に注意を 宮城子(@miyako) ヨウ素を含むうがい薬”飲ま ないで” (NHKニュース)

大阪二郎(@jirosaka) イソジン 件 デマです.

放射線研究所HPを見て!

http://bit.ly/gQxWZq 東京花子(@hanatky)

78人がリツイート 消毒薬を服 すると,下

・腹 が発 します.

厚労省(@mhlw)

イソジンを飲め 甲 状 がんを防げるよ.

東北太郎(@tohokutaro)

313人がリツイート イソジンを飲んで い

けません.

厚労省(@mhlw)

イソジン飲んでみたけ ど,超まずかった.

東京兼(@tkyken) ちょっとイソジン買っ てくる.

東海亜(@tokaia)

参照

反論

発言 参照

参照 発言

同意

反論 反論

同意 同意

大学・研究機関 マスメディア

市民 発言

解析・集約

(6)

東北大学 自然言語処理研究室 東北大学 自然言語処理研究室

研究スタッフ

2010 2011 2012 2013

0 10 20 30

2010; 4 2011; 5 5

2010; 2

2011; 6 12

2010; 2

2011; 3

4 2010; 3

2011; 4

10

学部 修士 博士

研究生

スタッフ

(NICT水野淳太研究員)

乾健太郎教授 岡崎直観

准教授 渡邉陽太郎

助教 松林優一郎

特任助教 井之上直也

研究員 C. Kruengkrai

研究員 研究員 募集中

VACANT

VACANT

(7)

東北大学 自然言語処理研究室 東北大学 自然言語処理研究室

2010 年 9 月 言語処理学会 第 16 回年次大会 最優秀発表賞 2011 年 2 月 CICLing-2011 Best Paper Award (First Pla ce)

2011 年 3 月 言語処理学会 2010 年度 最優秀論文賞

2011 年 6 月 日本経済新聞社 技術トレンド調査 総合 3 位 2011 年 9 月 NLP 若手の会 第 6 回シンポジウム 奨励賞 2012 年 5 月 情報処理学会 自然言語処理研究会 学生奨励 賞

2012 年 9 月 情報処理学会 2012 年度 山下記念研究賞 2012 年 9 月 言語処理学会 第 18 回年次大会 優秀賞 2012 年 9 月 NLP 若手の会 第 7 回シンポジウム 奨励賞 2013 年 3 月 東北大学 情報科学研究科長賞

2013 年 3 月 情報処理学会 第 75 回全国大会 学生奨励賞 2013 年 3 月 情報処理学会 第 75 回全国大会 学生奨励賞 2013 年 3 月 情報処理学会 東北支部 学生奨励賞

2013 年 9 月 言語処理学会 第 19 回年次大会 優秀賞

(8)

ビッグデータと対話する自然言語処理 ビッグデータと対話する自然言語処理

自然言語処理 自然言語処理

知識の編集

知識の編集 知識の獲得 知識の獲得

話題① 話題①

話題② 話題②

(9)

福島の桃 with NHK 福島の桃 with NHK

ツイートデータの解析例① ツイートデータの解析例①

2013.9.8

http://www.youtube.com/watch?v=RwIjlqDVNdg

(10)

ツイート数の推移(肯定・否定別)

ツイート数の推移(肯定・否定別)

「福島産のモモを買うこと、食べること」に肯定的か否定的か

福島の桃は市場に出てい るものはしっかりと調 べられているので安全 です!何よりこんな笑 顔が素敵なおじちゃん おばちゃんの愛がつま ってるのでめちゃめち ゃ美味しいです!

肯定側ツイート

福島では山梨からトラッ クが桃を安値で買い占め に来ている。山梨産とい っても安心はできない。

否定側ツイート

(11)

否定的な意見が強い 肯定的な意見が強い

RT ネットワーク RT ネットワーク

RT ネットワーク上で2つのクラスタ

(グループ)

に分離

肯定・否定の推測結果に一致する

反対の立場のツイートはあまり RT されない

反対側のツイートは拡散させたいと思われない

リツイート

(12)

2011-05 2011-06 2011-07 2011-08 2011-09 2011-10 2011-11 2011-12 2012-01 2012-02 2012-03 2012-04 2012-05 2012-06 2012-07 2012-08 2012-09 2012-10 2012-11 2012-12 2013-01 2013-02 2013-03 2013-04 2013-05 2013-06 2013-07 2013-08

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

否定→否定 否定→肯定 支持→肯定 肯定→肯定

肯定派・否定派はそれぞれ ムラ を作って

いる

両者の意見交換は少ない → 風評対策の難しさ

肯定派・否定派はそれぞれ ムラ を作って

いる

両者の意見交換は少ない → 風評対策の難しさ

(13)

参議院選挙 with 朝日新聞

( 2013 年 7 月 3 日 , 22 日, 26 日 朝日新聞掲載)

参議院選挙 with 朝日新聞

( 2013 年 7 月 3 日 , 22 日, 26 日 朝日新聞掲載)

ツイートデータの解析例②

ツイートデータの解析例②

(14)

参議院選挙のツイート分析

( 2013 年 7 月 3 日 朝日新聞掲載)

参議院選挙のツイート分析

( 2013 年 7 月 3 日 朝日新聞掲載)

ツイート総数が衆院選前と比べ 3割減(参院選への関心低い)

共産党に関するツイートが増加

維新の会のツイートは激減

ネット選挙に関連して,未成年 のリツイート問題が話題に

原発を含むツイートが依然多い

分析内容

政策・政党名でツイートを検索 し,日々のツイート数,関連語 を分析

知見

(15)

世の中の関心を自動的に掘り起こす

( 2013 年 7 月 26 日 朝日新聞掲載)

世の中の関心を自動的に掘り起こす

( 2013 年 7 月 26 日 朝日新聞掲載)

結果と課題

「児童ポルノ禁止法改正 案」「Jリーグの2ステ ージ制」など,新聞が取 り上げていない話題を抽 出

分析結果がそのまま新聞 記事に掲載された

賛否を分離して数を出す ことは出来なかった

        記者のフ 分析内容 ィルターを介さずに,ツ イートから社会の論点・

関心を抽出

(16)

信頼できる情報を 見分けるための支援 信頼できる情報を 見分けるための支援

情報の「背景」の可視化

イソジンを飲め 甲 状

腺がんを防げるよ.

東北太郎(@tohokutaro)

313人がリツイート

イソジン 件 デマです.

放射線研究所HPを見て!

http://bit.ly/gQxWZq 東京花子(@hanatky)

78人がリツイート @tohokutaro これ本当?

九州一郎(@ichirok) ヨウ素を含むうがい薬”飲ま ない ” (NHKニュース)

大阪二郎(@jirosaka) 反論

反論

(17)

言論マップ 言論マップ

イソジンで被曝を防げる?

イソジンで被曝を防げる?

質問

被曝を軽減するにはイゾジンがいい 被曝を軽減するにはイゾジンがいい

肯定

イソジンは被曝対策には使えません イソジンは被曝対策には使えません

否定

(18)

平時の一般のトピックでも

平時の一般のトピックでも

(19)

根拠

evidence

根拠

evidence

対立意見の根 拠

evidence of opposing opinion

対立意見の根 拠

evidence of opposing opinion

同意・対立・根拠の認識 同意・対立・根拠の認識

存在

+ existence

存在

+ existence

存在

existence

存在

existence

対立

conflict

対立

conflict

コラーゲンをサプリメントで飲ん でも、

Even when taken as a supplement,

途中でアミノ酸に分解されてしまうので

(collagen) ends up broken down into amino acids so,

途中でアミノ酸に分解されてしまうので

(collagen) ends up broken down into amino acids so,

肌をきれいにする効果は期待できません。

we cannot expect (collagen) to be effective at making skin pretty.

肌を美しくする

to beautify skin

肌を美しくする

to beautify skin

美しい→きれい beautiful→pretty 美しい→きれい beautiful→pretty 美肌=肌を美しくする

beautiful skin = to beautify skin 美肌=肌を美しくする

beautiful skin = to beautify skin

Φ

が)

Collagen has beautiful skin effects.

コラーゲンには美肌効果がある

事実性(モダリティ)解析 + 構造的アライメント + 関係パターン認識

(20)

賛否によるネット情報の自動分析は世界初

言語処理学会 最優秀発表賞(

2010

) 言語処理学会 若手奨励賞(

2010

CICLing Best Paper Award

2011

日経新聞技術トレンド調査 総合

3

位(

2011

情報処理学会 山下記念研究賞(

2012

(21)

_____

_____

_____

_____

_____

_____

現在の

Web

空間

ハイパーリンク ハイパーリンク

ウェブの情報の流れを変える ウェブの情報の流れを変える

まとめ

デマ 訂正情報

_____

_____

_____

批判 賛成

対立

発信

まとめ

デマ 訂正情報

論理的な 言論空間

論理的な 言論空間

(22)

深海魚油ソフトカプセル

○○ 社によって製造された深海 魚油のソフトカプセルです。 ...

主な成分である ω-3 脂肪酸は,

血液のより良い循環を促進し,

高コレステロールの改善,血栓 の防止,高血圧の改善,心臓の 健康維持をサポートします。ま た、双極性障害, ADHD の改善 に有効です。

Deep sea Fish Oil Soft Capsules

[ロイター] 英国で行われた研究による と、魚油に含まれるオメガ3脂肪酸は、

心臓の健康のためには良いが、脳の機能 を高める効果はないという。ロンドン大 学の研究者らが専門誌「アメリカン・ジ ャーナル・オブ・クリニカル...

[ロイター] 英国で行われた研究による と、魚油に含まれるオメガ3脂肪酸は、

心臓の健康のためには良いが、脳の機能 を高める効果はないという。ロンドン大 学の研究者らが専門誌「アメリカン・ジ ャーナル・オブ・クリニカル...

魚油のオメガ 3脂肪酸、頭を良 くする効果ない=英研究

[独立行政法人 国立栄養研究所]

小児のADHDは血中DHAレベルの低さ と関連があるが、 DHAは小児の注意欠 陥多動性障害(ADHD)に対して、経口摂 取で効果がないことが示唆されている。

DHA1日あたり345mg摂取しても改 善はみられなかった...

[独立行政法人 国立栄養研究所]

小児のADHDは血中DHAレベルの低さ と関連があるが、 DHAは小児の注意欠 陥多動性障害(ADHD)に対して、経口摂 取で効果がないことが示唆されている。

DHA1日あたり345mg摂取しても改 善はみられなかった...

健康食品データベース DHA..

生活習慣をサポートする

『オメガ3 脂肪酸 (後編)』

[サプマートUSA] ... ADHD、統合失調 症、アルツハイマー疾患のような精神・

認知に関する疾患を患う人は、血中のオ メガ3脂肪酸レベルが低い人が多いこと から、このような精神・認知に関係する 疾患に対し、オメガ3脂肪酸は有効性が 期待できます。...

[サプマートUSA] ... ADHD、統合失調 症、アルツハイマー疾患のような精神・

認知に関する疾患を患う人は、血中のオ メガ3脂肪酸レベルが低い人が多いこと から、このような精神・認知に関係する 疾患に対し、オメガ3脂肪酸は有効性が 期待できます。...

ω-3脂肪酸はADHDの改善に有効」

の対立ページ

ω-3脂肪酸はADHDの改善に有効」

の対立ページ

ω-3脂肪酸はADHDの改善に有効」

の根拠ページ

ω-3脂肪酸はADHDの改善に有効」

の根拠ページ

対立 対立

根拠 根拠

「裏を取る」を支援

「裏を取る」を支援

(23)

その先の言語理解研究へ その先の言語理解研究へ

「行間を読む」言語処理への挑戦

「行間を読む」言語処理への挑戦

(24)

週末に母とやなぎに行ってみま した。 うどん屋 の名前

私はうどんを 食べた

きつねうどん

「行間を読む」

「行間を読む」

うどんを食べる ために

うどんが 美味しい と

やなぎで

私は評判のきつねうどんを頼ん

だのですが、期待通りの味に大

満足。

(25)

ガッカリ ガッカリ

「行間を読む」

常識に基づく推論

「行間を読む」

常識に基づく推論

庭に洗濯物を干す

庭に洗濯物を干す 雨が降る 雨が降る

庭に洗濯物を干したとたんに雨が降ってきた

常識的な 知識

〈洗濯物を干す〉 目的 〈洗濯物を乾かす〉

〈晴れ〉 条件 〈洗濯物が乾く〉

・岡崎乾

研究室

(26)

膨大な知識をどうやって集めるか 大問題! 大問題!

膨大な知識をどうやって集めるか

「洗濯物を干す」目的は「洗濯物を乾かす」

こと

「洗濯物が乾く」条件は「晴れている」こと

「うどん」は,「レストラン(うどん屋)で 食べる」

「(料理を)注文する」ことを「頼む」とも 言う

「レストラン」では,「料理を注文」して,

しばらく すると料理が「出て」きて,それを「食べ る」

「洗濯物を干す」目的は「洗濯物を乾かす」

こと

「洗濯物が乾く」条件は「晴れている」こと

「うどん」は,「レストラン(うどん屋)で 食べる」

「(料理を)注文する」ことを「頼む」とも 言う

「レストラン」では,「料理を注文」して,

しばらく すると料理が「出て」きて,それを「食べ る」

言葉の理解に必要な知識

言葉の理解に必要な知識

(27)

常識もビッグデータから集める 常識もビッグデータから集める

天気が良いので,洗濯物がよく乾く

最近,晴れが続いているので,洗濯物がよく乾く 日が当たらないので,洗濯物が乾くのもままなら お天気は晴れマークが多かったから,洗濯物が乾 ず

湿度はなかったから,洗濯物が乾く く

今日は,空気が乾燥していて,洗濯物がよく乾く 梅雨空が続いたため,洗濯ものが乾かず

天気が良いので,洗濯物がよく乾く

最近,晴れが続いているので,洗濯物がよく乾く 日が当たらないので,洗濯物が乾くのもままなら お天気は晴れマークが多かったから,洗濯物が乾 ず

湿度はなかったから,洗濯物が乾く く

今日は,空気が乾燥していて,洗濯物がよく乾く 梅雨空が続いたため,洗濯ものが乾かず

天気が良い(晴れる) → 洗濯物がよく乾 く

天気が良い(晴れる) → 洗濯物がよく乾

(28)

母とやなぎに行った。  評判のきつねうどんを 頼んだ。

母とやなぎに行った。  評判のきつねうどんを 頼んだ。

「何かを食べる」には「飲食店に行って、それを注文」すればよい

「(店で)注文する」ことを「頼む」とも言う

「ある食べ物が評判」なら「それを食べたい」と思う

「行間を読む」仮説推論

「行間を読む」仮説推論

(x)

やなぎ

(y)

行く

(x, y)

きつねうどん

(z)

頼む

(x, z, v)

評判

(z)

(x)

やなぎ

(y)

行く

(x, y)

きつねうどん

(z)

頼む

(x, z, v)

評判

(z)

飲食店

(w)

飲食店

(w)

評判

(z)

評判

(z)

やなぎ=

飲食店

評判

だから

食べに行った

注文する

(x, z, w)

注文する

(x, z, w)

y=wy=w w=vw=v

評判 (z) → 食べる (x, z) 評判 (z) → 食べる (x, z)

食べる (x, z) → 飲食店 (w) 行く (x, w) 注文する (x, z, w)

食べる (x, z) → 飲食店 (w) 行く (x, w) 注文する (x, z, w)

注文する (x, z, w) → 頼む (x, z, w) 注文する (x, z, w) → 頼む (x, z, w)

観測 仮説

B 背景知識

B 背景知識

O 観測

O 観測

H 仮説

H

仮説

|=

食べる目的 で行った

背景知識

「頼む」=

やなぎで

注文する

③ 言語処理への応用 :

NLP若手の会 奨励賞 (2011)

③ 言語処理への応用 :

NLP若手の会 奨励賞 (2011)

① 世界最速の推論エンジン

7 分(US 3 秒(東北大)

情報処理学会 山下記念賞 (2012) 言語処理学会 年次大会優秀賞

(2012)

① 世界最速の推論エンジン

7 分( US 3 秒(東北大)

情報処理学会 山下記念賞 (2012) 言語処理学会 年次大会優秀賞

(2012) きつねうどんを

食べた

食べる

(x, z)

食べる

(x, z)

② 仮説の評価関数の学習(世界

NLP若手の会初)奨励賞 (2012)

自然言語処理研究会 学生奨励賞 (2012) IBIS 2012 Honorable Mention (2012)

② 仮説の評価関数の学習(世界

NLP若手の会初)奨励賞 (2012) 自然言語処理研究会 学生奨励賞 (2012)

IBIS 2012 Honorable Mention (2012)

(29)

S1: A lot of traffic once used Folsom Dam Road. S2: Right now, the road is closed.

S3: Most of the people who used the road every day are angry.

(30)

ま と め ま と め

グーテンベルク以来の情報爆発

地球規模のコミュニケーションの支援へ 鍵は自然言語処理による情報・知識編集 ソーシャルリスニングとメディエーション

言語処理技術自身もビッグデータで飛躍

「行間を読む」言語処理は知識

×

推論

言語処理から人工知能にブレークスルーを

参照

関連したドキュメント

やなぎはうどん やなぎはうどん 屋の名前。私は 屋の名前。私は やなぎはうどん やなぎはうどん きつねうどんを きつねうどんを

書評・会議レポート募集のお知らせ

の下の遙かな平野を見やると,そこには大工場が建設

比喩性の判断は,受容主体の主観によるものであり,形式意味論的な妥当性・健全性を保持しうる

連文節もまた,そのPを文末述語とする標準形の文か    本論文では係り受けの種類が与えられているとして標

情報科学 情報セキュリティ入門 情報科学 進化する情報社会 情報科学 情報社会学概論 情報科学 初めての情報理論 情報科学

スコープの事象が成立しないことが理解できるだけでなく,焦点の部分を除いた事象は成立す

単語間類似度に基づく評価実験では,mai2vec も nwjc2vec もスピアマン順位相関係数の値自 体は低かった.ただし nwjc2vec