• 検索結果がありません。

ビッグデータから知をつむぐ 自然言語処理"

N/A
N/A
Protected

Academic year: 2021

シェア "ビッグデータから知をつむぐ 自然言語処理""

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)

ビッグデータから知をつむぐ 自然言語処理 "

乾 健太郎 "

東北大学 情報科学研究科

"

[email protected]

東北大学電気・情報 東京フォーラム

!

2013

11

21

!

(2)

コミュニケーション

あらゆる社会活動の根幹

最も重要なメディア

は


言語  (ことば)

(3)

ソーシャルメディアの爆発的普及

http://internet.watch.impress.co.jp/docs/event/itweek12/20120511_532162.html

(4)

言葉がわかる賢いコンピュータを作る

自然言語処理 

人工知能

自然言語処理

言葉(=自然言語)で伝達される情報を

 

理解・検索・抽出・翻訳・整理・分析し、

 

地球規模のコミュニケーションを支援するソフトウェア技術

(5)

言語意味解析による情報の編集

ウェブ・SNS

マスメディア 政府・会社 大学・

 

研究機関

国民

情報・意見の整理・集約・可視化

デマ検出

信憑性分析 根拠検索 健康・危機管理 行動決定支援

アプリケーション

情報リテラシー

! (@miyako)

(NHK )&

(@jirosaka)

HP !

http://bit.ly/gQxWZq (@hanatky)

78

&

(@mhlw)

(@tohokutaro)

313

&

(@mhlw)

(@tkyken)

&

(@tokaia)

解析・集約

(6)

東北大学 自然言語処理研究室 

研究スタッフ

!

!

5 12

4 10  (+2)

0 10 20 30

2010 2011 2012 2013

学部 修⼠士 博⼠士

研究⽣生

スタッフ 水野淳太

(NICT研究員)

乾健太郎郎

教授 岡崎直観

准教授 渡邉陽太郎

助教 松林林優⼀一郎郎

特任助教 井之上直也

研究員

C.  Kruengkrai  

研究員

研究員
 募集中

VACANT

VACANT

(7)

東北大学 自然言語処理研究室 

2010

9

!

言語処理学会 第

16

回年次大会 最優秀発表賞

2011

2

!CICLing-2011 Best Paper Award (First Place)!

2011

3

!

言語処理学会

2010

年度 最優秀論文賞

2011

6

!

日本経済新聞社 技術トレンド調査 総合

3

2011

9

!NLP

若手の会 第

6

回シンポジウム 奨励賞

2012

5

!

情報処理学会 自然言語処理研究会 学生奨励賞

2012

9

!

情報処理学会

2012

年度 山下記念研究賞

!

2012

9

!

言語処理学会 第

18

回年次大会 優秀賞

2012

9

!NLP

若手の会 第

7

回シンポジウム 奨励賞

! 2013

3

!

東北大学 情報科学研究科長賞

!

2013

3

!

情報処理学会 第

75

回全国大会 学生奨励賞

! 2013

3

!

情報処理学会 第

75

回全国大会 学生奨励賞

! 2013

3

!

情報処理学会 東北支部 学生奨励賞

2013

9

!

言語処理学会 第

19

回年次大会 優秀賞

(8)

ビッグデータと対話する自然言語処理

8

自然言語処理 

知識の編集 知識の獲得

話題

話題

(9)

福島の桃 with NHK!

ツイートデータの解析例

2013.9.8

h.p://www.youtube.com/watch?v=RwIjlqDVNdg

(10)

ツイート数の推移(肯定・否定別)

「福島産のモモを買うこと、食べること」に肯定的か否定的か

福島の桃は市場に出てい るものはしっかりと調べら れているので安全です!

何よりこんな笑顔が素敵な おじちゃんおばちゃんの愛 がつまってるのでめちゃめ ちゃ美味しいです!

肯定側ツイート

福島では山梨からトラックが 桃を安値で買い占めに来て いる。山梨産といっても安心 はできない。

否定側ツイート

(11)

否定的な意見が強い 肯定的な意見が強い

RT ネットワーク

•  RT

ネットワーク上で2つのクラスタ(グループ)に分離

!

– 

肯定・否定の推測結果に一致する

!

• 

反対の立場のツイートはあまり

RT

されない

!

– 

反対側のツイートは拡散させたいと思われない

!

リツイート

(12)

0%   10%   20%   30%   40%   50%   60%   70%   80%   90%   100%  

2011-­‐05   2011-­‐07   2011-­‐09   2011-­‐11   2012-­‐01   2012-­‐03   2012-­‐05   2012-­‐07   2012-­‐09   2012-­‐11   2013-­‐01   2013-­‐03   2013-­‐05   2013-­‐07  

否定否定 否定肯定 支持肯定 肯定肯定

肯定派・否定派はそれぞれ ムラ を作っている

両者の意見交換は少ない → 風評対策の難しさ

(13)

参議院選挙 with 朝日新聞

2013

7

3

, 22

日,

26

日 朝日新聞掲載)

!

ツイートデータの解析例

(14)

参議院選挙のツイート分析

2013

7

3

日 朝日新聞掲載)

• 

ツイート総数が衆院選前と比べ 3割減(参院選への関心低い)

!

• 

共産党に関するツイートが増加

!

• 

維新の会のツイートは激減

!

• 

ネット選挙に関連して,未成年 のリツイート問題が話題に

!

• 

原発を含むツイートが依然多い 分析内容

政策・政党名でツイートを検索し,

日々のツイート数,関連語を分析 知見

(15)

世の中の関心を自動的に掘り起こす

2013

7

26

日 朝日新聞掲載)

結果と課題

• 

「児童ポルノ禁止法改正 案」「Jリーグの2ステージ 制」など,新聞が取り上げ ていない話題を抽出

 

• 

分析結果がそのまま新聞 記事に掲載された

 

• 

賛否を分離して数を出す ことは出来なかった

 

分析内容

        記者のフィル ターを介さずに,ツイートか ら社会の論点・関心を抽出

(16)

信頼できる情報を

見分けるための支援 "

情報の「背景」の可視化

(@tohokutaro)

313

HP !

http://bit.ly/gQxWZq (@hanatky)

78 @tohokutaro

(@ichirok) (NHK )&

(@jirosaka)

(17)

言論マップ

イソジンで被曝を防げる? 

質問

被曝を軽減するにはイゾジンがいい 

肯定

イソジンは被曝対策には使えません 

否定

(18)

平時の一般のトピックでも

(19)

根拠

 

evidence

対立意見の根拠

 

evidence  of     opposing  opinion

同意・対立・根拠の認識

存在

 

+  existence

−  

存在

 

−  existence

対立

 

conflict

コラーゲンをサプリメントで飲んでも、

 

Even when taken as a supplement,

途中でアミノ酸に分解されてしまうので、

(collagen) ends up broken down into amino acids so,!

肌をきれいにする効果は期待できません。

 

we cannot expect (collagen) to be effective at making skin pretty.

肌を美しくする

 

to  beau(fy  skin

美しいきれい   beau(ful→pre2y 美肌=肌を美しくする  

beautiful skin = to beautify skin

Φ

が)

Collagen has beautiful skin effects.

コラーゲンには美肌効果がある

事実性(モダリティ)解析 + 構造的アライメント + 関係パターン認識

(20)

賛否によるネット情報の自動分析は世界初

言語処理学会 最優秀発表賞(

2010

!

言語処理学会 若手奨励賞(

2010

! CICLing Best Paper Award

2011

!

日経新聞技術トレンド調査 総合

3

位(

2011

!

情報処理学会 山下記念研究賞(

2012

(21)

               ④        _____  

 

               ①        _____  

_____  

 

               ②        _____  

                   ③  

     _____  

_____  

 

現在の

  Web

空間

 

ハイパー   リンク   ハイパー  

リンク  

ウェブの情報の流れを変える

まとめ

デマ 訂正情報

               ①        _____  

_____  

                       _____  

 

批判

 

賛成

 

対立

 

発信  

まとめ

デマ 訂正情報

論理的な  

言論空間  

(22)

深海魚油 

ソフトカプセル 

○○社によって製造された深海 魚油のソフトカプセルです。... 

 

主な成分であるω-3脂肪酸は,

血液のより良い循環を促進し,

高コレステロールの改善,血栓 の防止,高血圧の改善,心臓の 健康維持をサポートします。ま た、双極性障害,ADHDの改善 に有効です。 

Deep  sea  Fish  Oil   Sob  Capsules  

[ロイター]  英国で行われた研究によると、

魚油に含まれるオメガ3脂肪酸は、心臓の 健康のためには良いが、脳の機能を高める 効果はないという。ロンドン大学の研究者 らが専門誌「アメリカン・ジャーナル・オ ブ・クリニカル... 

魚油のオメガ3脂肪酸、頭を良 くする効果ない=英研究 

[独立行政法人 国立栄養研究所] 

小児のADHDは血中DHAレベルの低さと 関連があるが、 DHAは小児の注意欠陥多 動性障害(ADHD)に対して、経口摂取で効 果がないことが示唆されている。DHAを1 日あたり345mg摂取しても改善はみられ なかった... 

健康食品データベース DHA.. 

生活習慣をサポートする 

『オメガ3脂肪酸 (後編)』 

[サプマートUSA] ... ADHD、統合失調症、

アルツハイマー疾患のような精神・認知に 関する疾患を患う人は、血中のオメガ3脂 肪酸レベルが低い人が多いことから、この ような精神・認知に関係する疾患に対し、

オメガ3脂肪酸は有効性が期待できます。... 

 

「ω-3脂肪酸はADHDの改善に有効」 

の対立ページ 

「ω-3脂肪酸はADHDの改善に有効」 

の根拠ページ 

対立

 

根拠

 

「裏を取る」を支援

   

(23)

その先の言語理解研究へ

「行間を読む」言語処理への挑戦

(24)

週末に母とやなぎに行ってみました。

うどん屋の名前

私はうどんを食べた

きつねうどん

「行間を読む」

うどんを食べるために

うどんが美味しいと

やなぎで

私は評判のきつねうどんを頼んだの

ですが、期待通りの味に大満足。

(25)

ガッカリ

「行間を読む」

常識に基づく推論

庭に洗濯物を干す 雨が降る

庭に洗濯物を干したとたんに雨が降ってきた

常識的な 知識

〈洗濯物を干す〉 目的 〈洗濯物を乾かす〉

〈晴れ〉 条件 〈洗濯物が乾く〉

・岡崎

 

研究室

(26)

大問題!


膨大な知識をどうやって集めるか

• 

「洗濯物を干す」目的は「洗濯物を乾かす」こと

• 

「洗濯物が乾く」条件は「晴れている」こと

• 

「うどん」は,「レストラン(うどん屋)で食べる」

• 

「(料理を)注文する」ことを「頼む」とも言う

• 

「レストラン」では,「料理を注文」して,しばらく
 すると料理が「出て」きて,それを「食べる」

言葉の理解に必要な知識

(27)

常識もビッグデータから集める

天気が良いので,洗濯物がよく乾く

最近,晴れが続いているので,洗濯物がよく乾く 日が当たらないので,洗濯物が乾くのもままならず お天気は晴れマークが多かったから,洗濯物が乾く

湿度はなかったから,洗濯物が乾く

今日は,空気が乾燥していて,洗濯物がよく乾く 梅雨空が続いたため,洗濯ものが乾かず

天気が良い(晴れる)

洗濯物がよく乾く

(28)

母とやなぎに行った。  評判のきつねうどんを頼んだ。

「何かを食べる」には「飲食店に行って、それを注文」すればよい!

「(店で)注文する」ことを「頼む」とも言う!

「ある食べ物が評判」なら「それを食べたい」と思う!

「行間を読む」仮説推論

(x)

やなぎ

(y)

行く

(x, y)

きつねうどん

(z)

頼む

(x, z, v)

評判

(z)

飲食店

(w)

評判

(z)

やなぎ=飲食店

評判だから食べに行った

注文する

(x, z, w)

y=w w=v

評判

(z)

食べる

(x, z)!

食べる

(x, z)

飲食店

(w)

行く

(x, w)

注文する

(x, z, w)!

注文する

(x, z, w)

頼む

(x, z, w)

観測 仮説

B

背景知識

O 観測

H

仮説

| =

食べる目的で行った

背景知識

「頼む」=

やなぎで注文する

言語処理への応用:"

NLP若手の会 奨励賞 (2011)

世界最速の推論エンジン"

7分(US) → 3秒(東北大)!

情報処理学会 山下記念賞 (2012)!

言語処理学会 年次大会優秀賞 (2012)

きつねうどんを食べた 食べる

(x, z)

仮説の評価関数の学習(世界初)!

NLP若手の会 奨励賞 (2012)!

自然言語処理研究会 学生奨励賞 (2012)!

IBIS 2012 Honorable Mention (2012)

(29)

( S1: A lot of traffic once used Folsom Dam Road. ) ! S2: Right now, the road is closed.!

S3: Most of the people who used the road every day are angry.

(30)

ま と め

グーテンベルク以来の情報爆発

地球規模のコミュニケーションの支援へ 鍵は自然言語処理による情報・知識編集

ソーシャルリスニングとメディエーション 言語処理技術自身もビッグデータで飛躍

「行間を読む」言語処理は知識×推論

言語処理から人工知能にブレークスルーを

参照

関連したドキュメント

問題発見技法 66.クラスタ分析 .クラスタ分析 情報学部 堀田敬介 クラスタ分析 Contents •• クラスタ クラスタ分析 分析 1

1997: Kramer

形式上関連のある他の用法と併せて把握する必要がある。 3 6) 「ことだ」 「ものだ」 「わけだ」 「はずだ」についての肯定・否定形 式の対応表 肯定 否定 N ダ ものだ

4 展 開 30 分 ② 5 ディベートの方法を知る。

今日の話題 【話題0】一般的な研究開発の現場にある PCとネットワーク環境 【話題1】

肯定側

Effect の補助的な情報を表すものとして, Null Effect , Degree of Ef- fect , Certainty of Effect をそれぞれ定義した. Means of Use , Com- posed of , Part of , Location ,

5)学生の出産については23%が肯定している。学生の出産に賛成の割合は,女性より男