• 検索結果がありません。

自然言語処理 2012

N/A
N/A
Protected

Academic year: 2021

シェア "自然言語処理 2012"

Copied!
30
0
0

読み込み中.... (全文を見る)

全文

(1)

自然言語処理 2012

東京工科大学

コンピュータサイエンス学部

亀田弘之

(2)

今までの振り返り

(3)

コーパス

コーパス (Corpus) はコンピュータの発達と

ともに、計算機可読なデータを容易に作

成・収集することができるようになった

ことがその背景にある。現在ではコーパ

ス言語学などの学問もある。

(4)

定義:まとまりのある文書データベース のこと。

シェイクスピアコーパス

夏目漱石コーパス

etc.

現在では、大規模なテキストデータベースの

ことをコーパスと呼ぶこともある。なお、近

年は多くのものにタグが付けられている。

(5)

コーパスの例

• Brown Corpus(

米国の書籍・新聞・雑誌

)

• LOB Corpus(

英国の書籍・新聞・雑誌

)

• British National Corpus(BNC)

(英国英語、多様なジャンル)

• Bank of English

• Penn Treebank(Wall Street Journal)

• EDR

コーパス(日本語)

日本語話し言葉コーパス

(6)

言語資料関係のサイト

LDC(www.ldc.upenn.edu)

ELRA(www.elra.info)

GSK( 言語資源協会 , www.gsk.or.jp)

RSC( 音声資源コンソーシアム ,

research.nii.ac.jp/src/)

(7)

Gutenberg Project

青空文庫 

など

(8)

情報検索

Information Retrieval(IR) は Web の発展に伴 い、ますますその重要性を増している。

多くの Web は自然言語で書かれており、

また、自然言語による検索は多くの人に とって便利である。

参考文献: Spiders Hack (Python 言語 )

(9)

機能語と内容語

自然言語は人間相互の意思疎通のための 道具であり、それをコンピュータにより 処理することは社会的に意義のあること である。

問:どれが機能語でどれが内容語か?

(10)

検索の方式

ディレクトリ方式

キーワード方式

(11)

今日の課題:検索方式について

どのような検索があり得るか?

画像をキーとする検索

画像を検索対象とする検索

画像の他に音楽データ・楽譜などもあり得る。

もっと他には?

まだありますよね!考えてみてください。

さらに“それ”と言語との関係も考えてみてくださ

い。

(12)

語の重要度の計算法

t ・ idf 法

 

 

 

 log 1

df tf N

idf

tf

(13)

t ・ idf 法の考え方 (1)

文書

Doc1 言語  コンピュータ  問題 Doc2 コンピュータ  問題  情報 Doc3 言語  問題  情報

Doc4 問題  情報

(14)

t ・ idf 法の考え方 (2)

キーワード 文書

言語 Doc1 Doc3

コンピュータ Doc1 Doc2

問題 Doc1 Doc2 Doc3 Doc4

情報 Doc2 Doc3 Doc4

(15)

t ・ idf 法の考え方 (3)

TF Doc1 Doc2 Doc3 Doc4 IDF

言語 2 0 1 0 2

コンピュー タ

1 1 0 0 2

問題 2 2 3 1 1

情報 0 1 2 1 1.3

数 語が出現する文書の総

 文書総数

IDF

(16)

t ・ idf 法の考え方 (4)

TF IDF Doc1 Doc2 Doc3 Doc4

言語 4 0 2 0

コンピュータ 2 2 0 0

問題 2 2 3 1

情報 0 1.3 2.6 1.3

(17)

検索モデル

ブーリアンモデル (Boolean model)

ベクトル空間モデル

(18)

ブーリアンモデル

検索式 1 = コンピュータ  and マック

検索式 2 =  not マック  and ハンバー

(19)

ベクトル空間モデル

D1, D2, …, Dn : 「n個の文書」

これらの文書全体に「 m 個の索引語」

n × mの行列で表現できる!

3 8

2 0

5 3

2 1

0 1

0 2

言語  PC   Java   D1 HTML

D2 D3

(20)

コサイン尺度

m

k

kj m

k

k m

k

kj k

j

d q

d q

D q

1

2 1

2

)

1

,

cos(

(21)

例:

教科書 p.143 参照

(22)

検索結果の評価式

適合度 ( 精度 , Precision)

再現率 (Recall)

P と R の調和平均 F 値をとる。

F  2 PR

(23)

検索評価の練習

a

b

c

d

 100

 

c b

P b

 100

 

b a

R b

(24)

総合演習1

1.

次の文章を形態素解析しなさい。

2.

統語構造を解析しなさい。

3.

意味を理解し、その内容を表現すること

のできるデータ構造(知識表現)を考え

なさい。

(25)

前大統領派と治安部隊が銃撃戦=きょ う挙国一致政権発表―チュニジア

時事通信 

2011

1

17

(

)7

10

分配信

 

【カイロ時事】ベンアリ政権崩壊後の混乱が続くチュニジアの 首都チュニス郊外の大統領府周辺で

16

日夜、前大統領派の部隊 と治安部隊による激しい銃撃戦が展開された。一方、メバザア暫 定大統領に組閣を命じられたガンヌーシ首相は「あす(

17

日)

チュニジア史の新たなページを開くことになる新政権を発表する

」との声明を出した。

  AFP

通信によれば、大統領警護部隊が籠城していた大統領府に 軍部隊が攻撃を仕掛け、銃撃戦に発展した。治安部隊はまた、首 都中心部の内務省付近の建物に銃を持って隠れていた

2

人を射殺

。野党本部近くでも銃撃戦が発生した。

      

(26)

ソニー「 3DS の好調に勇気づけられてい る」…ゲーム専用機の市場はある

インサイド 2012 115 ( )15 21分配信

欧米では

2

月の発売を予定している

PlayStation Vita

。日本国内 ではスロースタートとなっていますが、ソニー・コンピュータ エンタテインメント・ヨーロッパの

Jim Ryan

社長兼

CEO

は業界 紙

MCV

のインタビューに答え、

3DS

の好調には勇気づけられ ていると述べました。「ゲーム専用の携帯デバイスにはもはや 市場は無いと言う人もいます。しかしクリスマスの

3DS

の好調 な売上は勇気づけてくれるものです」

Ryan

氏は

(3DS

Vita

と いう

)2

つのゲーム機は市場を分け合う事が出来ると言います

。また、スマートフォンとの競合については「我々が

Vita

で提

供しようとしているクオリティ、没入感、リッチな体験は、ど

(27)

おわりに

自然言語処理の研究は盛んに行われていま すが、まだまだ研究すべきものが残ってい ます。

みなさんも積極的に自然言語処理の研究に チャレンジしてください。

少なくとも、自然言語が人間社会で果たし

ている役割を考えれば、新しいアプリケー

ションのアイデアも湧くと思います。

(28)

定期試験について

過去問を良く勉強してください。

文法の作成とそれに基づく Prolog プログ ラムの書き方を勉強してください。

新しく画期的な自然言語処理システムを 考案してください。

基本的な用語の説明ができるようになっ

てください。

(29)

基本的用語とは

言語

定義と分類:自然言語,音声言語,視覚言語

自然言語処理

形態素解析・統語解析・意味解析など

木構造

意味

意味表現,知識表現

コーパス など

(30)

補講について

平成 25 年 1 月18日(金)4限

補講が重なるなど、出席ができない人は

事前にメールにて連絡すること。

参照

関連したドキュメント

地図 9 “ソラマメ”の語形 語形と分類 徽州で“ソラマメ”を表す語形は二つある。それぞれ「碧豆」[pɵ thiu], 「蚕豆」[tsh thiu]である。

いずれも深い考察に裏付けられた論考であり、裨益するところ大であるが、一方、広東語

「父なき世界」あるいは「父なき社会」という概念を最初に提唱したのはウィーン出身 の精神分析学者ポール・フェダーン( Paul Federn,

しかし,物質報酬群と言語報酬群に分けてみると,言語報酬群については,言語報酬を与

Guasti, Maria Teresa, and Luigi Rizzi (1996) "Null aux and the acquisition of residual V2," In Proceedings of the 20th annual Boston University Conference on Language

 “ボランティア”と言えば、ラテン語を語源とし、自

本センターは、日本財団のご支援で設置され、手話言語学の研究と、手話の普及・啓

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から