• 検索結果がありません。

自然言語処理自然言語処理2012 2012 第第22回目回目

N/A
N/A
Protected

Academic year: 2021

シェア "自然言語処理自然言語処理2012 2012 第第22回目回目"

Copied!
42
0
0

読み込み中.... (全文を見る)

全文

(1)

自然言語処理

自然言語処理

2012 2012

第第

2 2

回目回目

東京工科大学

コンピュータサイエンス学部 亀田弘之

(2)

自然言語処理とは(復習)

自然言語処理とは(復習)

自然言語処理

= ...が ...を ...する

2

(3)

自然言語処理とは(復習)

自然言語処理とは(復習)

自然言語処理

= 機械が自然言語を処理する

(4)

自然言語処理とは(復習)

自然言語処理とは(復習)

自然言語処理

= 機械が日本語や英語を理解する

4

(5)

自然言語処理とは(復習)

自然言語処理とは(復習)

自然言語処理

= 機械が日本語や英語を理解する

どうやって?

How?

どうやって?

How?

(6)

自然言語処理の概要 自然言語処理の概要

形態素解析

統語解析(構文解析)

意味解析

談話解析

状況解析 

etc.

6

(7)

形態素解析 形態素解析

形態素

形態素解析

(8)

形態素解析 形態素解析

入力: メロスが走る

出力: メロス

(

名詞

)/

(

助詞

)/

走る

(

動詞

)

処理方法は?

手法

アルゴリズム

プログラミング言語

必要な知識は?

評価方法は?

ツールは?

8

(9)

例:例:

Tom broke the cup with the hammer.

Tom brach die Tasse mit der Hammer.

(Tom hat die Tasse mit der Hammer gebracht.)

Tom a cassé le verre avec le marteau.

Tom broke the cup with a state of the art

hammer.

(10)

形態素解析 形態素解析

入力: メロスが走る

出力: メロス

(

名詞

)/

(

助詞

)/

走る

(

動詞

)

処理方法は?

手法

アルゴリズム

プログラミング言語

必要な知識は?

評価方法は?

ツールは?

10

(11)

メロスが走

メロスが走

る る

(12)

メロスが走 メロスが走 る る

メロス メロス / / が が / / 走る 走る

12

(13)

処理方法処理方法

文字種法

最長一致法

文節数最少法

接続表を利用する方法

遷移確率を用いる方法 

etc.

(14)

例:例:

  読売新聞社が2~4日に実 施した全国世論調査(電話 方式)で、鳩山内閣の支持 率は71%、不支持率は2 1%だった。

2009 10 4 日  Yahoo Japan ニュース(読売新

聞) より 14

(15)

例例

北極圏で今春、観測史上最大の オゾン層破壊が起きていたこと が、国立環境研究所(茨城県つ くば市)など9か国の国際研究 チームの分析で分かった。

2011 10 3 日  Yahoo Japan ニュース(読売新

(16)

例例

 臨時国会の召集の遅れは

、野田政権が最重要視す る社会保障・税一体改革 にも影を落としている。

16

2012 10 14 日  Yahoo Japan ニュース(読売新 聞) より

(17)

例: くるまでまつ 例: くるまでまつ

他の例:

花子は太郎と次郎をずっ と待ち続けていた。

曖昧性

(18)

自由課題自由課題

1 1

日本語を対象とする形態素解析プログ ラム(形態素解析器)の発展史を調べ

現状と今後の問題点を考えよ。

参考情報:

Juman, Chasen,

すもも

, Kobako etc.

18

(19)

自由課題2 自由課題2

英語を対象とする形態素解析プログラ ムとして、何があるが調べなさい。

ヒント:

tagger programs

(20)

ヒントヒント

最長一致

– KAKASI

Bi-gram マルコフモデル

– JUMAN, MeCab

可変長マルコフモデル

– ChaSen

未知語処理(綴り・品詞・意味・用法)

– UWAS-I

未知統語規則処理

20

(21)

レポート課題

レポート課題

No.2 No.2

1.

“形態素”の言語学的 定義を調べよ。

2.

形態素の例を5個挙げよ

3.

日本語における形態素解

(22)

提出方法提出方法

1. 書式:

– A4 レポート用紙

指定の表紙

2. 提出日:

平成24年10月22日(月)授業時間

3. 提出場所:

教室

22

(23)

問題:次の文を形態素解析せよ 問題:次の文を形態素解析せよ

。。

地球温暖化を防ぐために世界の国々が つくった京都議定書で、日本は二酸化 炭素

(CO

2

)

などの温室効果ガスを

2008

から

12

年度に

1990

年に比べて

6%

らすことを約束しています。

(朝日小学生新聞

2007

10

12

 より)

国語の問題として 国語の問題として

(24)

形態素解析結果 形態素解析結果

24

(25)

(続き)(続き)

自然言語は人間相互の意思疎通のため の道具であり、これを機械により処理 することが出来れば、社会的意義は極 めて大きなものがある。

(26)

文字種法文字種法

文字種類の変わり目を単語の切れ目とする 考え方。切り出した後、微修正が必要。

例:

文字種類

/

/

/

わり

/

/

/

単語

/

/

/

/

/

とする

/

/

/

/

/

/

/

/

/

/

/

微修正

/

/

必要

/

26

(27)

例2例2

地球温暖化

/

/

/

ぐために

/

/

/

国々

/

がつくった

/

京都 議定書

/

/

/

日本

/

/

二酸化炭素

/ ( / CO

2 /

) /

などの

/

温室効果

/

ガス

/

/

2008 /

から

/ 12 /

年度

/

/ 1990 /

/

/

/

べて

/ 6 / % /

/

すことを

/

約束

/

しています

/

(28)

日本語における字種 日本語における字種

区切り記号(句読点、特殊記号)

漢字、片仮名、アルファベット(英文 字)

数字

平仮名

28

(29)

形態素解析結果の第一次近似解を 形態素解析結果の第一次近似解を

得るヒューリスティック 得るヒューリスティック

(heuristic) (heuristic)

平仮名から他の文字種への変わり目

区切り記号の前後

非平仮名列から数字列への変わり目

数字列から非平仮名列への変わり目

以後、さらに精度を高める。

何をすればいいのか? 考えてみよう。

(30)

前記ヒューリスティック適用例 前記ヒューリスティック適用例

文字種類の変わり目を単語の切れ目とする 考え方。切り出した後、微修正が必要。

文字種類の

/

変わり

/

目を

/

単語の

/

切れ

/

目とする

/

考え

/

/

/

切り

/

出した

/

/

/

微修正が

/

必要

/

/

文字種類

/

/

/

わり

/

/

/

単語

/

/

/

/

/

とする

/

/

/

/

/

/

/

/

した

/

/

/

微修正

/

/

必要

/

30

(31)

問題:文字種法の長所・短所 問題:文字種法の長所・短所

長所は、...

短所は、...

(32)

問題:文字種法の改良案を考え 問題:文字種法の改良案を考え よ。よ。

(例に基づいて考えること)

32

(33)

問題:文字種法の適用分野はある 問題:文字種法の適用分野はある

か?あるとすれば何?

か?あるとすれば何?

(34)

最長一致法 最長一致法

処理対象文字列の先頭から始まる単語 のうち、文字列長が最大のものを優先 的に単語候補とする方法。

34

(35)

例例

アルプスのやまは美しい

アルプスの少女は美しい

単語辞書:

アルプス 少女

やま のやま 美しい

(36)

問題:必要な単語辞書を作成せ 問題:必要な単語辞書を作成せ よ。よ。

ユク河ノナガレハ、

絶エズシテ、シカモ モトノ水ニアラズ。

単語辞書:

ユク

ナガレ

絶エズシテ シカモ

モトノ ニアラズ

(出典:『方丈記 徒然草 正法眼蔵随聞記 歎異抄』 日本古典文学全集 昭和46 36

(37)

問題:最長一致法の長所・短所 問題:最長一致法の長所・短所

長所

短所

(38)

文節数最少法 文節数最少法

文節数が最も少なくなる切り方を解と する方法。

38

(39)

例:くるまでまつ 例:くるまでまつ

車で 待つ (2)

車で 松 (2)

来るまで 待つ (2)

来るまで 松 (2)

繰るまで 待つ (2)

繰るまで 松 (2)

狂まで  待つ (2)

狂まで  松 (2)

来る 間で 待つ (3)

(40)

接続表を利用する方法 接続表を利用する方法

40

(41)

遷移確率を用いる方法 遷移確率を用いる方法

n-gram

(42)

各種ツール 各種ツール

Chasen (WinCha)

Kobako-J

XMLEDITOR.NET

GoTagger

 など

(この他にもいくつかあります。

 調べてみなさい。)

42

参照

関連したドキュメント

We have introduced this section in order to suggest how the rather sophis- ticated stability conditions from the linear cases with delay could be used in interaction with

水処理設備部 水処理設備第二

Guasti, Maria Teresa, and Luigi Rizzi (1996) "Null aux and the acquisition of residual V2," In Proceedings of the 20th annual Boston University Conference on Language

会議名 第1回 低炭素・循環部会 第1回 自然共生部会 第1回 くらし・環境経営部会 第2回 低炭素・循環部会 第2回 自然共生部会 第2回

[r]

次に、ニホンジカの捕獲に係る特例については、狩猟期間を、通常の11月15日~2月15日

水処理土木第一グループ 水処理土木第二グループ 水処理土木第三グループ 土木第一グループ ※2 土木第二グループ 土木第三グループ ※2 土木第四グループ

自然言語というのは、生得 な文法 があるということです。 生まれつき に、人 に わっている 力を って乳幼児が獲得できる言語だという え です。 語の それ自 も、 から