• 検索結果がありません。

nlp1-04a.key

N/A
N/A
Protected

Academic year: 2021

シェア "nlp1-04a.key"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

1

自然言語処理論I

4.文法2(構文解析) その1

2

構文解析

syntactic analysis, parsing

文の構文的な構造を決定すること

句構造文法が使われることが多い

文法による構文木は一般に複数ある

構文木の違い=解釈の違い

構文解析の目的

句構造文法の規則を使って,文を生成できる構文 木を全て見つけだすこと 文法が入力文を生成できるかどうかを調べるだけではない 3

構文解析とは

構文木の違い=解釈の違い

NP PP NP NP VP NP S pron II brokebroke v det aa n desk desk prep with with det aa n drawer drawer (hammer) (hammer) NP PP NP VP NP S pron II brokebroke v det aa n desk desk prep with with det aa n drawer drawer VP 4

前終端記号と辞書規則

前終端記号(pre-terminal symbol)

単語を生成する前のシンボル 品詞に相当する

2種類の文法規則

句構造規則 非終端記号と前終端記号からなる規則 辞書規則 前終端記号→単語 という規則

(2)

(句構造規則) (辞書規則) S→NP VP VP→v pron→I NP→pron VP→v NP det→a NP→det n VP→VP PP v→broke NP→NP PP PP→prep NP prep→with n→desk,drawer 5 NP PP NP NP VP NP S pron I broke v det a n desk prep with det a n drawer 辞書規則 句構造規則 6

構文解析の入力

単語列を入力とする

膨大な数の辞書規則が必要

品詞列を入力とする

単語と品詞の対応付けは形態素解析で行う 前終端記号を終端記号として扱う 句構造規則のみ使う

実際には品詞列を入力とする場合が多い

7

構文解析アルゴリズム

大きく分けて2種類ある

トップダウンアルゴリズム 開始記号(S)から品詞列へ ボトムアップアルゴリズム 品詞列から開始記号(S)へ

代表的な構文解析アルゴリズム

CKY法, チャート法, アーリー法 再帰遷移ネットワーク, 一般化LR法 8

CKY法

Cocke-Kasami-Younger法

文法はチョムスキー標準形に限る

CKY表

構文解析の途中経過を保持するためのテーブル

(3)

CKY表

・行列の対角成分に入力文の 単語を置く ・aijは,入力文のi番目からj番目の 単語を支配する非終端記号を置く 9 1 2 3 4 5 6 7 1 2 3 4 5 6 7 man man broke broke aa desk desk with with aa drawer drawer 8 8 the the NP 10

CKY法のアルゴリズム

for i:=1 to n do aii = {Aa | A → wi} (辞書規則の適用) for d:=1 to n - 1 do for i:=1 to n - d do j=i+d for k=i to j - 1 do

aijに{Aa(Bb,Cc)|A→B C, Bb∈aik,Cc∈ak+1,j}

を追加 a1nに開始記号Sがあれば解析成功,それ以外は失敗 (nは入力単語数、a,b,cは識別番号) 11

CKY法のアルゴリズム

表を埋める順序は以下の通り

変数dが1つの対角線を表す 1 2 3 4 5 6 7 8 辞書規則d=1 d=2 d=3 d=4 d=5 d=6 d=7 man man broke broke aa desk desk with with aa drawer drawer the the 12

CKY法のアルゴリズム

マス目aijを埋める時、以下の順序で2つの要素の組 み合わせをチェック ・数字は変数kに対応 ・a26の場合

(a22,a36),(a23,a46),(a24,a56),(a25,a66)が

規則の右辺になるかどうかをチェック 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8

a

ij 1 1 2 2 3 3 4 4 man man broke broke aa desk desk with with aa drawer drawer the the

(4)

13

CKY法(解析例/構文木の復元)

解析例

文法

入力文

the man broke a desk with a drawer

解析過程 → 黒板、別紙資料(後日配布)

構文木の復元

完成したCKY表の履歴をたどる S→NP VP VP→v NP det→a | the NP→det n VP→VP PP v→broke NP→NP PP PP→prep NP prep→with

n→man | desk | drawer

VP1(v1,NP2) PP1(prep1,NP3) NP1(det1,n1) NP2(det2,n2) NP3(det3,n3) 1 2 3 4 5 6 7 1 2 3 4 5 6 7 man man broke broke aa desk desk with with aa 8 8 the the det1 n1 v1 det2 n2 prep1 det3 n3 S1(NP1,VP1) NP4(NP2,PP1) VP2(v1,NP4) VP3(VP1,PP1) S2(NP1,VP2) S3(NP1,VP3) NP PP NP NP VP S broke broke v det a a n desk desk prep with with det a a n drawer drawer det the the n man man NP drawer drawer 14 VP1(v1,NP2) PP1(prep1,NP3) NP1(det1,n1) NP2(det2,n2) NP3(det3,n3) 1 2 3 4 5 6 7 1 2 3 4 5 6 7 man man broke broke aa desk desk with with aa 8 8 the the det1 n1 v1 det2 n2 prep1 det3 n3 S1(NP1,VP1) NP4(NP2,PP1) VP2(v1,NP4) VP3(VP1,PP1) S2(NP1,VP2) S3(NP1,VP3) NP prep with with det a a PP NP VP S broke broke v det a a n desk desk n drawer drawer VP NP det the the n man

man drawerdrawer 15 16

CKY法の特徴

計算量 O(n

3

)

nは入力文の長さ(単語数)

ボトムアップアルゴリズム

アルゴリズムが単純で理解しやすい

チョムスキー標準形の文法でしか解析でき

ない

(5)

17

チャート法 (chart parsing)

2通りの方式

トップダウンチャート法 ボトムアップチャート法

構文解析の途中経過をチャートに保存

18

チャート法

用語

節点(node) 単語と単語の間に存在する仮想的な点 弧(arc) 節点間を結び、文の部分的な構造を表す [i, j, A → α . β] iは弧の始点、jは弧の終点 ドットは解析が終了している位置を表す the

the cupcup brokebroke

0 1 2 3 [0,1,NP→det . n] [2,3,VP→v . ] 19

用語

不活性弧(inactive arc) ドットが右辺の最後にある弧 活性弧(active arc) 不活性弧以外の弧 チャート(chart) ノード、弧の集合 アジェンダ(agenda) チャートに追加するべき弧のリスト(スタック)

記号

n: 入力単語の長さ X,Y,Z: 非終端記号 S: 開始記号 α,β,γ: 終端記号または非終端記号の列 (空列を含む) 20

トップダウンチャート法

アルゴリズム

辞書規則の適用 入力文の各単語wkについて、 不活性弧[k,k+1,A→wk .]を アジェンダに追加 活性弧[0,0,S→.α]をアジェンダの先頭に追加 Sは開始記号

(6)

21 アジェンダが空になるまで以下の操作を繰り返す 1. (弧の選択)

アジェンダから弧を1個選びチャートに追加(以下arc) 2. (弧の結合)

arcが活性弧 [i, j, X→α.Yβ] のとき

arcの右にある不活性弧[j, k, Y→γ]を探し、結合する arcが不活性弧 [i, j, Y→γ.]のとき

arcの左にある活性弧[k, i, X→α.Yβ]を探し、結合する 結合してできた新しい弧 [i, k, X→αY(n).β] を

アジェンダに追加 ( n は不活性弧のID(履歴) )

3. (新しい弧の提案)

arcが活性弧 [i, j, X→α.Yβ]のとき

Yを左辺とする規則 Y → γ (辞書規則を除く)があれば、 新しい活性弧[j, j, Y→. γ]を作ってアジェンダに追加 ※ 同じ弧が既にチャートまたはアジェンダにあるときは追加しない 22

弧の結合

活性弧+不活性弧で新しい弧を作る

[i, j, X→α. Y β] + [j, k, Y→γ.] ⇒ [i, k, X→αY.β] 23

トップダウンチャート法

チャートへの弧の追加

n:X[α] と弧を省略表記するとよい n: 弧番号, X: 規則の左辺, α: .の右にある記号列 次にどんな弧を結合すればいいか、わかりやすい

[0,n,S→α.]という不活性弧ができていれ

ば解析成功、それ以外は失敗

24

トップダウンチャート法

解析例

文法 解析文

the cup broke

解析過程

黒板、別紙資料(後日配布)

S→NP VP VP→v det→the

NP→det n VP→v NP n→cup

(7)

25

構文木の復元

弧に履歴を残す

弧に識別番号をつける 右辺がどの不活性弧によって構成されるかを記録

不活性弧[0,n,S→α.]の履歴をたどれば構

文木が復元できる

得られる構文木の例

番号は不活性弧の番号

NP

VP

S

broke

broke

v

det

the

the

n

cup

cup

(14) (8) (12) (1) (2) (4) 26

チャート法の特徴

計算量はO(n

3

)

任意の文脈自由文法が扱える

4種類の方式

トップダウンとボトムアップ 縦型探索と横型探索

文法の予測能力が使える

無駄な弧を生成しないので効率が良い トップダウンチャート法のみ

広く使われている

27

縦型探索

1つの解の候補の解析を優先的に進める 文が文法によって生成できるかだけを調べるときに便利

横型探索

全ての解の候補の解析を並列に進める ビームサーチに向いている

チャート法では両方とも可能

アジェンダをスタックにしたときは縦型探索 アジェンダをキューにしたときは横型探索

縦型探索と横型探索

文法の予測能力

弧 a, b

無駄な弧(cupの品詞がvであるという解釈は誤り) トップダウンチャート法では生成されない 文法によって detの後には vが現われない ことが予想 されている 28 2:n[] the

the cupcup

0 1 2 1:det[] 5:NP[det,n] 6:NP[n] 8:S[NP,VP] 3:v[] × a:[1,2,VP → v . NP] × b:[1,2,VP → v. ]

参照

関連したドキュメント

D/G(A) D/G(A) 被水による起動不可 補機冷却系喪失によ る起動不可 補機冷却系喪失によ る起動不可 補機冷却系喪失によ る起動不可 RHR(B)

(1)東北地方太平洋沖地震発生直後の物揚場の状況 【撮影年月日(集約日):H23.3.11】 撮影者:当社社員 5/600枚.

・高田沖断層南西方に陸地に続く形状が 類似した構造がある。既に佐渡島南方断

主な供給先: ECCS の MO 弁、 SLC ポンプ、 CRD ポンプ 常用.

格納容器圧力は、 RCIC の排気蒸気が S/C に流入するのに伴い上昇するが、仮 定したトーラス室に浸水した海水による除熱の影響で、計測値と同様に地震発

SRM/IRM及びTIPのドライチューブが 破損すると、原子炉内の気相部の蒸気が

 11月21日時点で、注水は給水系配 管より実施中であり、圧力容器底部 及び格納容器内の温度は100℃以 下で安定.

2. 2. - - 18 18 3号機 3号機 トーラス室調査 トーラス室調査