• 検索結果がありません。

JAIST Repository: 自然言語解析のためのMSLRパーザ・ツールキット

N/A
N/A
Protected

Academic year: 2021

シェア "JAIST Repository: 自然言語解析のためのMSLRパーザ・ツールキット"

Copied!
21
0
0

読み込み中.... (全文を見る)

全文

(1)

JAIST Repository

https://dspace.jaist.ac.jp/ Title 自然言語解析のためのMSLRパーザ・ツールキット Author(s) 白井, 清昭; 植木, 正裕; 橋本, 泰一; 徳永, 健伸; 田中, 穂積 Citation 自然言語処理, 7(5): 93-112 Issue Date 2000-11-10

Type Journal Article Text version publisher

URL http://hdl.handle.net/10119/7929 Rights Copyright (C) 2000 言語処理学会. 白井清昭, 植木正 裕, 橋本泰一, 徳永健伸, 田中 穂積, 自然言語処理, 7(5), 2000, 93-112. Description

(2)

-ル キ ッ ト

-on dac

自然言語解析の ための

MS R

パ ー ザ ◎ツ

白 井

清 昭I

植 木

正 裕I

I

橋 本

泰 -I

徳 永

健 伸I 田 中

穂 積1

L

L 本論文では,我 々が現在公 開 している自然言語解析用 ツール 「MS Rパーザ ・ツール キ ッ ト」の特徴 と機能 につ いて述べ る.MS リズムを拡張 し, 日本語 な どの分か ち書 きされていない文の形態素解析 と構文解析 を L 同時 に行 うツールである.MS 器 を用 いて,文法 と接続表か らLR表 を作成す る. この とき,LR表作成器 は,接続 表に記述 された品詞 間の接続制約 を組み込んだ LR表 を生成す る.このため,接続制 約 に違反す る解析結果 を受理 しない LR表が作 られ るだけでな く,LR表の大 きさを L L いて辞書引 きによる単語分割 と構文解析 を同時 に行 い,その結果 として構文木 を出力 大幅 に縮小す ることがで きる.次 に,MS d t t arseroupus inpu stenetnces.I L h f o i t excon, l i nayss i dal eMS Rp ca na

or

TOI L キーワー ド: 形態素解析,構文解析,一般化 LR法,パーザ

I

.

I

l

oo

-zu MS R す る. さらに, パ ーザ は,文 中の括弧 の組 に よって係 り受 けに関す る部分的 な制約が与 えられた文 を入力 とし,その制約 を満 たす構文木のみ を出力す る機能 を持 LR つ. また,文脈依存性 を若干反映 した言語モデルのひ とつである確率一般化 モデ (PGLR PGLR ル モデル)を学習 し,個 々の構文木 に対 して モデルに基づ く生成確率 を計算 し,解析結果 の優先順位付 けを行 う機能 も持つ.

MS a P

ar

s

e

rT

Ki -T

sf

O

t

l

oo

anguag

屯T

ua

A Y

Na

lL

eAm

KI KIS MO dHo MITA arser d an h L it or t enences h i t ss, i arsn t ne na ze languag l i f naysso unseg enera l t ornaura h i i ase t t ynac k l oo l arseri' b i escr hl i l rp oogca an L ' e ispaper,W t. i k itnegraets h l too

Int ed eat tf ealy eMS Rp

Th MS Rp sb donteg lidLRp galg m, mo ds ca me ds ・The `LR y i ars c f o-speehp .B o in d or i rane in ld ncu a t npu i re, t t ynac t enenc h ter ur t ep hl i l rp oogcaan i t t onsrans. arse L dbyp hos h ifisyn b s ase i ts, t a h i d t t t consrans enoe o pars i to i d t etree donmo ds ntot eMS R p racc ss ei si gp reesnts gt ec F mo tcnbet dacc gt ic ila synact t t ar le i ens t onex l d l ic h hisami yc ts arse fan io t enera h t es pr up b ktracesa,n f o i ars ds ess eg no yp R L h te -ty i l i bb proa 7 n ra t onex ・o l b a

sanLR t e丘 m ac tfreeg mmara

b i sposs I A K A N H S H C OUEKIII,TAII IHA

f iz h d euc tsan, l esu i arsn l b l iaus all mpyi ep gr dr eteseo

S

且 I

ays

R I H A S Ian A G A N U l ie, b a h t n i t t onsran base - dc si oteLR t ti n l b a t enerae h i en usn, t o le. t b ta ob hr Th gteg dLRt ea ver h t d f rero i dle w, R (PGLR)mo no eo all t ar-t e i t t onsran acenc j d yc sb weenp K B TAKENO UTo s ars an ls a

.I

tcna or kp etree I A R I H † ,MA 7 t t t eneraor consruc i tr l b ta eg i t nec onma xd i trx io t onnec in incorpora gct nma ize l enera i its l i bb roa cg dL in b i escr ga oc an j tec e yl Rパーザ は,一般化 LR法の解析 アルゴ Rパ ーザ を用いて解析 を行 う際 には, まず LR表作成 Rパーザは,作成 された LR表 と辞書 を用 hdo pa, rser t ize l era dLR me l i nayssg, i de hl i l l i t t rp oogca anaysss,ynac de i rane h anguag d: rs t reurne y h iv t t ep el emo l dbytet dPGLR mo l. KeWo mo ca en

(3)

v 000 No 5. Vo

は じめ に

l 7. 自然言語処理

L

いる. したがって,文法等 を持 っていないユーザで も,ツールキ ッ トに付属 の もの を用 いて 日

i

unx

ある. また,

MS R

パーザ ・ツールキ ッ トには 日本語解析用の文法,辞書 ,接続表が含 まれて 本語文の形態素 ・構文解析 を行 うことがで きる. のみである.具体的には,以下の 解析 を同時 に行 うパーザである2.本論文では

,MS R

パーザ ・ツールキ ッ トの特徴 と機能 につ いて述べ る.

L

MS R

L

パーザ を用いて文 を解析す る場合 には,以下 の

3

つが必要になる. 文法 品詞 を終端記号 とす る文脈 自由文法.主 に構文解析 に用 いる. 辞審 単語 とそれに対応 した品詞 を列挙 したデータで,形態素解析 の基本単位 を集 めた ものである.辞書 の品詞体系 は文法 の品詞体系 と一致 していなけ ればならない.

L

接続表 品詞 間の接続制約 を記述 した表.品詞間の接続制約 とは,ある 2つの品 詞が隣接 で きるか否かに関する制約である. 本 ツールキ ッ トでは,文法 ・辞書 ・接続表 を自由に入れ換 えることがで きる.す なわち,ユ ー ザが独 自に開発 した文法や辞書 を用 いて

,MS R

パ ーザ によって文の解析 を行 うことが可能で

t

ye

0

t

ye

0

3

1

4

辞書 (登録単語数

2 ,

11)

を用いる場合

,5Mb

の メモ リと 1

Mb

のデ ィス ク容量 を必要 h l f c oo o d t a ua i cence, t ue o n t par †東京工業大 学 大学 院情 報理工 学研 究科 計算工 学専攻,De metofC mp rS Gr eS

L

MS R

パーザ を動作 させ るため に必要なメモ リ使用量 ・デ ィスク使用量 は,使用す る文法や辞 書 の規模 に大 きく依存す る.例 えば,ツールキ ッ トに付属の 日本語解析用文法 (規則数 No . 2 我 々は

,1

ルゴリズムを拡張 し,単語区切 りのない言語 (日本語 な ど)を主 に対象 とし,形態素解析 と構文

9

9

t n l veop i tera in

Teac gMah lsDe me

8

0

14

, )

8

1

0月か ら自然言語解析用 ツール

MS R

L

パ ーザ ・ツールキ ッ ト」 を公開 し i T k rng o y, ng n i cenc io t Ifnorma nS ea dE inee oI ff国立国語研究所 日本語教育セ ンター 日本語教育普及指導部 日本語教育教材開発亀

L

OS

で動作す ることが確認 されている.

MS R

パ ーザ は

C

言語で実装 され,動作す る

OS

0

.

6

.

U i

n

l

t

a

i

g

SunOS5

Di

x4

⑳ ・

3

.

I

F

t

e

e

BSD 3

65

.

h l ec noog ittu t ns eofT y

)

04

..

n

-i

nu

L

,

2l

,

i

nu

L

x2

l

xPPC(

PCMid1

RI

X

anguage, n t par ion, S tec De me ⑳

econ apanes in h eac o t ene i C ervces, / l msr / b pu / rfrT gJ easaS dL por up t ns iona t uca searc anguag iona t tofEd l S tS TheNa lL eRe hl ittue p j ac. tec i t vvw cs, . h・ / / t t 1h p: t 2MS を解析す ることを目的に作 られた. -k ana a Rパーザは,分か ち書 きされた文 (英語文 な ど)を解析す る機能 も持 っているが, もともとは単語区切 りのない文 L

(4)

白井,植木 ,矯本,徳永 ,田中 自然言語解析のための MSLRパーザ ・ツールキッ ト とす る. 本 ツールキ ッ トを用いた形態素 ・構文解析 の流 れを図

1

に示す.

MSLR

パーザの解析 アル ゴリズムは一般化

LR

法 に基づ いているため, まず最初 に

LR

表作成器 を用いて,文法 と接続 表か ら

LR

表 を作成す る.

MSLR

パーザは,作成 された

LR

表 と辞書 を参照 しなが ら入力文の 形態素 ・構文解析 を行 い,解析結果 (構文木)を出力する. 図 1 MSLRパ ーザ を用 い た形 態素 ・構文 解析 の流 れ 本 ツールキ ッ トの主 な特徴 と機能は以下の通 りである.

◎ MSLR

パーザ は,形態素解析 と構文解析 を同時 に行 う.まず最初 に形態素解析 を行 い, その出力 をもとに構文解析 を行 う逐次的な方法では,形態素解析 の段 階では文法な どの 構文的 な制約 を考慮 しない場合が多 く,その後 の構文解析 の段 階で不適 当 と判断 される ような無駄 な解析結果 も出力 される. これ に対 し,

MSLR

パーザは形態的な情報 (辞書, 接続表)と構文的 な情報 (文法)を同時 に用 いて解析 を行 うため, このような無駄 な解析 結果 を生成す ることはない.

◎ LR

表作成器 は,接続表 に記述 された品詞 間の接続制約 を組み込んだ

LR

表 を作成す る. す なわち

,LR

表 を作成す る段 階で品詞間の接続制約 を考慮 し,接続制約 に違反す る構文 木 を受理 しない

LR

表 を作 る.さらに,品詞 間の接続制約 を組 み込 んだ場合,接続制約 を組み込 まない場合 と比べ て

LR

表の状態数 ・動作数 を減 らす ことがで き,メモ リ使用 量 も小 さくす ることがで きる とい う利点がある. ◎ 品詞間の接続制約 は,接続表 とい う形式 で記述す る代 わ りに,文法 に組み込 む ことも可 能である. しか しなが ら,接続制約 を文法 に組 み込 んだ場合,規則数 が組み合 わせ的 に 増大す る. このため,文法作成者の負担が大 きくな り, また作成 され る

LR

表の大 きさ も大 きくなるため に望 ま しくない. この ような理 由か ら,本 ツールキ ッ トで は,接続表 と文法 を独立 に記述す る枠組 を採用 している. ◎d官平文 を入力 とした解析の他 に,係 り受 けに関す る部分 的な制約 を加 えた文 を入力 とした 解析 を行 うこ とがで きる.例 えば

,

「太郎が渋谷 で買 った本 を借 りた」 とい う文 を解析す

(5)

自然言語処理 Vo 7l. No.5 No , 2000 る際 に,次 の ような括弧付 けによる制約 を付 けた文が入力 された ときには,括弧付 け と [太郎が渋谷で買 った]本 を借 りた v 矛盾 した解析結果 は出力 しない.

,A

す なわち 「

,

太郎が」が 「借 りた」 に係 る以下の ような解析結果 は の括弧付 けが入力 の括弧付 け と矛盾 (交差)しているため に出力 しない. [[太郎が

]

[

A

[[渋谷で][買 った皿 本 を][借 りた]

]

]

A

]

この機能 は,例 えば前編集 によ り係 り受 けに関す る部分的 な制約 をあ らか じめ文 に付加 してか ら解析 を行い,構文的暖昧性 を抑制す る場合 な どに利用 で きる.

8

k

ouna

g

ih T

k

a

nc

,

a

naa a

,

n

l

a

確率一般化

LR

モデル

(

I iS lt

nu o

,

r

ne

r

mv

dT

a1

9

9

iT

mv

a

nc,

ih

In

u

,

a

na

k

k

1

a

-S lt

o

r

ne

r

;

h

dT

osiyu

k

i

1

999)

(

P

r

o

b

a

b

i

l

i

s

t

i

cG

e

n

ea er z

l

i

dL

R

a7T o unaga,an

Mo

法 の枠組 において構文木の生成確率 を与 える確率 モデルで ある.

PGLR

モデルに基づ く 構文木の生成確率 は,続計 的な意味での正 しさの尺度 を構文木 に与 えることがで きるの で,構文的 な唆昧性の解消 に利用す ることがで きる. 以下では, ここに挙 げた本 ツールキ ッ トの特徴 と機能 について詳 しく説明す る.2節では品

dl

e

,以下

PGLR

モデル)を取 り扱 うこ とがで きる.

PGLR

モデル とは,一般化

L

R

L

詞 間の接続制約 を組み込む

LR

表作成器 について述べ

,3

節では

MS R

パ ーザの概略 について

L

述べ る.最後 に

4

節で本論文の まとめ と

MS R

パ ーザ ・ツールキ ッ トの今後の開発方針 につい て述べ る.

R

m

表作成器

本節 では,

MS

説明す る.

LR

パーザ ・ツールキ ッ トにおける

LR

表作成器 の機能 と特徴 について詳 しく

21

. 3

種類の

LR

表 を作成 する機 能

,

l

i

S

L

一般 化

LR

法 で用 い られ る

LR

表 には

,S R ( mpeLR)

CLR (

C

a

no

nc

i

a

lLR) AL

,

L

R

dLR)

3

種類がある.我 々の

LR

表作成器 は,これ ら

3

種類の

LR

表 を作成す る機

kh

ae

a

(

Lo

o

能 を持つ. 実際の 自然言語文 の解析 では,最 も状 態数 の少 ない

LALR

が用 い られる場合が多い. した が って,以後

LR

表 といえば

LALR

を意味す る もの とす る. これ らの

LR

表 の違 いの詳細 につ いては文献

(

Ah

o e

,

St

h

ia

,

n

dUl

l

ma

n1

9

8

5

)

を参照 していただ きたい.

(6)

2

白井.植木.橋本.徳永.田中 自然言語解析の ための MSLRパーザ ・ツールキッ ト

品詞間の接続制約 を組 み込 む機能

本 ツールキ ッ トにおける

LR

表作成器 の最 も大 きな特徴 は

,LR

表に品詞間の接続制約 を反 映 させ ることがで きる点 にある.品詞 間の接続制約 を

LR

表 に反映 させ る とい うことは,接続 制約 に違反す る構文木 を生成す る動作 を

LR

表か らあ らか じめ除去す ることに相当す る. このこ とを図 2の文法

CFG

lを例 に説明す る3

.cFG

lにおいて,書 き換 え規則 の右側 に ある数字 は規則番号 を表 わす. また,終端記号 は品詞である.

CFG

lか ら通常の

LR

表作成 ア

2

.

ルゴリズムによって作成 された

LR

表 を図 3に示す.但 し,図 3の

LR

表 は a ic nto部のみであ 部 は省略 されている.今, この

LR

表 に図 4の接続表 に記述 された接続制約 を反映 さ り,goto

i

,)

が 1な らi行 目の品詞 xiとj列 目

i

,

せ ることを考 える.図 4の接続表 において,行列要素 (i の品詞 xjが この順序 で連接可能であ ることを示 し

,(

i )

が 0な ら Tiと x,が連接不可能であ s_ s_ s_ ることを意味す る. また,"令"は文末 を表わす特殊 な品詞である. 1 VS→ v 5k VS→ v 5m ( ( ( ( ( ( ( ( ( ) ) ) ) ) ) ) ) ) 1 2 3 4 5 6 7 史 U 9 ( ( ( ( ( ( ( ( ( 1 1 1 1 1 1 1 1 1 ) ) ) ) ) ) nu 1 2 3 4 5 ) ) ) 6 7 8 S→ VP VSl→ v VP→ PPVP PP→ VPPP VP→ V AX V一十VSVE V → VSI PP→ NP t s ou N → n n P- po p S_ j e J e e_ 5w VEi v ki VE→ v ma AX → AX au VS一十V VE一十V x AX → aux 図 2 文法の例:CFGl

CFG

lでは,VSを構成す る品詞 として v s_ s_ s_ 5k s_ i" e_ s_ 」 e ve ,v 5m,v 5W が,VEを構成す る品詞 とし v naがあるので,規則 (5)か ら,Vを構成す る品詞列 は 3×3-9通 りあ るこ とがわかる.これに対 し,図 4の接続表 を考慮 した場合, これ ら 9通 りの品詞列の うち "v 5k 」","v 5 5wv の 3組 だけが接続制約 を満 たす. したがって,これ ら以 i _ て ve ,ve ,_ki ","v s_ くi 外 の品詞列 は受理すべ きではない. m ve」na ここで,図 3の

LR

表の状態 4,先読み記号 ve」の欄 にある rellとい うr ceud e動作 に着 目 す る.rellは,

CFG

lにおける規則 (ll)に対応 した部分木 を作 ることを意味す る (図 5)・ と 3CFGlにおける各記号のおお まかな意味は以下の通 りである.S-文,VP;動詞句= ,PP-後置詞句,V-動詞,VS1-一 段動詞語幹,VS-動詞語幹 ,VE-動詞語尾,N-名詞,p-跡軌 AX-助動詞列 (以上,非終端記号).v 1s_-一段動詞語 s_ 幹,v 5k-力行五段動詞語幹,v 5ms_ -マ行五段動詞語幹,v 5Ws_ -り行五段動詞語幹,ve」-動詞語尾 ィ,ve」(i-動詞語 t s

(7)

v Vb No No . 2 t posp noun aux I ve na_ i k _ ve i _ ve 5w vs_ 5m vs_ k 5 _ vs s 1 _ vs 7 l. .5 自然言語処理 蛋 ュ h s 0 0 0 l l h s nU h4 sh3 sh2 O l re 蒜 r=I l s s 1 re 8 hl 8 hll 1 re h1 hュ 8 1 re 8 1 re s s i. ∴ s s 告 h4 4 2 h s 8 h1 s 4 re 4 re 19 h s 0 2 h s 1 2 3 4 5 6 7 8 ∩フ 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 lre 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 h s 3 h s h4 .A 4 1 9 re 7 re 6 5 4 1 re 1 re 1 re 5 re r 9 re 7 re 9 re 7 re ・.I 7 re ; ・.i TZ r e 1 s / 2 re hl 2 h s / 2 re 3 h s / 2 re l l l h s / s 3 re hl hl / s 3 re 2 h s 3 h s h4 / s 3 re re3/sh3 re3/sh2 7 1 re 7 1 re h上 h4 1 re7 re17 s 7 1 re s 7 1 re ion t ac CFGlか ら生成 され る LR表 ( 部のみ) 図 3 _ e ve _ 止i v ma

vs _ 1 vs k v_ 5 s5m vsI5w veJ noun aux 令

0

0

0 1 0 0 0 0 1 0 1 _ vs 1 0 0 0 0 0 0 1 0 0 0 k 5 _ vs 0 0 0 0 0 0 0 0 0 1 0 0 5m vs_ 0 0 0 0 0 1 0 0 0 0 5w vs_ 0 1 0 0 0 0 0 0 0 0 0 0 k _ ve ve 」 i 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 V Jena no 0 1 1 1 1 1 0 0 0 1 1 un 1 1 1 1 0 0 1 postp 1 1 1 1 0 0 1 auX 図 4 接続表 の例 ころが,先読み記号が

*

"

R

」 e 5 _ vs ve」であ るこ とか ら," k v "とい う品詞列 に対 して この動作 を実 行す るこ とになるが, この品詞列 は図 4の接続制約 に違反す る.同様 に,図 3において,

"

のついた動作 もまた接続制約 に違反す る動作である. したが って, この ような動作 を事前 に

L

表か ら削除 しておけば,接続制約 に違反す る解析結果の生成 を防 ぐこ とがで きる. 接続制約 に違反す る動作 を

LR

表か ら除去す る方法 としては, まず図

3

のように接続制約 を 考慮 しない

LR

表 を作成 してか ら,接続制約 に違反す る動作 を

LR

表か ら削除す る方法が考 え 3 l 2 * 1re ・1e * lre 1 3 2 l * 1re * 1re l re 2 l 3 1 re * 1re * lre 2 h s 3 h s ・.i_S 霊 4 re t posp 0 1 1 1 1 1 0 0

(8)

白井.植木,橋本,徳永.田中 自然言語解析の ための MSLRパ ーザ ・ツール キ ッ ト 5 ′ 8 、-- 二x 一 読 l紬 二 (品詞列 ) ◎ vs_ k' ve 1 上 ru 違反 図 5 接続制約 に違反す る reduce動作 Ⅴ - vs_5kve止i (5-1) Ⅴ

- VSVE (

5

)

⇒ Ⅴ - vs_5m ve_ma (5-2) Ⅴ - vs_5w ve_i (5-3) 図 6 接続制約 を反映 した文法規則 られ る. しか しなが ら,文法の規模が大 き くなる と,接続制約 を考慮 しない

LR

表 の大 きさが 非常 に大 き くなるため に望 ま しくない. これ に対 して,本 ツールキ ッ トで は

,LR

表 を作成す る 段 階で接続制約 を考慮 し,接続制約 に違 反す る動作 を除いた

LR

表 を直接 生成す る方法 を採用 してい る.接続制約 を組み込み なが ら

LR

表 を作成す るアルゴ リズムの詳細 については文献

(

Li

1996)を参照 してい ただ きたい. 接続制約 を

LR

表 に組み込 む主 な利 点 と しては以下の

3

つが挙 げ られ る.

(

1)

接続制約 を事前 に組み込 んだ

LR

表 を用 いて解析 を行 った場合 ,解析 時 には品詞 間の 連接 可能性 をチ ェックす る必要が ないので,解析 時の効率 を上 げるこ とがで きる. (2) 接 続制約 に違反す る構文木 を生成す る動作 を

LR

表か ら除去す るこ とによ り

,LR

表 の状 態数 ・動作数 を大幅 に減 ら し, メモ リ使用量 を小 さ くす る ことがで きる. (3) 品詞 間の接続制約 は,接 続表 と して記述 してか ら

LR

表 に組 み込 む代 わ りに,書 き換 え規則 の細分化 に よって組 み込 む こともで きる.例 えば,

CFG

lの例 で は,規則

(

5

)

の代 わ りに,図 6に挙 げ る 3つ の規則 を導 入す れ ば,接 続制約 を満 たす品詞列 のみ 受理す る こ とがで きる. しか しなが ら, この ように接続制約 を組み込 んだ文法 を作成 す るこ とは,規則数が組み合 わせ 的 に増大す るため に望 ま しくない.品詞 間の接続制 約 は,接 続表 と して文法 とは独立 に記述 し

,LR

表 を作成す る段 階で接続制約 を組 み 込 む方が ,最終的 に得 られ る

LR

表 の状 態数 ・動作 数 も少 な く, メモ リ使用量 を小 さ くす る こ とがで きる. また,文法記述者 の負担 も減 らす こ とが で きる.

(9)

;濁

自然言語処理 Vol.7 No.5 Nov. 2000

2.

3

評価 実験

LR表 に品詞間の接続制約 を組み込 む効果 を調べ る簡単な実験 を行 った.本 ツールキ ッ トに 付属 されている日本語解析用の文法 と接続表 を用いて,品詞間の接続制約 を組み込む場合 と組み 込 まない場合の LR表 を比較 した.使用 した文法の規則数は 148,0 ,非終端記号数 は 281,終端 記号数は 537であ る.実験 に使用 した計算機 は SunUltraEnterprise250Server(主記憶 2GB, CPU周波数 300MHz)である.結果 を表 1に示す. 表 1 品詞 間の接続制約 を LR表 に組 み込 む ことの効 果 表 1において ,「CPU時間」 は LR表作成 に要 した CPU時間を,「状態数」は作成 された LR 表の状態の数 を,「動作数」 は作成 された LR表の動作 (shift動作 と reduce動作)の数 を示 して いる.この表か ら,品詞間の接続制約 を組み込むことによって,状態数はほ とん ど変 わ らない が,動作数 は約半分 に減 ることがわかる. したがって ,LR表のために必要なメモ リ使用量 を大 幅に縮小す ることがで きる.一方,「CPU時間」 は,接続制約 を考慮す る場合 としない場合 とで それほど大 きな差 は見 られなかった.一般 に,接続制約 を組み込む場合 は,品詞間の連接可能 性 を調べ なが ら LR表 を作成す るために,それ に要す る時間は長 くなることが予想 される. し か しなが ら,接続制約 に遠反する無駄 なアイテムが生成 されな くなることか ら ,LR表作成 に要 する時間が短縮 される効果 も生 じる.そのため ,LR表作成時間が劇的に増大するわけではない ことが実験 的に確かめ られた.

3 M SLR

パ ーザ

本節では, MSLRパーザの機能 と特徴 について概説する.

3.

1

形態素解析 と構文解析 を同時に行 う機能

1節で述べ た ように, MSLRパーザ は形態素解析 と構文解析 を同時 に行 う (Tana ka,Tbku-naga,andAizawa1995).また,形態素 ・構文解析結果 として構文木 を出力する.例 えば,図 2 の文法 (CFGl),図 4の接続表,図 7の辞書 を用いた ときの 「あい こにたの まれた」 という文

の解析結果 (構文木)を図 8に示す.実際 には, MSLRパーザは以下の ような括弧付 けで表現 さ れた構文木 を出力す る.

(10)

白井,植木,橋本,徳永,田中 自然言語解析の ための MS RL パーザ ・ツールキッ ト ÷ :-- 「

I

Lt 図 7 辞 書 の 例 l ,[< >vp ,[ > S < [ <pp>,[<Ⅳ>,[no、皿 ,あい こ] ] [,< >p,[pospt,に] ]],[<vP>,[くⅤ>,[<VS>, [vs m_ ,たの] 5 ],[ E<v>,[ve_ ma,ま] ]] [,<AX>,[<AX>,[aux,れ] ],[aux,た] ]]]] 解析結果が複数 ある場合 には,その中か ら Ⅳ 個 の構文木 をランダムに選 んで出力す る.ただ し, 項で述べ る

P R

モデル を用 い る場合 には,構文木の生成確率 の大 きい上位 Ⅳ 個 の構文木 を取 り出す ことがで きる. また,Ⅳ の値 は起動時のオプ シ ョン指定 に よ り変更で きる. PP VP

L

G

33

.

、. 一一一 、 l l 〈 /〈 \ // 一\ .一・・〆 了 、\ \ V P AX N I tposp . noun VS VE AX aux l t l l l l ve 5m vs あい こ ノ に ma aux た たの ま れ 図 8 「あいこにたのまれた」の解析結果 _ _

L

L

MS

る.一般化

LR

法が通常 は品詞列 を入力 とす るの に対 して

,MS

R

パ ーザの アル ゴ リズムは,一般化

LR

法の構文解析 アル ゴリズ ムを拡張 した ものであ

ⅠR

.

R

パ ーザ は文字列 を入力 とし, 辞書 引 きによる単語分割 と構文解析 を同時 に行 う.以下,一般化

LR

法 と

MS

パ ーザの解析

L

5 9 9 l1. Tanak アル ゴリズム との違 い を簡単 に説明す る.

MSR

パ ーザの解析 アル ゴ リズムの詳細 については 文献 ( aeta )を参照 していただ きたい. (1) 入力文 が与 え られた とき,品詞 と品詞 の間 に位 置番号 をつ け る代 わ りに,図9の よ うに入力文 の文字 間 に位置番号 をつ ける.

)

2

(

解析が位置 iまで進 んだ とき,位置 iか ら始 まる全 ての単語 を辞書引 き し,その結果 をス タ ックに登録す る.例 えば,図

9

の例 文 を図

7

の辞書 を用 いて解析 した場合,位 ) noun , " とい う

3

5 vs , -解析 ス タ ックに登録 され る. これ らの品詞付 けの結果 は,通常 の一般化

LR

法 におけ 置 0で は " (あ,vs15k)","(あ W)","(あい こ つの品詞付 けの結果が

(11)

1

自然言語処理 Vol.7 No.5 Nov. 2000

あ い こ に た の ま れ た (位置番号) 0 1 2 3 4 5 6 7 8 9 図 9 MSLRパーザにおける位置番号のつけ方 る多品詞語 と全 く同様 に取 り扱 われる.

(

3)

si

hf

t動作 を実行 して先読み記号 をス タックにプ ッシュする際 には,その品詞 を構成す る文字列の一番最後の位置 まで解析 ス タックを延ばす.例 えば,位置 0で vs_5kとい う先読み記号 (品詞)をプ ッシュす る際 には,vs_5kが位置 0-1に位置す る単語 「あ」 の品詞 であるので,スタックの先頭 を位置

1

まで延 ばす.そ して,位置

1

か ら始 まる 単語 の辞書引 き結果 をもとに以後 の解析 を進める.同様 に,位置 Oで nounとい う品 詞 をプ ッシュする際には,nounが位置 0-3に位置す る単語 「あいこ」の品詞である ので,ス タックの先頭 を位置 3まで延 ばす.以後の解析 は,位置 3か ら始 まる単語の 辞書 引 き結果 をもとに進め られる, 例 文 「あい こにたの まれた」 を解析す る際,形態素解析結果 の候補 としては以下の

2

つが ある. a・ (あい こ,on( p sp(nu )に,ot)たの,s5 ( vv_m)ま,e a( ax」n )れ,u )

( a

た,

u )x b. (あい こ,o n( vnu )に,sll(

)

た,u )ax( v_m)の,s5 ( v_ま,ema()れ,u )a x( a xた,u ) 文法 CFGlは b.の品詞列 を受理 しないが,形態素解析 と構文解析 を逐次的 に行 う方法では,形 態素解析結果 の候補 として a.,b.ともに出力 し,それぞれの品詞列 に対 して構文解析が試み られ る. これ に対 し,MSLRパーザ は形態素解析 と構文解析 を同時 に行 い,文法 に記述 された構文 的な制約で排 除 される形態素解析の結果 を早期 に取 り除 くことがで きるため,解析効率が よい. 例 えば,位置 3まで解析が進 んだ とき

,

「あいこ」 とい う文字列が図 8の点線 で囲 まれた部分木 を構成す るこ とが わか っている. この とき,位置 3か ら始 まる単語 を辞書引 きす る際 に,品詞 列 b.は受理 されない とい う文法的な制約か ら,"に( ,s1v_)77とい う品詞付 けが適切 でない ことが わかる,具体 的 には,位置 3におけるス タ ック トップの状態 7において,"vs_1"を先読 み記号 "に, 1 とす る動作が図 3の LR表 に存在 しない ことか ら, ( vs_)"とい う辞書引 き結果 を含 む解析 はこの時点で中断 される. したが って,誤 りである形態素解析結果 の候補 b.を早期 に取 り除 く ことがで きる. この ことは,MSLRパ ーザの大 きな特徴 の 1つである.

3.

2

括弧付 けによる制約のついた入力文 を解析 する機 能

MSLRパーザ は括弧付けによる制約 を加 えた文 を解析することがで きる.具体的 には,MSLR パ ーザ は次の ような文字列 を入力 として,括弧付 け に矛盾 しない解析結果のみ を出力す る機能 を持つ.

(12)
(13)

v 000 5 .

331

..

自然言語処理 k)は,状態が stで先読み記号が Ijの ときに動作 aたが実行 された回数 わす.LR表 における全ての状態 は Ssまたは S,の どちらか一方 に必ず属す る.図

3

の LR表の例 る.例 えば,図 3の LR表の状態 Oにある

5

つの と shl)の実行確率 は,これ らの和が 1になるように ザ は,構文解析 を行 う際 に,LR表 の各動作 の使用 回数 を出力す る機能 を持 っている. さらに, I,a )を求め ることがで きる. また本 ツー),k Iキ ッ トには,この ように して, れた LR表 を作成す るツールが含 まれている. このツー)Iは,パ ラメタ推定の平滑化のため に, , R表 に登録 されている全 ての動作 の実行 回数 にあ る一定 の頻度 を加 える機能 を備 えている. Vo No No . 2

PGIR

モデルの学習 について pGLRモデ ルの学習 は,LR表上 の各動作 の実行確 率 を推定す るこ とによ り行 われる.動 作 の実行確率 の推定 に必要 な ものは,構文木が付与 された構文木付 きコーパ スであ る. まず, 例文 に付与 された構文木 に対 して,構文木 を生成す る際 に実行す る LR表上の動作 の使用 回数 l 7.

J

ak)を数 え上 げる. ここで, siは LR表 における状態 を

,j

l

は先読み記号 を, akは動 lils,

(

式 において ,Ssは 動作直後 に到達す る状態の集合 ,S,はそれ以外の状態の集合 を表 P(ak j

)-)

2

(

)

1

)

3

2

,

1

72

,

51

,

41

,

21

,

01

,

91

,

8

,

,

2

2

i

s

)

2

るように正規化 される.これに対 して式

(

,

S,の ときには,状態 s ときに実行 され うる全 ての動作 で実行確率 を正規化す ることを意味す る.すなわち,LR表 にお L 正規化 され る. また,S,に属す る状態の場合,s コンフリク トが ない限 り,その状 態 に属す る動作 の実行確率 は必ず

1

となる. 本 ツールキ ッ トにおける PGLRモデル学習の手続 きは以下の通 りである.まず,MS Rパー

i

,先読み記号 Itの

5

2 re -vs ける同 じマス 目に属す る動作 の実行確率の和 は

1

となる.例 えば,図

3

の LR表の状態

1

,先 1の欄 にある 2つの動作 (

i

s

Ssの ときには,状態 で実行 され うる全ての動作 で実行確率 を正規化す る ことを意味す る.言 い換 えれば,LR表 にお ける同 じ行 に属す る動作 の実行確率の和 は 1とな

i

(

1

)

式 は

,s

t f i h s 動作 は,これ らの実行確率の和が 1にな i

C(

s

i

,

C(

Ej

2

k

,

(

)

1

を表わす.

(

)

LR表上の各動作 の実行確率 は式 によって推定す る.

iE

P(

l

3

・ ,ak f

s

Ss

t

i

s

s,

)

k

j

,

a

i

,

l

s

7

6

5

(

S

,

,

,,, である.初期状態 Oは Ssに属す ることに注意 していただ きたい. i

)

f d reuce / t f i h

)

k

lj,

a

k

l

j

a

,

,

l

"

S

C(

"

∑kC(

s

t

)

k

a

-4

02

,

)

92

,

81

,

61

,

31

,

1

,

) -Lst t f i h s

C(

, 作 を表 わ し

,C(

S

"

l

"a

j

i

l

s

,

32

.

項で述べ た括弧付 けによる制約 を取 り扱 う機能 を利用 し,訓練用 コーパスに付与 された構文 木 を入力 と して解析 を行 うことによ り,訓練用 コーパス中の構文木 を生成す る際 に使 われた各

2

(

)

1

i

s

,

i

,

l

動作 の使用 回数

C(

得 られた

C(

s "ak)か ら式

(

)

に従 って各動作 の実行確率 を推定 し,その実行確率が付与 さ では

,

Ss

-(

0

,,,,

1

2

3

4

,

l

l

読み記号 L

(14)

白井.植木.橋本,徳永.田中 自然言語解析のための MSLRパ ーザ ・ツール キ ッ ト 表 2 解析実験 の結果 平均単語数 平均解析木数 平均解析時間 (ms) B 96. Ste 1 A 2 Ste 81. 500 77. 5, 2 1 31. 3 1 65. ㌔ " / 332.. PGLRモデル を用 いた解析 について MS 力す ることがで きる. また,生成確率の高 い順 に構文木 を並べ て出力す るこ とがで きる.す な わち,pGLRモデルに基づ く生成確率 を用いた解析結果の優先順位付 け を行 うことがで きる. LRパーザ は,解析結果 となる構文木 とその PGLRモデルに基づ く生成確率 を同時 に出 MS Rパ ーザ は, まず文法が受理す る全 ての解析結果 を求め,それ らをまとめた圧縮統語 森 を生成す る.次 に, この圧縮統語森 を展 開 して個 々の構文木 を出力す る際に,PGLRモデル に基づ く構文木の生成確率 を考慮 し,生成確率 の上位の構文木か ら優先 して出力す る.解析 の 途 中で生成確率 の低 い部分木 を除去す るな どの枝刈 りを行 っていないため,生成確率の上位 Ⅳ 位 の構文木 が必 ず得 られ る こ とが保証 され る代 わ りに,長文 な ど構文 的暖昧性 が非常 に多 い 文 を解析す る際 にメモ リ不足 によって解析 に失敗す る可能性 も高 い. したが って,我 々は解析 途 中で生成確率 の低 い部分木 を除去 して探 索空 間 を絞 り込 む機構 も必 要であ る と考 えてい る. L ih anc ( h1 MS R るが mv ,現在公 開 している パ ーザ には実装 されていない. mv i anc 998) L la Sornel tr la Sornel tr は PGLRモデルを利用 した効率 の良い枝刈 りのアル ゴリズムを提案 してい F a ur, use iT k t aan,aezaw to, i r .

4

3

パ ス と して,ATRが作 成 した 日本語対 話 コーパ ス (Mo mo Ur ,

解析例

本項で は,MSLRパーザ を用 いた簡単 な 日本語文解析実験 について報告す る.実験用 コー 0 00, 4 9 9 i k agsa ra an, ka da, i I i 9 Sb hoasma

,

Na mu dS a1 析用 の文脈 自由文法 で,非終端記号数 17 衛藤 1 今 回の実験 では, 日本語対話 コーパ ス約 2 0文の うち,上記の文法 による構文 )を使用 した.実験 に用 いた文法 は,対話文解 2,終端記号数441,規則数 は 806である (田中,竹滞, ). 7 9 2 00, 0 0 2 00, Se Se 木が付与 された例文 1 0文 を使用 した.辞書及 び接続表 は, これ ら 1 0文か ら自動 的 に 作成 した. ,15以上 の文 をラ ンダムに 1 0文ずつ取 り出 し,そ tA, tBとした. これ らの評価用例文 について,分か ち書 きされていない文字列 を 4 評価用 テキス トと して,単語数 4-1 れぞれ i t nerprse tr Su L 入力 とし,MS 文約 9000文か ら PGLRモデルを学習 し,その PGLRモデルに基づ く構文木の生成確率 によっ nUlaE Rパ ーザ を用 いて形態素 ・構文解析 を行 った. また,評価用 テキス ト以外 の例 3 . 2 3, erver 5 2 て解析結果 の順位付 け を行 った.使用 した計算機 は,2 項 の実験 と同 じ 0S である.実験結果 を表 に示す..また,解析結果 の具体例 を付録 Aに示す.

(15)

自然言語処理 Vol.7 No.5 Nov. 2000 表 3 解析実験の結果 (文正解率) rL 1 2 5 ' 4 【形態素解析の文正解率SetA SetB 88.3% 63.7% 94.4% 75.1% 96.8% 80.6% 97.6% 83.6% 98.8% 87.2% 】 【構文解析 の文正解率】 SetA SetB 80.1% 36.3% 90,6% 50.4% 95.0% 58.8% 96

.

4

%

65.0% 97.6% 69.6% 3 表 2において

,

「平均解析木数」 は 1文 あた りに生成 される構文木の平均であ り

,

「平均解析 時間」 は 1文の解析 に要 した時間 (単位 は ミリ秒)の平均 を表 わ している. Set

A

の ような短 い 文の場合 は 7ミリ秒程度 ,SetBの ような長めの文の場合で も 27ミリ秒程度で解析 を行 うこと がで きる. また,表

3

の E形態素解析 の文正解率】は

,PGLR

モデルに基づ く構文木の生成確 率の上位 n位の解析結果の中に,単語分割 と品詞付 けの結果が コーパスに付加 された もの と一 致す る構文木が含 まれる文の割合 を表 わ している.同様 に 【構文解析 の文 正解率】は,上位 n 位 の解析結果の 中にコーパス に付加 された もの と一致す る構文木が含 まれる文の割合 を示 して いる. この表か ら,例 えば生成確率の 1位の構文木 について ,SetA では約 80%,SetBで は約 36%の文 に対 して正 しい形態素 ・構文解析結果が得 られた ことが わか る.今回の実験で使 用 し たコーパスが ドメイ ンの限 られたコーパスであ り, また辞書 と接続表 を評価用 テキス トと訓練 用 テキス トの両方 を用 いて作成 したこともあ り,比較的良い結果が得 られている.

4

おわ りに

本論文 で は,我 々が現在公 開 してい る自然言語解析用 ツール

MS

LR

パ ∵ザ ・ツールキ ッ ト」 の機能 と特徴 について述べ た.最後 に,本 ツールキ ッ トの今後 の開発方針 について述べ る. まず,複数の接続制約 を同時 に組み込む

LR

表作成器, さらにそれ を用 いて解析 を行 うパ ー ザの実装 を進めている.現在 のツールでは

,LR

表 に組み込 める接続制約の数 は

1

種類のみであ る. しか しなが ら,例 えば音声認識 と同時 に構文解析 を行 う場合 ,品詞 間の接続制約 だけで な く,音素 間の接続制約 も同時 に利用 した方が効率の良い解析がで きると考 えられ る (今井 1999). この場合,音素 と品詞の 2つの接続制約 を

LR

表 に組み込 む必要があ る. また, これ に合 わせ て

,MS

LR

パーザの解析 アルゴリズム も変更す る必要がある.現在 ,複数の制約 を取 り扱 う

LR

表作成器 お よび

MSLR

パーザの プロ トタイプは完成 してい るが,効率 の面で まだ問題 が あ り , 改 良 を進 めている. 次 に, よ りロバス トな解析 がで きるようにパ ーザ を拡張す るこ とが挙 げ られ る.特 に,秤 書 にない単語 (未知語)が入力文 中 に現 われた ときには,原則 的 には解析 に失敗 す る.現在 の

(16)

白井,植木.橋木.徳永.田中 自然言語解析のための MS Rパ-ザ ・ツ-ルキ ッ ト MS Rパ ーザ は, カタカナが続 いた文字列 を未知語 と して登録 す るな ど,非常 に簡単 な未知語 処理機 能が付加 され てい るが, まだ改 良の余地 も多い. また,解析 に失敗 した場合で も,部分 的な解析結果 を表示す る機 能な ども追加 し.てい きたい と考 えている. の課題 と して挙 げ られ る. これ らを用 いて新 聞記事 の解析 を行 った場合 ,解析 に成功 して何 ら L 最後 に,本 ツールキ ッ トに付属の 日本語解析用の文法,辞書 ,接 続表 を改 良す るこ とが今後 L かの結果 を返す こ とので きる文 の割合 は約 8%である.解析 に失敗す る原 因 としては,前述 の 未知語処理 の不 完全 さや文法規則 の不備 による ものが多 い. よ り多様 な文 を解析 で きる ように す るため には,特 に文法 を改 良 していか なければな らない. また,本 ツールキ ッ トに付属 の文 法 を用 いて解析 を行 った場合,PGLRモデルを学習す るための構文木付 きコーパスが存在 しな いため に,PGLRモデルに基づ く生成確率 によって解析結果 に優先順位 を付 けることはで きな 5 めてい る. い5.現在 ,構文木付 きコーパス を必要 と しない PGLRモデルの学習方法 について研 究 をすす 謝辞 MS Rパ ーザ ・ツールキ ッ トは多 くの方の協力 を得 て開発 され ま した.李輝氏 , 日本 アイ ・ ビー ・エ ム株式会社 の綾部寿樹氏 には初期 の LR表作 成器 を実装 していただ きま した.九州工 L ex 業大学の乾健太郎助教授 には,PGLRモデルの理論 を提案 していただ きま した.Suss 大学の

nCarroll氏,Nati lonaElecrtoncisandCompuetrTbh lcnoogyCenetrの

Jho Somlertlamvancih L 氏 には,MS Rパ ーザの実装 に関す る貴重 な助言 をいただ きま した.以上の皆様 を始 め, i hrac v 本 ツールキ ッ トの開発 に御協力 いただ きま した全ての人 々に感謝 いた します. L SUF Y SUFA Y れ た高速文字列検索 システム AR をベ ース に作 成 してい ます. R の転用 を許可下 MS Rパ ーザの辞書引 きモ ジュールは,奈良先端科学技術大学院大学 ・松本研究室で開発 さ さい ま した松本研 究室の皆様 に深 く感謝 いた します. 本 ツールキ ッ トに付属 の 日本語解析用 の辞書 は, 日本電子化辞書研究所 が作 成 した EDR日 5 本語単語辞書 (日本電子化辞書研 究所 199)をもとに構築 されてい ます.本辞書 の公 開 を許可 下 さい ま した 日本電子化辞書研 究所 の皆様 に深 く感謝 いた します.

参考文献

1 ・ J n, an , i h iso Ste ., d ). ls. 1 V . A o, Ah

,R・

dUllma D・( too Ad 今井宏樹 (999 Co l sey. mp nWe 音声認識 のための PGLRパ ーザ に関す る研私 ). 5 8 9 ilers- prli ilncpes,tecnqh iues,an d f n t par ac h iess, tec i t t ・ I tpcs. f / / t :p f y. T h lecnoog PhD・ De meto h・ f ttu i t ns oI eo ・pj/pub/ t uer mp 9 9 / Co R T / k oy psgz, 1 Sicence

,

0 0 -9 9 R T T 6・ ・ 5公 開 されてい るツールでは,付属の文法 を用いて解析 を行 った場合で も,単語数最小 法,文節数最ノト法 の ヒュー リス テ ィクスに基づ く購析結果の優先順位付 けを行 うことがで きる.

(17)

I 「で 覇' No・5 No . 2 robabilisticGLR v 000 ・ ) 8 9 9

a,

H・ dT,an ouknaga,T・(1 Vo lui, .,S mva l 7. la l t orner K l 自然言語処理 i, Mo mo 7Tir to L P gP ma ・" 自然言語処理, " nce di Apts f eror seran ar Si t uer cence Co f t n o nSysetm .PhD,. th iess,Departme mp

,

io t i ecogn ionsnai i tca l p 0 0 0 -6 9 R T / 6 9 / R T / b pu / h j tec a. .c i tp cs. .t f / p 3・ ll nsa c o . 0 , b taas i 0.,Sb ho asma

,

anguag

dL eDa efrSpeehTra ra k aa N ., d Ha, i I mu , anguage k poee enc f on nP ceedingsofteIh netrna otinalC err eonS nL 4, 9 ro 7 1 -1 9 I 7 1 p. p , -ars y. h l ecnoog Em ) 9 9 9 1 ( ・" -) 3 自然言語処理,6( , ize l enera ittu t ns dLR P eofT -yn J I L " ). 7 9 9 MS R法 を考慮 した音声認識用 日本語文法I R表工学 l a a 3. 7 -9 )5, ndS ' o ・ 6 0 1 -5 )8, gfrG i T k cence oy, 5psgz. . . 0 0 0 -8 9 t ue TR / 8 9 / o R T / b pu / j ・p tofC mp rS oI i, i kyu h os T・ awa,T.,Furuse, T kaez ., iN t raan, U ., hl rp oog io Itnegrat 9 , ) 5 9 9 1 7i ." nofMo ic in 5( dl nguag e 3 i its l i bb roa cLa eMo ch V T i A nwF ma nadI mp nP gC nC oaGLRP i arsn t ac o i it t ransn I ts onst n k ana io io ・, i tza t onnec l , i n or in e )It.negrat : ng 6 9 5( 9 pasr 1 ( . H an ., T kounagaT ., , dT 9 9

略歴

白井 清昭: 1 9 9 9 9 9 9 学研究科修士課程修了.1 8年 同大学院情報理工学研究科博士課程修了.同 年同大学院情報理工学研究科計算工学専攻助手 ,現在 に至 る.博士 (工学). 統計 的 自然言語解析 に関す る研究 に従事 .情報処理学会会員 . 植木 正裕: 1 5年東京工業大学工学部情報工学科卒業.1 7年 同大学院情報 i arsng. ize l nera i its l i bb roa w P cGe dLR P " 0, 5 1 -5 4 1 p. p ., 2 m." 自然言語処理,2( / p: t f y. T h lecnoog f ."A Speehac n dSisaga

k,Y

a ・(1 an ., A ). 8 徳永健伸 ,田中穂積 (199 n t par h i Deess, me t ) 4 9 9 )I P 8 9 9 1 ( . V ." ) 5 9 9 1 h・ tec ac l ・ 2 5 一一 3 )3, 3 1 田中穂私 竹津寿幸 ,衛藤純司 ( peehRc S inuous C ton eo ittu Tanaak H , , I inu , , mvanc,ihV. K. la Sornel tr oI S・ ky nst 乙 g b T P lSupportforNe ii prca 22. -3 日本電子化辞書研 究所 ( 5. 4 0 TR-p・cs.t t f / " nR essm

9

h esearc. io ・t Proc mv ihanc, la Sornel tr h t i gor zawa, i arsn an ., base T ko unagaT , , l i ayss . i -) t tac 3 ( Tanaa,k H "情報処理学会音声言語情報処理研究会 ・ dAi M.(

cAn donLR P gAl .PhD.・ / p: ing t f EDR電子化辞書仕様説明書第 2版." テ クニカル ・レポー ト "統計的構文解析 における構文的統計 情報 と語 白井清呪 乾健太恥 蓑的統計 情報 の統合 について・" 自然言語処現 3年東京工業大学工学部情報工学科卒業.1995年 同大学院理工 0 0 理工学研究科修士課程修了.2 0年同大学院情報理工学研究科博士課程満期 退学.同年

4

月同大学院情報理工学研究科計算工学専攻技術補佐員.同年

7

月国立 国語研 究所 日本語教育 セ ンター研究員,現在 に至 る. 自然言語解析 に

(18)

白井,植木,橋本,徳永,田中 自然言語解析の ための MSLRパーザ .ツールキ ッ ト 関す る研 究 に従事 .情報処理学会会員. 橋本 泰-: 1 7年東京工業大学工学部情報工学科卒業.1 9年同大学院情報 理工学研究科計算工学専攻修士課程修了.同年同大学院情報理工学研究科計 算工学専攻博士課程進学,在学 中.統計 的 自然言語解析 に関す る研究 に従事. 9 9 9 9 徳永 健伸: 1 3年東京工業大学工学部情報工学科卒業.1 5年 同大学院理工 学研究科修士課程修了.同年 (秩)三菱総合研究所入社.1 6年東京工業大学 8 8 9 9 8 9 大学 院博士課程入学.現在,同大学大学院情報理工学研究科計算工学専攻助教 授 .博士 (工学).自然言語処理 ,計算言語学 に関す る研究 に従事 .情報処理学 o o io it oca 会,認知科学会,人工知能学会,計量国語学会,Ass nfrC mpuatti lona ics, i itngus L 各会員. 9 6 9 田中 穂積: 1 4年東京工業大学工学部情報工学科卒業.1 6年 同大学院理工 学研究科修士課程修了.同年電気試験所 (硯電子技術総合研究所 )入所.1 6 9 0 8 9 理工学研究科計算工学専攻教授 .博士 (工学).人工知能, 自然言語処理 に関 す る研究 に従事 .情報処理学会,電子情報通信学会,認知科学会,人工知能学 it oca o 年東京工業大学助教授 .1 3年東京工業大学教授 .現在,同大学大学院情報 o 8 io Ass nfrC mp 会,計量 国語学会 uatti lonaLi itngusics,各会員. ( ( 2000年 1月 6日 受付) 2000年 3月 30日 再受付) (2000年 3月 14日 採録)

付録

A

m

R

3

MS

p

.4項 の実験 で得 られ た解析 結果 の例 を挙 げ る. まず,以下 の例 文

(

GLR

モデルによる生成確率の最 も大 きい解析結果のみ を表示 させ た ときの

MS

力 を示す.

パーザによる解析例

)

3

)(

,

2

)(

,

1

L

-を解 析 し,

R

パーザの出 御社の場合 には割引価格が適用 され ますので朝食 も含 めて割 と良いお部屋 を百九十三 ドルで ご提供で きます p I 1)

)

2

(

(

(

3)

七 日までの ご予約ですので八 日と九 日の分 で ござい ますか 十 日と十一 日の ご予約 を十一 日と十二 日に変更 なさ りたいわけですね t se ・ tr prt gr ・ t

J

I

l ms / ..

◎MS R

パーザの出力 r -g a r・ a -1 a b・ 2 tr- 1・a1 dic・ary -i p -Ⅳ 1 <S ten ence one -gra t a l i ranzna h in d rea a a g t e g r f e ` r・ 'D one t se t pr t a l i l b a in d rea g LR t e f e 【 r・ b・ 21D

(19)

E],%.耶錨kJL描 t ### eTAC23034 EJ仙 7 ancept [<sent em>. ) ### -0030-3 )‖ 瑚 聾 >,[<C1>. ?・0 .[<n・day>. [<n-sahen>. ,[<vaux>.[<1auX >,[<n・date&time .[meisi・hi ux・de.d ]]]].[<auxl.[<auxstem x >.[aux・sfp・ka tota1 CPU )3)4 0.2 time ### 2 STASL3004 + ET付 + accept [<sent>. .[<n・sahen>. ]]]].[<p・para ### I L EJa)H [<C1>. d i E ntai・no.0 [p・kaku・0. <n・day>.[me si・hi.+ ]]]]].[<p・kaku・opt,n [p・kaku・ni二 stem>,[auxstem・sahen・5・r ]],[<inf1 tota1 CPU time ### >,[inf1・spe・su. 2583 O13 3### S)2006-0 STA TJEn7=J:0)感 吟 (;巾igrJ accept [<sent>,[<C1>. g n・hull>.[<mOd・n .[hutu・meisi. \O>.[<pp-ga [<np ・meisi. uruISa. >. 裏 S ]]].[<auX i ]].[< nf1>.i b ]]]].[<verb\ga・ni・0 n

y

o

・te, T [<verb\ga>. adj-i. ぐノ]]]]]]. % ]].[<verbJga・o n <ntlm・Suf・hyakl>,[ u n [<n ・suf・Nyuu>. ]]]].[<p・ ・O.前 <inf1 頭 ]]]]],[<

N

o

v. No.5 Vo1. 7 d 4 0)7リ^ ロ t )LE一〇)LJJLd 日 収で 仙 4 77 [<adv・C1>.[<verb>)[<verbJga>,[<np>,[<n・sahen>,[<mod・1>,[<PP>)[<nP>,[<n・date&t・ime>

[meisi・hi.・t=EJ]]]],[<p・kaku・optn>.[p・kakl・made.仙 d ]]].[<p・rentai>.

[<n・sahen\ga・o>.[<prefix>.[prefiXIgO.;1 ].[sahenImeisiJga・0. .71,聾 ]]]]],[<alX>,[

[auxstem・desu.づ ]].[<inf1>.[inf1・spe・su.ヰ ]]]]].[<p・conjIadvC1>.[p・conj・syusi,0)づ ]]],[<C1>

>.[<1erb>.[<verb\ga>.[<np>.[<n・hut,u>.[<mod・n>.[<np>.[<nよ ate&t・ime>,[<mod・n

>.[<n・day>.[meisiIhi,jtJ山]]]],[<p・para>.[p・para・to、 什]]],[<n・date&time

.)Lrj]]]]].[<p・rentai>.[p・rentai・10.0)]]].[<n・hut・u>.[hutu・meisi・post.

]].[<inf1 Jh ]]]],[<aux [auxstem・copula・masu L;滑 淘 中 仙 e・sl >. .‖ 叫 く蒜 >.[inf1・sp .ヰ ]]]].[<al .751]]]]]] 5.7)64)6er23 sec OL00IL jf,寄付 + ト ロ t + 目 口 t)汁く Jb 耳 dヰ 計 [<vaux>.[<verb>.[<verb\ga>.[<np>.[<vaux>.[<vaux>.[<verb>.[<verbJga>,[<pp・o [<mod・n>.[<np>.[<n・date&time>.[<mod占 >,[<np>.[<n・date&time>.[<n・day>.[mei

>,[p・para・七〇. t ]]].[<n・date&time>.[<n・day>.[meisi・hi.+ 1 El]]]]].[<p・rentai>,[p

)]]].[<n・sahen>.[<n・sahen\ga10>.[<Prefix>.[prefix・go.C1].[sahen・meisiJga・O.旬 聾 ]]]]]、

% ]].[<verb\ga・o>.[<mod・V>.[<pp>.[<np>.[<n・date&time>.[<mod・n>,[<np こ ]]].[<pIpara>,[pIpara・to、t ]]].[<n・date&time>.[<n・dly

>,[<n・date&time

>.[meisi・hl

->. 日]]]].[<n・sahen\g

a

o>,[sahen占eisiJga・O.'賛i:浬 ]]]]],[<

.71-仙 ]].[<inf1>.[inf1・5・ri. t)]]]]}[<aux>.[<auxstem>.[auxstem・wish

[<inf1>-[inf1・adj・i,VJ]]]]

sec

080-1

>.[<n・hutu

. [<np >.[n・keisiki.b LT]]]].[<aux>.[<auXStem>,[auXStem・

ヰ ]]]]].[<aux>.[aux・sfp・ne.ja]]]]] 6.846)02e132

Sr真 宗 莞 敵 査 収 YL仙 4 0)づ喪 神 伊 中 古 T 聖 t R rノ汝 碧 細 砕 町 uL十.Z TI)Vd H薄 4,1Edh 仙 ヰ W

[<adv・C1>,[ >.[<np>.[<n・hulu 痴

<vauX>,[<VauX>,[<VauX>,[<Verb>.[<verbJo>,[<modIv>,[<pp>,[<pp

[hutu-meisi. )'SP # ]]].[<p・rentai [p・rentai・no. 0)]]].[<

>. >.

坤 ]]]].[<p・klku・optn>.[p・kaku・ni. i;]]].[<p・kakari>,[p・kakari・wa, La:]]]],[<

>.[<n・hutu>.[<n・sahen>.[<n・sahenJga・o>.[sahen・meisiJga-0.塗 .BT]]].[<n・hutu

轟 ]]]].[p・kaku・ga. 碧 ]],[<n・sahen\ga・o>.[sahen・meisiJgalO. 歯 昌 ]]]]].[<alX a

>.[<auXStem-de c>.[auxstemldeac-reru. tt]]]].[<aux>.[<axsu tem>.[auxstem・masu.

b>.[<verb\ga・ni・o>. [inf1・spe・su. ヰ ]]]].[<p・conj・advc >.[<pp>,[<np>.[< [<vs←emLJga・ni・o [vstem・tJga・ni・O. 坤 [<vaux>,[<verb >.[<adv>. 1>.[p・conj・syusi. 0) づ ]]].[< 1>.[<advIcC

[<mod・V n・hutu>.[hutu・meisi.碧 沖 ]]].[<p・kakari>.[p・kakari・mo.

1>.[p・c

o

lj・re

1. >. さ ]]]]].[<p・conj・advc

]]],[<C1>,[<vaux>, >,[<verb\ga>.[<pp・o>.[<np>,[<n・hutl>,[<mOd-n>,[<v

[<mod・V>.[<advp [hukusi. 塑 ]]]].[<verbJga>.[adjstemJga. A

Ff

].[<inf t

[<n・hutu>. >.[<mod・V>.

[<prefix>.[prefix・O. jj]].[<n・hutu>.[hutu・meisi. 曽

・hyakul.[<n・

[<pp>.[<np>.[<n・quan t>.[<n・nun >.[<n・nun nun ・keta・hyakl

u

n Ihyaku .皿 ]]].[<nInun・=yuu>.[<1- umn・keta・Nylul.[<n・ nl,m・ichi>.[nun・kyuu.jL

[num・Nyuu.+]]],[<n・nun ・ichi>.[nlJm・San.出 ]]]]].[<suffix-unit

6>.[<prefix [prefix-go

>.

kaku・optn>.[p・kakl・de.づ ]]]].[<n・sahen\ga・ .;1 ].[sahen・meisiJ

>.[<auxstem>,[auxstemd ahen上 .75品 ]]]].[<aux

aux >. >.[<auxstem>.[auxstem・masu >,[inf1・spe・su.ヰ ]]]]]]]] 6.26484Le・45 2000 [p・rentai・no,0)]]], <alXSt >,[<np >,[<n・day> >,[a >,[<np> si・hi,+ 刀 ・re >,[ ,+ 目 口 alX>.[<auX .汁 ]]. desu, >}[<np>,[< nIhltu> verb >.[hu >.[auXIS 1>.[<ver p V erb>, inf1・ ]]]]].[・kakld . >.[ ]]. [suffix・doru 1>.[ . ご ga .仙 ]].[

(20)

白井,植木 ,橋本.徳永.田中 U t e 0 3 sec.1 l 1 im t to a P 4 8 2 9 自然言語解析のための MS Rパーザ 。ツールキ ッ ト 解析結果 は括弧付 けで表現 され た構文木 として出力 され る.構文木 の右 にあ る数値 はその構文 L 」 i 「cp 木 の PGLRモデ ルに よる生成確 率であ る.「 ttoal」 は得 られた解析 結果 の総数 を, u tme ~ -Si Tn ~ ay ;l CI hi八日 I# ,,, = iga X l i ?fs, 三 mp 二 fi cnx 日 11 ''一変史 H ノL -iLs -day - me hi no -Cti r n a i -p -] ta Cn ・ -1 p &t-e ' & lt cpara t ap -da anr Tt= I -hi LE .At, ll s p [ o ~ ga ' h sa en -n ~ en h sa - ;C -ga / l lS ・e d ta -h sa en -0 -ga / h sa cn - m e n _ _ つ l ~ t a e d n mo n[ニ ィ1 &tmく lュo-の np-n n -p, _ d J ya ドI[: l霊 . :芸 -Q) ) nr -l t ren a -p -Jla _ t ren ) Pk-ank-u op。:tteT 芸-e= -O _ : ''二 l,X i i ≡: enxn 10[: Ef ga ' S ha en n ~1~な さ JJ} t iS tu-l tu -n ht hll me トPOS -su -la u ma ござい ま -k -ka u -p oJr 5 ~ h sa en -ニem S -で I r u. トW1Sll~た _ :;- es。 l】 e ニn h l sa cr -n -p n ga ver -b ver b/ ga b/ ver -b ver vaux l c -t sen で ~ = : f; S I 1 三l ._, ト こ : u 1 -h sa cn = e -n L : E a _ -二 f I l,二 -k iies -∩ - kl わ け -p I_ n :e_ t XSs ; COP ので np-n-hlltu [i I; aux f '7 : i :e:a _ : f : I x aul; ;:≡: esu d -ュ h le ‡l S _ :apuc _ t u u h -_ 完 f u b/ga l vc -b ver 芸 f anu np-ll x[i -ll -P t l こ 1 S-u Sy [: -O Jn aux C I p I く :-d a v -j con -p ・例文

(

の解析結果 V(汀b/ga -b ver

)

1

l c -t sen, ll' x[: f芸 ; au , J I k auxSfp- a -au e n -f qp . - -ね X . allXI111 は解析 に要 した時 間 を表 わす. 以下,得 られ た解析結果 を構 文木 の形で示す.但 し,紙面 の都合 に よ り,構造 の一部 を簡略 している. [コ AUK ・例 文

(

2)

の解析結果 『 a) _ C

(21)

No.5

No

v

1

E],%叫錨 hJL描

・竜扇

(

3)0

)

寓茸試瀬

sentIc

-aux-auxstem.dca

i p・conj usIU)i. Vot.7 rt)vcr We I bJo '[JJ'[ ''.::' ..1' 昌 '.I..: .'日 .I.I . -.hutu⊥1 ll 11tu.mC】S)-藍 ・n IrYkaku・niIBL

p・kakari-p・kakarTwE⊥汁1

::::(lnlhi..1ttSL:・tTITS

galp.k.ank.1:rutg,1."Iu[:11= :57・a;,?..Esahe

E

rTl暮 0..tJTL.JL

n. '

IT!^,

.sg[

p. ,a:Ci\ga・ol aheS n・mcislJ的a・0」壁 7一

tへ.ruXIStL一r】-Sa一e auX -auxste)n. c (leLtTCILCru-tL " [:TlJfH H .=ueLXsSutCIT;Tm aSu.帖 ・advcTpIcotlj・sy L' ''['' eLb\ga・ni・oI '.I. .-I. .::I...I.'.'' :''I'J .. i

くStemLJga・nTO-VSttjm・tJga・1Li・oI斡 d) く o ・reny ・tCjIT くerb IveユJJga p-kak ・。Iiu ・ a rip-n-qu nt sfuflXIuntt.

I

Si

u ff xIdor u kulC)p上 n-p・kak u・ de

l

T

r

p-k a cr

?

s

fi.IX;,…昌 ,wt nJga..[ sHHnxlp s ae n.h aux u-axstemlauXSterrt.

S

a h

e

n -L IT・ L5= masu .

.

ux H a[=f H a,ue:sSl吊 2

0

0

0

参照

関連したドキュメント

2813 論文の潜在意味解析とトピック分析により、 8 つの異なったトピックスが得られ

解析の教科書にある Lagrange の未定乗数法の証明では,

太宰治は誰でも楽しめることを保証すると同時に、自分の文学の追求を放棄していませ

解析モデル平面図 【参考】 修正モデル.. 解析モデル断面図(その2)

※ CMB 解析や PMF 解析で分類されなかった濃度はその他とした。 CMB

2 次元 FEM 解析モデルを添図 2-1 に示す。なお,2 次元 FEM 解析モデルには,地震 観測時点の建屋の質量状態を反映させる。.

解析結果を図 4.3-1 に示す。SAFER コード,MAAP

今回工認モデルの妥当性検証として,過去の地震観測記録でベンチマーキングした別の 解析モデル(建屋 3 次元