JAIST Repository
https://dspace.jaist.ac.jp/ Title 自然言語解析のためのMSLRパーザ・ツールキット Author(s) 白井, 清昭; 植木, 正裕; 橋本, 泰一; 徳永, 健伸; 田中, 穂積 Citation 自然言語処理, 7(5): 93-112 Issue Date 2000-11-10Type Journal Article Text version publisher
URL http://hdl.handle.net/10119/7929 Rights Copyright (C) 2000 言語処理学会. 白井清昭, 植木正 裕, 橋本泰一, 徳永健伸, 田中 穂積, 自然言語処理, 7(5), 2000, 93-112. Description
-ル キ ッ ト
-on dac自然言語解析の ための
MS R
パ ー ザ ◎ツ
白 井
清 昭I
植 木
正 裕I
I
橋 本
泰 -I
徳 永
健 伸I 田 中
穂 積1
L
L 本論文では,我 々が現在公 開 している自然言語解析用 ツール 「MS Rパーザ ・ツール キ ッ ト」の特徴 と機能 につ いて述べ る.MS リズムを拡張 し, 日本語 な どの分か ち書 きされていない文の形態素解析 と構文解析 を L 同時 に行 うツールである.MS 器 を用 いて,文法 と接続表か らLR表 を作成す る. この とき,LR表作成器 は,接続 表に記述 された品詞 間の接続制約 を組み込んだ LR表 を生成す る.このため,接続制 約 に違反す る解析結果 を受理 しない LR表が作 られ るだけでな く,LR表の大 きさを L L いて辞書引 きによる単語分割 と構文解析 を同時 に行 い,その結果 として構文木 を出力 大幅 に縮小す ることがで きる.次 に,MS d t t arseroupus inpu stenetnces.I L h f o i t excon, l i nayss i dal eMS Rp ca naor
TOI L キーワー ド: 形態素解析,構文解析,一般化 LR法,パーザI
.
Il
oo
-zu MS R す る. さらに, パ ーザ は,文 中の括弧 の組 に よって係 り受 けに関す る部分的 な制約が与 えられた文 を入力 とし,その制約 を満 たす構文木のみ を出力す る機能 を持 LR つ. また,文脈依存性 を若干反映 した言語モデルのひ とつである確率一般化 モデ (PGLR PGLR ル モデル)を学習 し,個 々の構文木 に対 して モデルに基づ く生成確率 を計算 し,解析結果 の優先順位付 けを行 う機能 も持つ.MS a P
ar
s
e
rT
Ki -T
sf
Ot
l
oo
anguag
屯T
ua
A YNa
lL
eAm
KI KIS MO dHo MITA arser d an h L it or t enences h i t ss, i arsn t ne na ze languag l i f naysso unseg enera l t ornaura h i i ase t t ynac k l oo l arseri' b i escr hl i l rp oogca an L ' e ispaper,W t. i k itnegraets h l tooInt ed eat tf ealy eMS Rp
Th MS Rp sb donteg lidLRp galg m, mo ds ca me ds ・The `LR y i ars c f o-speehp .B o in d or i rane in ld ncu a t npu i re, t t ynac t enenc h ter ur t ep hl i l rp oogcaan i t t onsrans. arse L dbyp hos h ifisyn b s ase i ts, t a h i d t t t consrans enoe o pars i to i d t etree donmo ds ntot eMS R p racc ss ei si gp reesnts gt ec F mo tcnbet dacc gt ic ila synact t t ar le i ens t onex l d l ic h hisami yc ts arse fan io t enera h t es pr up b ktracesa,n f o i ars ds ess eg no yp R L h te -ty i l i bb proa 7 n ra t onex ・o l b a
sanLR t e丘 m ac tfreeg mmara
b i sposs I A K A N H S H C OUEKIII,TAII IHA
f iz h d euc tsan, l esu i arsn l b l iaus all mpyi ep gr dr eteseo
●
S
且 I
ays
R I H A S Ian A G A N U l ie, b a h t n i t t onsran base - dc si oteLR t ti n l b a t enerae h i en usn, t o le. t b ta ob hr Th gteg dLRt ea ver h t d f rero i dle w, R (PGLR)mo no eo all t ar-t e i t t onsran acenc j d yc sb weenp K B TAKENO UTo s ars an ls a.I
tcna or kp etree I A R I H † ,MA 7 t t t eneraor consruc i tr l b ta eg i t nec onma xd i trx io t onnec in incorpora gct nma ize l enera i its l i bb roa cg dL in b i escr ga oc an j tec e yl Rパーザ は,一般化 LR法の解析 アルゴ Rパ ーザ を用いて解析 を行 う際 には, まず LR表作成 Rパーザは,作成 された LR表 と辞書 を用 hdo pa, rser t ize l era dLR me l i nayssg, i de hl i l l i t t rp oogca anaysss,ynac de i rane h anguag d: rs t reurne y h iv t t ep el emo l dbytet dPGLR mo l. KeWo mo ca env 000 No 5. Vo
且
は じめ に
l 7. 自然言語処理L
いる. したがって,文法等 を持 っていないユーザで も,ツールキ ッ トに付属 の もの を用 いて 日i
unx
ある. また,MS R
パーザ ・ツールキ ッ トには 日本語解析用の文法,辞書 ,接続表が含 まれて 本語文の形態素 ・構文解析 を行 うことがで きる. のみである.具体的には,以下の 解析 を同時 に行 うパーザである2.本論文では,MS R
パーザ ・ツールキ ッ トの特徴 と機能 につ いて述べ る.L
MS R
L
パーザ を用いて文 を解析す る場合 には,以下 の3
つが必要になる. 文法 品詞 を終端記号 とす る文脈 自由文法.主 に構文解析 に用 いる. 辞審 単語 とそれに対応 した品詞 を列挙 したデータで,形態素解析 の基本単位 を集 めた ものである.辞書 の品詞体系 は文法 の品詞体系 と一致 していなけ ればならない.L
接続表 品詞 間の接続制約 を記述 した表.品詞間の接続制約 とは,ある 2つの品 詞が隣接 で きるか否かに関する制約である. 本 ツールキ ッ トでは,文法 ・辞書 ・接続表 を自由に入れ換 えることがで きる.す なわち,ユ ー ザが独 自に開発 した文法や辞書 を用 いて,MS R
パ ーザ によって文の解析 を行 うことが可能でt
ye
0
t
ye
0
3
1
4
辞書 (登録単語数2 ,
11)
を用いる場合,5Mb
の メモ リと 1Mb
のデ ィス ク容量 を必要 h l f c oo o d t a ua i cence, t ue o n t par †東京工業大 学 大学 院情 報理工 学研 究科 計算工 学専攻,De metofC mp rS Gr eSL
MS R
パーザ を動作 させ るため に必要なメモ リ使用量 ・デ ィスク使用量 は,使用す る文法や辞 書 の規模 に大 きく依存す る.例 えば,ツールキ ッ トに付属の 日本語解析用文法 (規則数 No . 2 我 々は,1
ルゴリズムを拡張 し,単語区切 りのない言語 (日本語 な ど)を主 に対象 とし,形態素解析 と構文9
9
t n l veop i tera inTeac gMah lsDe me
8
0
14
, )
と8
年1
0月か ら自然言語解析用 ツール「
MS R
L
パ ーザ ・ツールキ ッ ト」 を公開 し i T k rng o y, ng n i cenc io t Ifnorma nS ea dE inee oI ff国立国語研究所 日本語教育セ ンター 日本語教育普及指導部 日本語教育教材開発亀L
OS
で動作す ることが確認 されている.MS R
パ ーザ はC
言語で実装 され,動作す るOS
は0
.
6
.
U i
n
l
t
a
i
g
SunOS5
Di
x4
⑳ ・3
.
I
F
t
e
e
BSD 3
65
.
h l ec noog ittu t ns eofT y)
04
..
n
-i
nu
L
,
2l
,
・
i
nu
L
㊨
x2
l
xPPC(
PCMid1
RI
X
anguage, n t par ion, S tec De me ⑳◎
econ apanes in h eac o t ene i C ervces, / l msr / b pu / rfrT gJ easaS dL por up t ns iona t uca searc anguag iona t tofEd l S tS TheNa lL eRe hl ittue p j ac. tec i t vvw cs, . h・ / / t t 1h p: t 2MS を解析す ることを目的に作 られた. -k ana a Rパーザは,分か ち書 きされた文 (英語文 な ど)を解析す る機能 も持 っているが, もともとは単語区切 りのない文 L白井,植木 ,矯本,徳永 ,田中 自然言語解析のための MSLRパーザ ・ツールキッ ト とす る. 本 ツールキ ッ トを用いた形態素 ・構文解析 の流 れを図
1
に示す.MSLR
パーザの解析 アル ゴリズムは一般化LR
法 に基づ いているため, まず最初 にLR
表作成器 を用いて,文法 と接続 表か らLR
表 を作成す る.MSLR
パーザは,作成 されたLR
表 と辞書 を参照 しなが ら入力文の 形態素 ・構文解析 を行 い,解析結果 (構文木)を出力する. 図 1 MSLRパ ーザ を用 い た形 態素 ・構文 解析 の流 れ 本 ツールキ ッ トの主 な特徴 と機能は以下の通 りである.◎ MSLR
パーザ は,形態素解析 と構文解析 を同時 に行 う.まず最初 に形態素解析 を行 い, その出力 をもとに構文解析 を行 う逐次的な方法では,形態素解析 の段 階では文法な どの 構文的 な制約 を考慮 しない場合が多 く,その後 の構文解析 の段 階で不適 当 と判断 される ような無駄 な解析結果 も出力 される. これ に対 し,MSLR
パーザは形態的な情報 (辞書, 接続表)と構文的 な情報 (文法)を同時 に用 いて解析 を行 うため, このような無駄 な解析 結果 を生成す ることはない.◎ LR
表作成器 は,接続表 に記述 された品詞 間の接続制約 を組み込んだLR
表 を作成す る. す なわち,LR
表 を作成す る段 階で品詞間の接続制約 を考慮 し,接続制約 に違反す る構文 木 を受理 しないLR
表 を作 る.さらに,品詞 間の接続制約 を組 み込 んだ場合,接続制約 を組み込 まない場合 と比べ てLR
表の状態数 ・動作数 を減 らす ことがで き,メモ リ使用 量 も小 さくす ることがで きる とい う利点がある. ◎ 品詞間の接続制約 は,接続表 とい う形式 で記述す る代 わ りに,文法 に組み込 む ことも可 能である. しか しなが ら,接続制約 を文法 に組 み込 んだ場合,規則数 が組み合 わせ的 に 増大す る. このため,文法作成者の負担が大 きくな り, また作成 され るLR
表の大 きさ も大 きくなるため に望 ま しくない. この ような理 由か ら,本 ツールキ ッ トで は,接続表 と文法 を独立 に記述す る枠組 を採用 している. ◎d官平文 を入力 とした解析の他 に,係 り受 けに関す る部分 的な制約 を加 えた文 を入力 とした 解析 を行 うこ とがで きる.例 えば,
「太郎が渋谷 で買 った本 を借 りた」 とい う文 を解析す自然言語処理 Vo 7l. No.5 No , 2000 る際 に,次 の ような括弧付 けによる制約 を付 けた文が入力 された ときには,括弧付 け と [太郎が渋谷で買 った]本 を借 りた v 矛盾 した解析結果 は出力 しない.
,A
す なわち 「,
太郎が」が 「借 りた」 に係 る以下の ような解析結果 は の括弧付 けが入力 の括弧付 け と矛盾 (交差)しているため に出力 しない. [[太郎が]
[
A
[[渋谷で][買 った皿 本 を][借 りた]]
]
A
]
この機能 は,例 えば前編集 によ り係 り受 けに関す る部分的 な制約 をあ らか じめ文 に付加 してか ら解析 を行い,構文的暖昧性 を抑制す る場合 な どに利用 で きる.8
k
ouna
g
ih T
k
a
nc
,
a
naa a
,
n
l
a
確率一般化LR
モデル(
I iS lt
nu o
,
r
ne
r
mv
dT
a1
9
9
iTmv
a
nc,
ih
Inu
,a
nak
k
1
a
-S lt
o
r
ne
r
;
・h
dT
osiyuk
i
1
999)(
P
r
ob
ab
i
l
i
st
i
cGe
n
ea er zl
i
dL
R
a7T o unaga,anMo
法 の枠組 において構文木の生成確率 を与 える確率 モデルで ある.PGLR
モデルに基づ く 構文木の生成確率 は,続計 的な意味での正 しさの尺度 を構文木 に与 えることがで きるの で,構文的 な唆昧性の解消 に利用す ることがで きる. 以下では, ここに挙 げた本 ツールキ ッ トの特徴 と機能 について詳 しく説明す る.2節では品dl
e
,以下PGLR
モデル)を取 り扱 うこ とがで きる.PGLR
モデル とは,一般化L
R
L
詞 間の接続制約 を組み込むLR
表作成器 について述べ,3
節ではMS R
パ ーザの概略 についてL
述べ る.最後 に4
節で本論文の まとめ とMS R
パ ーザ ・ツールキ ッ トの今後の開発方針 につい て述べ る.R
m
望
表作成器
本節 では,MS
説明す る.LR
パーザ ・ツールキ ッ トにおけるLR
表作成器 の機能 と特徴 について詳 しく21
. 3
種類の
LR
表 を作成 する機 能
,
l
i
S
L
一般 化LR
法 で用 い られ るLR
表 には,S R ( mpeLR)
CLR (
C
a
no
nc
i
a
lLR) AL
,
L
R
dLR)
の3
種類がある.我 々のLR
表作成器 は,これ ら3
種類のLR
表 を作成す る機kh
ae
a
(
Lo
o
能 を持つ. 実際の 自然言語文 の解析 では,最 も状 態数 の少 ないLALR
が用 い られる場合が多い. した が って,以後LR
表 といえばLALR
を意味す る もの とす る. これ らのLR
表 の違 いの詳細 につ いては文献(
Ah
o e
,
St
h
ia
,
n
dUl
l
ma
n1
9
8
5
)
を参照 していただ きたい.2
白井.植木.橋本.徳永.田中 自然言語解析の ための MSLRパーザ ・ツールキッ ト品詞間の接続制約 を組 み込 む機能
本 ツールキ ッ トにおけるLR
表作成器 の最 も大 きな特徴 は,LR
表に品詞間の接続制約 を反 映 させ ることがで きる点 にある.品詞 間の接続制約 をLR
表 に反映 させ る とい うことは,接続 制約 に違反す る構文木 を生成す る動作 をLR
表か らあ らか じめ除去す ることに相当す る. このこ とを図 2の文法CFG
lを例 に説明す る3.cFG
lにおいて,書 き換 え規則 の右側 に ある数字 は規則番号 を表 わす. また,終端記号 は品詞である.CFG
lか ら通常のLR
表作成 ア2
.
ルゴリズムによって作成 されたLR
表 を図 3に示す.但 し,図 3のLR
表 は a ic nto部のみであ 部 は省略 されている.今, このLR
表 に図 4の接続表 に記述 された接続制約 を反映 さ り,gotoi
,)
が 1な らi行 目の品詞 xiとj列 目i
,
せ ることを考 える.図 4の接続表 において,行列要素 (i の品詞 xjが この順序 で連接可能であ ることを示 し,(
i )
が 0な ら Tiと x,が連接不可能であ s_ s_ s_ ることを意味す る. また,"令"は文末 を表わす特殊 な品詞である. 1 VS→ v 5k VS→ v 5m ( ( ( ( ( ( ( ( ( ) ) ) ) ) ) ) ) ) 1 2 3 4 5 6 7 史 U 9 ( ( ( ( ( ( ( ( ( 1 1 1 1 1 1 1 1 1 ) ) ) ) ) ) nu 1 2 3 4 5 ) ) ) 6 7 8 S→ VP VSl→ v VP→ PPVP PP→ VPPP VP→ V AX V一十VSVE V → VSI PP→ NP t s ou N → n n P- po p S_ j e J e e_ 5w VEi v ki VE→ v ma AX → AX au VS一十V VE一十V x AX → aux 図 2 文法の例:CFGlCFG
lでは,VSを構成す る品詞 として v s_ s_ s_ 5k s_ i" e_ s_ 」 e ve ,v 5m,v 5W が,VEを構成す る品詞 とし v naがあるので,規則 (5)か ら,Vを構成す る品詞列 は 3×3-9通 りあ るこ とがわかる.これに対 し,図 4の接続表 を考慮 した場合, これ ら 9通 りの品詞列の うち "v 5k 」","v 5 5wv の 3組 だけが接続制約 を満 たす. したがって,これ ら以 i _ て ve ,ve ,_ki ","v s_ くi 外 の品詞列 は受理すべ きではない. m ve」na ここで,図 3のLR
表の状態 4,先読み記号 ve」の欄 にある rellとい うr ceud e動作 に着 目 す る.rellは,CFG
lにおける規則 (ll)に対応 した部分木 を作 ることを意味す る (図 5)・ と 3CFGlにおける各記号のおお まかな意味は以下の通 りである.S-文,VP;動詞句= ,PP-後置詞句,V-動詞,VS1-一 段動詞語幹,VS-動詞語幹 ,VE-動詞語尾,N-名詞,p-跡軌 AX-助動詞列 (以上,非終端記号).v 1s_-一段動詞語 s_ 幹,v 5k-力行五段動詞語幹,v 5ms_ -マ行五段動詞語幹,v 5Ws_ -り行五段動詞語幹,ve」-動詞語尾 ィ,ve」(i-動詞語 t sv Vb No No . 2 t posp noun aux I ve na_ i k _ ve i _ ve 5w vs_ 5m vs_ k 5 _ vs s 1 _ vs 7 l. .5 自然言語処理 蛋 ュ h s 0 0 0 l l h s nU h4 sh3 sh2 O l re 蒜 r=I l s s 1 re 8 hl 8 hll 1 re h1 hュ 8 1 re 8 1 re s s i. ∴ s s 告 h4 4 2 h s 8 h1 s 4 re 4 re 19 h s 0 2 h s 1 2 3 4 5 6 7 8 ∩フ 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 lre 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 h s 3 h s h4 .A 4 1 9 re 7 re 6 5 4 1 re 1 re 1 re 5 re r 9 re 7 re 9 re 7 re ・.I 7 re ; ・.i TZ r e 1 s / 2 re hl 2 h s / 2 re 3 h s / 2 re l l l h s / s 3 re hl hl / s 3 re 2 h s 3 h s h4 / s 3 re re3/sh3 re3/sh2 7 1 re 7 1 re h上 h4 1 re7 re17 s 7 1 re s 7 1 re ion t ac CFGlか ら生成 され る LR表 ( 部のみ) 図 3 _ e ve _ 止i v ma
vs _ 1 vs k v_ 5 s5m vsI5w veJ noun aux 令
0
0
0 1 0 0 0 0 1 0 1 _ vs 1 0 0 0 0 0 0 1 0 0 0 k 5 _ vs 0 0 0 0 0 0 0 0 0 1 0 0 5m vs_ 0 0 0 0 0 1 0 0 0 0 5w vs_ 0 1 0 0 0 0 0 0 0 0 0 0 k _ ve ve 」 i 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 0 0 V Jena no 0 1 1 1 1 1 0 0 0 1 1 un 1 1 1 1 0 0 1 postp 1 1 1 1 0 0 1 auX 図 4 接続表 の例 ころが,先読み記号が*
"
R
」 e 5 _ vs ve」であ るこ とか ら," k v "とい う品詞列 に対 して この動作 を実 行す るこ とになるが, この品詞列 は図 4の接続制約 に違反す る.同様 に,図 3において,"
のついた動作 もまた接続制約 に違反す る動作である. したが って, この ような動作 を事前 にL
表か ら削除 しておけば,接続制約 に違反す る解析結果の生成 を防 ぐこ とがで きる. 接続制約 に違反す る動作 をLR
表か ら除去す る方法 としては, まず図3
のように接続制約 を 考慮 しないLR
表 を作成 してか ら,接続制約 に違反す る動作 をLR
表か ら削除す る方法が考 え 3 l 2 * 1re ・1e * lre 1 3 2 l * 1re * 1re l re 2 l 3 1 re * 1re * lre 2 h s 3 h s ・.i_S 霊 4 re t posp 0 1 1 1 1 1 0 0白井.植木,橋本,徳永.田中 自然言語解析の ための MSLRパ ーザ ・ツール キ ッ ト 5 ′ 8 、-- 二x 一 読 l紬 二 (品詞列 ) ◎ vs_ k' ve 1 上 ru 違反 図 5 接続制約 に違反す る reduce動作 Ⅴ - vs_5kve止i (5-1) Ⅴ
- VSVE (
5
)
⇒ Ⅴ - vs_5m ve_ma (5-2) Ⅴ - vs_5w ve_i (5-3) 図 6 接続制約 を反映 した文法規則 られ る. しか しなが ら,文法の規模が大 き くなる と,接続制約 を考慮 しないLR
表 の大 きさが 非常 に大 き くなるため に望 ま しくない. これ に対 して,本 ツールキ ッ トで は,LR
表 を作成す る 段 階で接続制約 を考慮 し,接続制約 に違 反す る動作 を除いたLR
表 を直接 生成す る方法 を採用 してい る.接続制約 を組み込み なが らLR
表 を作成す るアルゴ リズムの詳細 については文献(
Li
1996)を参照 してい ただ きたい. 接続制約 をLR
表 に組み込 む主 な利 点 と しては以下の3
つが挙 げ られ る.(
1)
接続制約 を事前 に組み込 んだLR
表 を用 いて解析 を行 った場合 ,解析 時 には品詞 間の 連接 可能性 をチ ェックす る必要が ないので,解析 時の効率 を上 げるこ とがで きる. (2) 接 続制約 に違反す る構文木 を生成す る動作 をLR
表か ら除去す るこ とによ り,LR
表 の状 態数 ・動作数 を大幅 に減 ら し, メモ リ使用量 を小 さ くす る ことがで きる. (3) 品詞 間の接続制約 は,接 続表 と して記述 してか らLR
表 に組 み込 む代 わ りに,書 き換 え規則 の細分化 に よって組 み込 む こともで きる.例 えば,CFG
lの例 で は,規則(
5
)
の代 わ りに,図 6に挙 げ る 3つ の規則 を導 入す れ ば,接 続制約 を満 たす品詞列 のみ 受理す る こ とがで きる. しか しなが ら, この ように接続制約 を組み込 んだ文法 を作成 す るこ とは,規則数が組み合 わせ 的 に増大す るため に望 ま しくない.品詞 間の接続制 約 は,接 続表 と して文法 とは独立 に記述 し,LR
表 を作成す る段 階で接続制約 を組 み 込 む方が ,最終的 に得 られ るLR
表 の状 態数 ・動作 数 も少 な く, メモ リ使用量 を小 さ くす る こ とがで きる. また,文法記述者 の負担 も減 らす こ とが で きる.;濁
自然言語処理 Vol.7 No.5 Nov. 2000
2.
3
評価 実験
LR表 に品詞間の接続制約 を組み込 む効果 を調べ る簡単な実験 を行 った.本 ツールキ ッ トに 付属 されている日本語解析用の文法 と接続表 を用いて,品詞間の接続制約 を組み込む場合 と組み 込 まない場合の LR表 を比較 した.使用 した文法の規則数は 148,0 ,非終端記号数 は 281,終端 記号数は 537であ る.実験 に使用 した計算機 は SunUltraEnterprise250Server(主記憶 2GB, CPU周波数 300MHz)である.結果 を表 1に示す. 表 1 品詞 間の接続制約 を LR表 に組 み込 む ことの効 果 表 1において ,「CPU時間」 は LR表作成 に要 した CPU時間を,「状態数」は作成 された LR 表の状態の数 を,「動作数」 は作成 された LR表の動作 (shift動作 と reduce動作)の数 を示 して いる.この表か ら,品詞間の接続制約 を組み込むことによって,状態数はほ とん ど変 わ らない が,動作数 は約半分 に減 ることがわかる. したがって ,LR表のために必要なメモ リ使用量 を大 幅に縮小す ることがで きる.一方,「CPU時間」 は,接続制約 を考慮す る場合 としない場合 とで それほど大 きな差 は見 られなかった.一般 に,接続制約 を組み込む場合 は,品詞間の連接可能 性 を調べ なが ら LR表 を作成す るために,それ に要す る時間は長 くなることが予想 される. し か しなが ら,接続制約 に遠反する無駄 なアイテムが生成 されな くなることか ら ,LR表作成 に要 する時間が短縮 される効果 も生 じる.そのため ,LR表作成時間が劇的に増大するわけではない ことが実験 的に確かめ られた.
3 M SLR
パ ーザ
本節では, MSLRパーザの機能 と特徴 について概説する.3.
1
形態素解析 と構文解析 を同時に行 う機能
1節で述べ た ように, MSLRパーザ は形態素解析 と構文解析 を同時 に行 う (Tana ka,Tbku-naga,andAizawa1995).また,形態素 ・構文解析結果 として構文木 を出力する.例 えば,図 2 の文法 (CFGl),図 4の接続表,図 7の辞書 を用いた ときの 「あい こにたの まれた」 という文の解析結果 (構文木)を図 8に示す.実際 には, MSLRパーザは以下の ような括弧付 けで表現 さ れた構文木 を出力す る.
白井,植木,橋本,徳永,田中 自然言語解析の ための MS RL パーザ ・ツールキッ ト ÷ :-- 「
I
Lt 図 7 辞 書 の 例 l ,[< >vp ,[ > S < [ <pp>,[<Ⅳ>,[no、皿 ,あい こ] ] [,< >p,[pospt,に] ]],[<vP>,[くⅤ>,[<VS>, [vs m_ ,たの] 5 ],[ E<v>,[ve_ ma,ま] ]] [,<AX>,[<AX>,[aux,れ] ],[aux,た] ]]]] 解析結果が複数 ある場合 には,その中か ら Ⅳ 個 の構文木 をランダムに選 んで出力す る.ただ し, 項で述べ るP R
モデル を用 い る場合 には,構文木の生成確率 の大 きい上位 Ⅳ 個 の構文木 を取 り出す ことがで きる. また,Ⅳ の値 は起動時のオプ シ ョン指定 に よ り変更で きる. PP VPL
G
33
.
、. 一一一 、 l l 〈 /〈 \ // 一\ .一・・〆 了 、\ \ V P AX N I tposp . noun VS VE AX aux l t l l l l ve 5m vs あい こ ノ に ma aux た たの ま れ 図 8 「あいこにたのまれた」の解析結果 _ _L
L
MS
る.一般化LR
法が通常 は品詞列 を入力 とす るの に対 して,MS
R
パ ーザの アル ゴ リズムは,一般化LR
法の構文解析 アル ゴリズ ムを拡張 した ものであⅠR
.
R
パ ーザ は文字列 を入力 とし, 辞書 引 きによる単語分割 と構文解析 を同時 に行 う.以下,一般化LR
法 とMS
パ ーザの解析L
5 9 9 l1. Tanak アル ゴリズム との違 い を簡単 に説明す る.MSR
パ ーザの解析 アル ゴ リズムの詳細 については 文献 ( aeta )を参照 していただ きたい. (1) 入力文 が与 え られた とき,品詞 と品詞 の間 に位 置番号 をつ け る代 わ りに,図9の よ うに入力文 の文字 間 に位置番号 をつ ける.)
2
(
解析が位置 iまで進 んだ とき,位置 iか ら始 まる全 ての単語 を辞書引 き し,その結果 をス タ ックに登録す る.例 えば,図9
の例 文 を図7
の辞書 を用 いて解析 した場合,位 ) noun , " とい う3
5 vs , -解析 ス タ ックに登録 され る. これ らの品詞付 けの結果 は,通常 の一般化LR
法 におけ 置 0で は " (あ,vs15k)","(あ W)","(あい こ つの品詞付 けの結果が1
自然言語処理 Vol.7 No.5 Nov. 2000
あ い こ に た の ま れ た (位置番号) 0 1 2 3 4 5 6 7 8 9 図 9 MSLRパーザにおける位置番号のつけ方 る多品詞語 と全 く同様 に取 り扱 われる.
(
3)
si
hf
t動作 を実行 して先読み記号 をス タックにプ ッシュする際 には,その品詞 を構成す る文字列の一番最後の位置 まで解析 ス タックを延ばす.例 えば,位置 0で vs_5kとい う先読み記号 (品詞)をプ ッシュす る際 には,vs_5kが位置 0-1に位置す る単語 「あ」 の品詞 であるので,スタックの先頭 を位置1
まで延 ばす.そ して,位置1
か ら始 まる 単語 の辞書引 き結果 をもとに以後 の解析 を進める.同様 に,位置 Oで nounとい う品 詞 をプ ッシュする際には,nounが位置 0-3に位置す る単語 「あいこ」の品詞である ので,ス タックの先頭 を位置 3まで延 ばす.以後の解析 は,位置 3か ら始 まる単語の 辞書 引 き結果 をもとに進め られる, 例 文 「あい こにたの まれた」 を解析す る際,形態素解析結果 の候補 としては以下の2
つが ある. a・ (あい こ,on( p sp(nu )に,ot)たの,s5 ( vv_m)ま,e a( ax」n )れ,u )( a
た,
u )x b. (あい こ,o n( vnu )に,sll()
た,u )ax( v_m)の,s5 ( v_ま,ema()れ,u )a x( a xた,u ) 文法 CFGlは b.の品詞列 を受理 しないが,形態素解析 と構文解析 を逐次的 に行 う方法では,形 態素解析結果 の候補 として a.,b.ともに出力 し,それぞれの品詞列 に対 して構文解析が試み られ る. これ に対 し,MSLRパーザ は形態素解析 と構文解析 を同時 に行 い,文法 に記述 された構文 的な制約で排 除 される形態素解析の結果 を早期 に取 り除 くことがで きるため,解析効率が よい. 例 えば,位置 3まで解析が進 んだ とき,
「あいこ」 とい う文字列が図 8の点線 で囲 まれた部分木 を構成す るこ とが わか っている. この とき,位置 3か ら始 まる単語 を辞書引 きす る際 に,品詞 列 b.は受理 されない とい う文法的な制約か ら,"に( ,s1v_)77とい う品詞付 けが適切 でない ことが わかる,具体 的 には,位置 3におけるス タ ック トップの状態 7において,"vs_1"を先読 み記号 "に, 1 とす る動作が図 3の LR表 に存在 しない ことか ら, ( vs_)"とい う辞書引 き結果 を含 む解析 はこの時点で中断 される. したが って,誤 りである形態素解析結果 の候補 b.を早期 に取 り除 く ことがで きる. この ことは,MSLRパ ーザの大 きな特徴 の 1つである.3.
2
括弧付 けによる制約のついた入力文 を解析 する機 能
MSLRパーザ は括弧付けによる制約 を加 えた文 を解析することがで きる.具体的 には,MSLR パ ーザ は次の ような文字列 を入力 として,括弧付 け に矛盾 しない解析結果のみ を出力す る機能 を持つ.v 000 5 .
331
..
自然言語処理 k)は,状態が stで先読み記号が Ijの ときに動作 aたが実行 された回数 わす.LR表 における全ての状態 は Ssまたは S,の どちらか一方 に必ず属す る.図3
の LR表の例 る.例 えば,図 3の LR表の状態 Oにある5
つの と shl)の実行確率 は,これ らの和が 1になるように ザ は,構文解析 を行 う際 に,LR表 の各動作 の使用 回数 を出力す る機能 を持 っている. さらに, I,a )を求め ることがで きる. また本 ツー),k Iキ ッ トには,この ように して, れた LR表 を作成す るツールが含 まれている. このツー)Iは,パ ラメタ推定の平滑化のため に, , R表 に登録 されている全 ての動作 の実行 回数 にあ る一定 の頻度 を加 える機能 を備 えている. Vo No No . 2PGIR
モデルの学習 について pGLRモデ ルの学習 は,LR表上 の各動作 の実行確 率 を推定す るこ とによ り行 われる.動 作 の実行確率 の推定 に必要 な ものは,構文木が付与 された構文木付 きコーパ スであ る. まず, 例文 に付与 された構文木 に対 して,構文木 を生成す る際 に実行す る LR表上の動作 の使用 回数 l 7.J
ak)を数 え上 げる. ここで, siは LR表 における状態 を,j
l
は先読み記号 を, akは動 lils,(
式 において ,Ssは 動作直後 に到達す る状態の集合 ,S,はそれ以外の状態の集合 を表 P(ak j)-)
2
(
)
1
)
3
2
,
1
72
,
51
,
41
,
21
,
01
,
91
,
8
,,
2
2
∈
i
s
)
2
るように正規化 される.これに対 して式(
は,
S,の ときには,状態 s ときに実行 され うる全 ての動作 で実行確率 を正規化す ることを意味す る.すなわち,LR表 にお L 正規化 され る. また,S,に属す る状態の場合,s コンフリク トが ない限 り,その状 態 に属す る動作 の実行確率 は必ず1
となる. 本 ツールキ ッ トにおける PGLRモデル学習の手続 きは以下の通 りである.まず,MS Rパーi
,先読み記号 Itの5
2 re -vs ける同 じマス 目に属す る動作 の実行確率の和 は1
となる.例 えば,図3
の LR表の状態1
,先 1の欄 にある 2つの動作 (i
s
∈
Ssの ときには,状態 で実行 され うる全ての動作 で実行確率 を正規化す る ことを意味す る.言 い換 えれば,LR表 にお ける同 じ行 に属す る動作 の実行確率の和 は 1となi
(
1
)
式 は,s
t f i h s 動作 は,これ らの実行確率の和が 1にな iC(
s
i
,C(
Ej
2
k
,
(
)
1
を表わす.(
)
LR表上の各動作 の実行確率 は式 によって推定す る.iE
P(
l
3
・ ,ak fs
Sst
i
s
s,)
k
j
,a
i
,
l
s7
6
5
(
S,
,
,,, である.初期状態 Oは Ssに属す ることに注意 していただ きたい. i)
f d reuce / t f i h)
k
lj,a
k
l
j
a
,
,l
"S
C(
"∑kC(
s
t
)
k
a
-4
02
,
)92
,
81
,
61
,
31
,
1
,
) -Lst t f i h sC(
, 作 を表 わ し,C(
S
"
l
"aj
i
l
s
,
32
.
項で述べ た括弧付 けによる制約 を取 り扱 う機能 を利用 し,訓練用 コーパスに付与 された構文 木 を入力 と して解析 を行 うことによ り,訓練用 コーパス中の構文木 を生成す る際 に使 われた各2
(
)
1
i
s
,
i
,
l
動作 の使用 回数C(
得 られたC(
s "ak)か ら式(
)
に従 って各動作 の実行確率 を推定 し,その実行確率が付与 さ では,
Ss-(
0
,,,,1
2
3
4
,
l
l
読み記号 L白井.植木.橋本,徳永.田中 自然言語解析のための MSLRパ ーザ ・ツール キ ッ ト 表 2 解析実験 の結果 平均単語数 平均解析木数 平均解析時間 (ms) B 96. Ste 1 A 2 Ste 81. 500 77. 5, 2 1 31. 3 1 65. ㌔ " / 332.. PGLRモデル を用 いた解析 について MS 力す ることがで きる. また,生成確率の高 い順 に構文木 を並べ て出力す るこ とがで きる.す な わち,pGLRモデルに基づ く生成確率 を用いた解析結果の優先順位付 け を行 うことがで きる. LRパーザ は,解析結果 となる構文木 とその PGLRモデルに基づ く生成確率 を同時 に出 MS Rパ ーザ は, まず文法が受理す る全 ての解析結果 を求め,それ らをまとめた圧縮統語 森 を生成す る.次 に, この圧縮統語森 を展 開 して個 々の構文木 を出力す る際に,PGLRモデル に基づ く構文木の生成確率 を考慮 し,生成確率 の上位の構文木か ら優先 して出力す る.解析 の 途 中で生成確率 の低 い部分木 を除去す るな どの枝刈 りを行 っていないため,生成確率の上位 Ⅳ 位 の構文木 が必 ず得 られ る こ とが保証 され る代 わ りに,長文 な ど構文 的暖昧性 が非常 に多 い 文 を解析す る際 にメモ リ不足 によって解析 に失敗す る可能性 も高 い. したが って,我 々は解析 途 中で生成確率 の低 い部分木 を除去 して探 索空 間 を絞 り込 む機構 も必 要であ る と考 えてい る. L ih anc ( h1 MS R るが mv ,現在公 開 している パ ーザ には実装 されていない. mv i anc 998) L la Sornel tr la Sornel tr は PGLRモデルを利用 した効率 の良い枝刈 りのアル ゴリズムを提案 してい F a ur, use iT k t aan,aezaw to, i r .
4
3
パ ス と して,ATRが作 成 した 日本語対 話 コーパ ス (Mo mo Ur ,解析例
本項で は,MSLRパーザ を用 いた簡単 な 日本語文解析実験 について報告す る.実験用 コー 0 00, 4 9 9 i k agsa ra an, ka da, i I i 9 Sb hoasma,
Na mu dS a1 析用 の文脈 自由文法 で,非終端記号数 17 衛藤 1 今 回の実験 では, 日本語対話 コーパ ス約 2 0文の うち,上記の文法 による構文 )を使用 した.実験 に用 いた文法 は,対話文解 2,終端記号数441,規則数 は 806である (田中,竹滞, ). 7 9 2 00, 0 0 2 00, Se Se 木が付与 された例文 1 0文 を使用 した.辞書及 び接続表 は, これ ら 1 0文か ら自動 的 に 作成 した. ,15以上 の文 をラ ンダムに 1 0文ずつ取 り出 し,そ tA, tBとした. これ らの評価用例文 について,分か ち書 きされていない文字列 を 4 評価用 テキス トと して,単語数 4-1 れぞれ i t nerprse tr Su L 入力 とし,MS 文約 9000文か ら PGLRモデルを学習 し,その PGLRモデルに基づ く構文木の生成確率 によっ nUlaE Rパ ーザ を用 いて形態素 ・構文解析 を行 った. また,評価用 テキス ト以外 の例 3 . 2 3, erver 5 2 て解析結果 の順位付 け を行 った.使用 した計算機 は,2 項 の実験 と同 じ 0S である.実験結果 を表 に示す..また,解析結果 の具体例 を付録 Aに示す.自然言語処理 Vol.7 No.5 Nov. 2000 表 3 解析実験の結果 (文正解率) rL 1 2 5 ' 4 【形態素解析の文正解率SetA SetB 88.3% 63.7% 94.4% 75.1% 96.8% 80.6% 97.6% 83.6% 98.8% 87.2% 】 【構文解析 の文正解率】 SetA SetB 80.1% 36.3% 90,6% 50.4% 95.0% 58.8% 96
.
4
%
65.0% 97.6% 69.6% 3 表 2において,
「平均解析木数」 は 1文 あた りに生成 される構文木の平均であ り,
「平均解析 時間」 は 1文の解析 に要 した時間 (単位 は ミリ秒)の平均 を表 わ している. SetA
の ような短 い 文の場合 は 7ミリ秒程度 ,SetBの ような長めの文の場合で も 27ミリ秒程度で解析 を行 うこと がで きる. また,表3
の E形態素解析 の文正解率】は,PGLR
モデルに基づ く構文木の生成確 率の上位 n位の解析結果の中に,単語分割 と品詞付 けの結果が コーパスに付加 された もの と一 致す る構文木が含 まれる文の割合 を表 わ している.同様 に 【構文解析 の文 正解率】は,上位 n 位 の解析結果の 中にコーパス に付加 された もの と一致す る構文木が含 まれる文の割合 を示 して いる. この表か ら,例 えば生成確率の 1位の構文木 について ,SetA では約 80%,SetBで は約 36%の文 に対 して正 しい形態素 ・構文解析結果が得 られた ことが わか る.今回の実験で使 用 し たコーパスが ドメイ ンの限 られたコーパスであ り, また辞書 と接続表 を評価用 テキス トと訓練 用 テキス トの両方 を用 いて作成 したこともあ り,比較的良い結果が得 られている.4
おわ りに
本論文 で は,我 々が現在公 開 してい る自然言語解析用 ツール「
MS
LR
パ ∵ザ ・ツールキ ッ ト」 の機能 と特徴 について述べ た.最後 に,本 ツールキ ッ トの今後 の開発方針 について述べ る. まず,複数の接続制約 を同時 に組み込むLR
表作成器, さらにそれ を用 いて解析 を行 うパ ー ザの実装 を進めている.現在 のツールでは,LR
表 に組み込 める接続制約の数 は1
種類のみであ る. しか しなが ら,例 えば音声認識 と同時 に構文解析 を行 う場合 ,品詞 間の接続制約 だけで な く,音素 間の接続制約 も同時 に利用 した方が効率の良い解析がで きると考 えられ る (今井 1999). この場合,音素 と品詞の 2つの接続制約 をLR
表 に組み込 む必要があ る. また, これ に合 わせ て,MS
LR
パーザの解析 アルゴリズム も変更す る必要がある.現在 ,複数の制約 を取 り扱 うLR
表作成器 お よびMSLR
パーザの プロ トタイプは完成 してい るが,効率 の面で まだ問題 が あ り , 改 良 を進 めている. 次 に, よ りロバス トな解析 がで きるようにパ ーザ を拡張す るこ とが挙 げ られ る.特 に,秤 書 にない単語 (未知語)が入力文 中 に現 われた ときには,原則 的 には解析 に失敗 す る.現在 の白井,植木.橋木.徳永.田中 自然言語解析のための MS Rパ-ザ ・ツ-ルキ ッ ト MS Rパ ーザ は, カタカナが続 いた文字列 を未知語 と して登録 す るな ど,非常 に簡単 な未知語 処理機 能が付加 され てい るが, まだ改 良の余地 も多い. また,解析 に失敗 した場合で も,部分 的な解析結果 を表示す る機 能な ども追加 し.てい きたい と考 えている. の課題 と して挙 げ られ る. これ らを用 いて新 聞記事 の解析 を行 った場合 ,解析 に成功 して何 ら L 最後 に,本 ツールキ ッ トに付属の 日本語解析用の文法,辞書 ,接 続表 を改 良す るこ とが今後 L かの結果 を返す こ とので きる文 の割合 は約 8%である.解析 に失敗す る原 因 としては,前述 の 未知語処理 の不 完全 さや文法規則 の不備 による ものが多 い. よ り多様 な文 を解析 で きる ように す るため には,特 に文法 を改 良 していか なければな らない. また,本 ツールキ ッ トに付属 の文 法 を用 いて解析 を行 った場合,PGLRモデルを学習す るための構文木付 きコーパスが存在 しな いため に,PGLRモデルに基づ く生成確率 によって解析結果 に優先順位 を付 けることはで きな 5 めてい る. い5.現在 ,構文木付 きコーパス を必要 と しない PGLRモデルの学習方法 について研 究 をすす 謝辞 MS Rパ ーザ ・ツールキ ッ トは多 くの方の協力 を得 て開発 され ま した.李輝氏 , 日本 アイ ・ ビー ・エ ム株式会社 の綾部寿樹氏 には初期 の LR表作 成器 を実装 していただ きま した.九州工 L ex 業大学の乾健太郎助教授 には,PGLRモデルの理論 を提案 していただ きま した.Suss 大学の
nCarroll氏,Nati lonaElecrtoncisandCompuetrTbh lcnoogyCenetrの
Jho Somlertlamvancih L 氏 には,MS Rパ ーザの実装 に関す る貴重 な助言 をいただ きま した.以上の皆様 を始 め, i hrac v 本 ツールキ ッ トの開発 に御協力 いただ きま した全ての人 々に感謝 いた します. L SUF Y SUFA Y れ た高速文字列検索 システム AR をベ ース に作 成 してい ます. R の転用 を許可下 MS Rパ ーザの辞書引 きモ ジュールは,奈良先端科学技術大学院大学 ・松本研究室で開発 さ さい ま した松本研 究室の皆様 に深 く感謝 いた します. 本 ツールキ ッ トに付属 の 日本語解析用 の辞書 は, 日本電子化辞書研究所 が作 成 した EDR日 5 本語単語辞書 (日本電子化辞書研 究所 199)をもとに構築 されてい ます.本辞書 の公 開 を許可 下 さい ま した 日本電子化辞書研 究所 の皆様 に深 く感謝 いた します.
参考文献
1 ・ J n, an , i h iso Ste ., d ). ls. 1 V . A o, Ah,R・
dUllma D・( too Ad 今井宏樹 (999 Co l sey. mp nWe 音声認識 のための PGLRパ ーザ に関す る研私 ). 5 8 9 ilers- prli ilncpes,tecnqh iues,an d f n t par ac h iess, tec i t t ・ I tpcs. f / / t :p f y. T h lecnoog PhD・ De meto h・ f ttu i t ns oI eo ・pj/pub/ t uer mp 9 9 / Co R T / k oy psgz, 1 Sicence,
0 0 -9 9 R T T 6・ ・ 5公 開 されてい るツールでは,付属の文法 を用いて解析 を行 った場合で も,単語数最小 法,文節数最ノト法 の ヒュー リス テ ィクスに基づ く購析結果の優先順位付 けを行 うことがで きる.I 「で 覇' No・5 No . 2 robabilisticGLR v 000 ・ ) 8 9 9
a,
H・ dT,an ouknaga,T・(1 Vo lui, .,S mva l 7. la l t orner K l 自然言語処理 i, Mo mo 7Tir to L P gP ma ・" 自然言語処理, " nce di Apts f eror seran ar Si t uer cence Co f t n o nSysetm .PhD,. th iess,Departme mp,
io t i ecogn ionsnai i tca l p 0 0 0 -6 9 R T / 6 9 / R T / b pu / h j tec a. .c i tp cs. .t f / p 3・ ll nsa c o . 0 , b taas i 0.,Sb ho asma,
anguagdL eDa efrSpeehTra ra k aa N ., d Ha, i I mu , anguage k poee enc f on nP ceedingsofteIh netrna otinalC err eonS nL 4, 9 ro 7 1 -1 9 I 7 1 p. p , -ars y. h l ecnoog Em ) 9 9 9 1 ( ・" -) 3 自然言語処理,6( , ize l enera ittu t ns dLR P eofT -yn J I L " ). 7 9 9 MS R法 を考慮 した音声認識用 日本語文法I R表工学 l a a 3. 7 -9 )5, ndS ' o ・ 6 0 1 -5 )8, gfrG i T k cence oy, 5psgz. . . 0 0 0 -8 9 t ue TR / 8 9 / o R T / b pu / j ・p tofC mp rS oI i, i kyu h os T・ awa,T.,Furuse, T kaez ., iN t raan, U ., hl rp oog io Itnegrat 9 , ) 5 9 9 1 7i ." nofMo ic in 5( dl nguag e 3 i its l i bb roa cLa eMo ch V T i A nwF ma nadI mp nP gC nC oaGLRP i arsn t ac o i it t ransn I ts onst n k ana io io ・, i tza t onnec l , i n or in e )It.negrat : ng 6 9 5( 9 pasr 1 ( . H an ., T kounagaT ., , dT 9 9
略歴
白井 清昭: 1 9 9 9 9 9 9 学研究科修士課程修了.1 8年 同大学院情報理工学研究科博士課程修了.同 年同大学院情報理工学研究科計算工学専攻助手 ,現在 に至 る.博士 (工学). 統計 的 自然言語解析 に関す る研究 に従事 .情報処理学会会員 . 植木 正裕: 1 5年東京工業大学工学部情報工学科卒業.1 7年 同大学院情報 i arsng. ize l nera i its l i bb roa w P cGe dLR P " 0, 5 1 -5 4 1 p. p ., 2 m." 自然言語処理,2( / p: t f y. T h lecnoog f ."A Speehac n dSisagak,Y
a ・(1 an ., A ). 8 徳永健伸 ,田中穂積 (199 n t par h i Deess, me t ) 4 9 9 )I P 8 9 9 1 ( . V ." ) 5 9 9 1 h・ tec ac l ・ 2 5 一一 3 )3, 3 1 田中穂私 竹津寿幸 ,衛藤純司 ( peehRc S inuous C ton eo ittu Tanaak H , , I inu , , mvanc,ihV. K. la Sornel tr oI S・ ky nst 乙 g b T P lSupportforNe ii prca 22. -3 日本電子化辞書研 究所 ( 5. 4 0 TR-p・cs.t t f / " nR essm9
h esearc. io ・t Proc mv ihanc, la Sornel tr h t i gor zawa, i arsn an ., base T ko unagaT , , l i ayss . i -) t tac 3 ( Tanaa,k H "情報処理学会音声言語情報処理研究会 ・ dAi M.(cAn donLR P gAl .PhD.・ / p: ing t f EDR電子化辞書仕様説明書第 2版." テ クニカル ・レポー ト "統計的構文解析 における構文的統計 情報 と語 白井清呪 乾健太恥 蓑的統計 情報 の統合 について・" 自然言語処現 3年東京工業大学工学部情報工学科卒業.1995年 同大学院理工 0 0 理工学研究科修士課程修了.2 0年同大学院情報理工学研究科博士課程満期 退学.同年
4
月同大学院情報理工学研究科計算工学専攻技術補佐員.同年7
月国立 国語研 究所 日本語教育 セ ンター研究員,現在 に至 る. 自然言語解析 に白井,植木,橋本,徳永,田中 自然言語解析の ための MSLRパーザ .ツールキ ッ ト 関す る研 究 に従事 .情報処理学会会員. 橋本 泰-: 1 7年東京工業大学工学部情報工学科卒業.1 9年同大学院情報 理工学研究科計算工学専攻修士課程修了.同年同大学院情報理工学研究科計 算工学専攻博士課程進学,在学 中.統計 的 自然言語解析 に関す る研究 に従事. 9 9 9 9 徳永 健伸: 1 3年東京工業大学工学部情報工学科卒業.1 5年 同大学院理工 学研究科修士課程修了.同年 (秩)三菱総合研究所入社.1 6年東京工業大学 8 8 9 9 8 9 大学 院博士課程入学.現在,同大学大学院情報理工学研究科計算工学専攻助教 授 .博士 (工学).自然言語処理 ,計算言語学 に関す る研究 に従事 .情報処理学 o o io it oca 会,認知科学会,人工知能学会,計量国語学会,Ass nfrC mpuatti lona ics, i itngus L 各会員. 9 6 9 田中 穂積: 1 4年東京工業大学工学部情報工学科卒業.1 6年 同大学院理工 学研究科修士課程修了.同年電気試験所 (硯電子技術総合研究所 )入所.1 6 9 0 8 9 理工学研究科計算工学専攻教授 .博士 (工学).人工知能, 自然言語処理 に関 す る研究 に従事 .情報処理学会,電子情報通信学会,認知科学会,人工知能学 it oca o 年東京工業大学助教授 .1 3年東京工業大学教授 .現在,同大学大学院情報 o 8 io Ass nfrC mp 会,計量 国語学会 uatti lonaLi itngusics,各会員. ( ( 2000年 1月 6日 受付) 2000年 3月 30日 再受付) (2000年 3月 14日 採録)
付録
A
m
R
3
MS
p
.4項 の実験 で得 られ た解析 結果 の例 を挙 げ る. まず,以下 の例 文(
GLR
モデルによる生成確率の最 も大 きい解析結果のみ を表示 させ た ときのMS
力 を示す.パーザによる解析例
)
3
)(
,
2
)(
,
1
L
-を解 析 し,R
パーザの出 御社の場合 には割引価格が適用 され ますので朝食 も含 めて割 と良いお部屋 を百九十三 ドルで ご提供で きます p I 1))
2
((
(
3)
七 日までの ご予約ですので八 日と九 日の分 で ござい ますか 十 日と十一 日の ご予約 を十一 日と十二 日に変更 なさ りたいわけですね t se ・ tr prt gr ・ tJ
I
l ms / ..◎MS R
パーザの出力 r -g a r・ a -1 a b・ 2 tr- 1・a1 dic・ary -i p -Ⅳ 1 <S ten ence one -gra t a l i ranzna h in d rea a a g t e g r f e ` r・ 'D one t se t pr t a l i l b a in d rea g LR t e f e 【 r・ b・ 21DE],%.耶錨kJL描 t ### eTAC23034 EJ仙 7 ancept [<sent em>. ) ### -0030-3 )‖ 瑚 聾 >,[<C1>. ?・0 .[<n・day>. [<n-sahen>. ,[<vaux>.[<1auX >,[<n・date&time .[meisi・hi ux・de.d ]]]].[<auxl.[<auxstem x >.[aux・sfp・ka tota1 CPU )3)4 0.2 time ### 2 STASL3004 + ET付 + accept [<sent>. .[<n・sahen>. ]]]].[<p・para ### I L EJa)H [<C1>. d i E ntai・no.0 [p・kaku・0. <n・day>.[me si・hi.+ ]]]]].[<p・kaku・opt,n [p・kaku・ni二 stem>,[auxstem・sahen・5・r ]],[<inf1 tota1 CPU time ### >,[inf1・spe・su. 2583 O13 3### S)2006-0 STA TJEn7=J:0)感 吟 (;巾igrJ accept [<sent>,[<C1>. g n・hull>.[<mOd・n .[hutu・meisi. \O>.[<pp-ga [<np ・meisi. uruISa. >. 裏 S ]]].[<auX i ]].[< nf1>.i b ]]]].[<verb\ga・ni・0 n
y
o
・te, T [<verb\ga>. adj-i. ぐノ]]]]]]. % ]].[<verbJga・o n <ntlm・Suf・hyakl>,[ u n [<n ・suf・Nyuu>. ]]]].[<p・ ・O.前 <inf1 頭 ]]]]],[<N
o
v. No.5 Vo1. 7 d 4 0)7リ^ ロ t )LE一〇)LJJLd 日 収で 仙 4 77 [<adv・C1>.[<verb>)[<verbJga>,[<np>,[<n・sahen>,[<mod・1>,[<PP>)[<nP>,[<n・date&t・ime>[meisi・hi.・t=EJ]]]],[<p・kaku・optn>.[p・kakl・made.仙 d ]]].[<p・rentai>.
[<n・sahen\ga・o>.[<prefix>.[prefiXIgO.;1 ].[sahenImeisiJga・0. .71,聾 ]]]]],[<alX>,[
[auxstem・desu.づ ]].[<inf1>.[inf1・spe・su.ヰ ]]]]].[<p・conjIadvC1>.[p・conj・syusi,0)づ ]]],[<C1>
>.[<1erb>.[<verb\ga>.[<np>.[<n・hut,u>.[<mod・n>.[<np>.[<nよ ate&t・ime>,[<mod・n
>.[<n・day>.[meisiIhi,jtJ山]]]],[<p・para>.[p・para・to、 什]]],[<n・date&time
.)Lrj]]]]].[<p・rentai>.[p・rentai・10.0)]]].[<n・hut・u>.[hutu・meisi・post.
]].[<inf1 Jh ]]]],[<aux [auxstem・copula・masu L;滑 淘 中 仙 e・sl >. .‖ 叫 く蒜 >.[inf1・sp .ヰ ]]]].[<al .751]]]]]] 5.7)64)6er23 sec OL00IL jf,寄付 + ト ロ t + 目 口 t)汁く Jb 耳 dヰ 計 [<vaux>.[<verb>.[<verb\ga>.[<np>.[<vaux>.[<vaux>.[<verb>.[<verbJga>,[<pp・o [<mod・n>.[<np>.[<n・date&time>.[<mod占 >,[<np>.[<n・date&time>.[<n・day>.[mei
>,[p・para・七〇. t ]]].[<n・date&time>.[<n・day>.[meisi・hi.+ 1 El]]]]].[<p・rentai>,[p
)]]].[<n・sahen>.[<n・sahen\ga10>.[<Prefix>.[prefix・go.C1].[sahen・meisiJga・O.旬 聾 ]]]]]、
% ]].[<verb\ga・o>.[<mod・V>.[<pp>.[<np>.[<n・date&time>.[<mod・n>,[<np こ ]]].[<pIpara>,[pIpara・to、t ]]].[<n・date&time>.[<n・dly
>,[<n・date&time
>.[meisi・hl
->. 日]]]].[<n・sahen\g
a
・
o>,[sahen占eisiJga・O.'賛i:浬 ]]]]],[<.71-仙 ]].[<inf1>.[inf1・5・ri. t)]]]]}[<aux>.[<auxstem>.[auxstem・wish
[<inf1>-[inf1・adj・i,VJ]]]]
sec
080-1
>.[<n・hutu
. [<np >.[n・keisiki.b LT]]]].[<aux>.[<auXStem>,[auXStem・
ヰ ]]]]].[<aux>.[aux・sfp・ne.ja]]]]] 6.846)02e132
Sr真 宗 莞 敵 査 収 YL仙 4 0)づ喪 神 伊 中 古 T 聖 t R rノ汝 碧 細 砕 町 uL十.Z TI)Vd H薄 4,1Edh 仙 ヰ W
[<adv・C1>,[ >.[<np>.[<n・hulu 痴
<vauX>,[<VauX>,[<VauX>,[<Verb>.[<verbJo>,[<modIv>,[<pp>,[<pp
[hutu-meisi. )'SP # ]]].[<p・rentai [p・rentai・no. 0)]]].[<
>. >.
坤 ]]]].[<p・klku・optn>.[p・kaku・ni. i;]]].[<p・kakari>,[p・kakari・wa, La:]]]],[<
>.[<n・hutu>.[<n・sahen>.[<n・sahenJga・o>.[sahen・meisiJga-0.塗 .BT]]].[<n・hutu
轟 ]]]].[p・kaku・ga. 碧 ]],[<n・sahen\ga・o>.[sahen・meisiJgalO. 歯 昌 ]]]]].[<alX a
>.[<auXStem-de c>.[auxstemldeac-reru. tt]]]].[<aux>.[<axsu tem>.[auxstem・masu.
b>.[<verb\ga・ni・o>. [inf1・spe・su. ヰ ]]]].[<p・conj・advc >.[<pp>,[<np>.[< [<vs←emLJga・ni・o [vstem・tJga・ni・O. 坤 [<vaux>,[<verb >.[<adv>. 1>.[p・conj・syusi. 0) づ ]]].[< 1>.[<advIcC
[<mod・V n・hutu>.[hutu・meisi.碧 沖 ]]].[<p・kakari>.[p・kakari・mo.
1>.[p・c
o
lj・re1. >. さ ]]]]].[<p・conj・advc
]]],[<C1>,[<vaux>, >,[<verb\ga>.[<pp・o>.[<np>,[<n・hutl>,[<mOd-n>,[<v
[<mod・V>.[<advp [hukusi. 塑 ]]]].[<verbJga>.[adjstemJga. A
Ff
].[<inf t
[<n・hutu>. >.[<mod・V>.
[<prefix>.[prefix・O. jj]].[<n・hutu>.[hutu・meisi. 曽
・hyakul.[<n・
[<pp>.[<np>.[<n・quan t>.[<n・nun >.[<n・nun nun ・keta・hyakl
u
n Ihyaku .皿 ]]].[<nInun・=yuu>.[<1- umn・keta・Nylul.[<n・ nl,m・ichi>.[nun・kyuu.jL
[num・Nyuu.+]]],[<n・nun ・ichi>.[nlJm・San.出 ]]]]].[<suffix-unit
6>.[<prefix [prefix-go
>.
kaku・optn>.[p・kakl・de.づ ]]]].[<n・sahen\ga・ .;1 ].[sahen・meisiJ
>.[<auxstem>,[auxstemd ahen上 .75品 ]]]].[<aux
aux >. >.[<auxstem>.[auxstem・masu >,[inf1・spe・su.ヰ ]]]]]]]] 6.26484Le・45 2000 [p・rentai・no,0)]]], <alXSt >,[<np >,[<n・day> >,[a >,[<np> si・hi,+ 刀 ・re >,[ ,+ 目 口 alX>.[<auX .汁 ]]. desu, >}[<np>,[< nIhltu> verb >.[hu >.[auXIS 1>.[<ver p V erb>, inf1・ ]]]]].[・kakld . >.[ ]]. [suffix・doru 1>.[ . ご ga .仙 ]].[
白井,植木 ,橋本.徳永.田中 U t e 0 3 sec.1 l 1 im t to a P 4 8 2 9 自然言語解析のための MS Rパーザ 。ツールキ ッ ト 解析結果 は括弧付 けで表現 され た構文木 として出力 され る.構文木 の右 にあ る数値 はその構文 L 」 i 「cp 木 の PGLRモデ ルに よる生成確 率であ る.「 ttoal」 は得 られた解析 結果 の総数 を, u tme ~ -Si Tn ~ ay ;l CI hi八日 I# ,,, = iga X l i ?fs, 三 mp 二 fi cnx 日 11 ''一変史 H ノL -iLs -day - me hi no -Cti r n a i -p -] ta Cn ・ -1 p &t-e ' & lt cpara t ap -da anr Tt= I -hi LE .At, ll s p [ o ~ ga ' h sa en -n ~ en h sa - ;C -ga / l lS ・e d ta -h sa en -0 -ga / h sa cn - m e n _ _ つ l ~ t a e d n mo n[ニ ィ1 &tmく lュo-の np-n n -p, _ d J ya ドI[: l霊 . :芸 -Q) ) nr -l t ren a -p -Jla _ t ren ) Pk-ank-u op。:tteT 芸-e= -O _ : ''二 l,X i i ≡: enxn 10[: Ef ga ' S ha en n ~1~な さ JJ} t iS tu-l tu -n ht hll me トPOS -su -la u ma ござい ま -k -ka u -p oJr 5 ~ h sa en -ニem S -で I r u. トW1Sll~た _ :;- es。 l】 e ニn h l sa cr -n -p n ga ver -b ver b/ ga b/ ver -b ver vaux l c -t sen で ~ = : f; S I 1 三l ._, ト こ : u 1 -h sa cn = e -n L : E a _ -二 f I l,二 -k iies -∩ - kl わ け -p I_ n :e_ t XSs ; COP ので np-n-hlltu [i I; aux f '7 : i :e:a _ : f : I x aul; ;:≡: esu d -ュ h le ‡l S _ :apuc _ t u u h -_ 完 f u b/ga l vc -b ver 芸 f anu np-ll x[i -ll -P t l こ 1 S-u Sy [: -O Jn aux C I p I く :-d a v -j con -p ・例文
(
の解析結果 V(汀b/ga -b ver)
1
l c -t sen, ll' x[: f芸 ; au , J I k auxSfp- a -au e n -f qp . - -ね X . allXI111 は解析 に要 した時 間 を表 わす. 以下,得 られ た解析結果 を構 文木 の形で示す.但 し,紙面 の都合 に よ り,構造 の一部 を簡略 している. [コ AUK ・例 文(
2)
の解析結果 『 a) _ CNo.5
No
v
1E],%叫錨 hJL描
・竜扇
(
3)0
)
寓茸試瀬sentIc
-aux-auxstem.dca
i p・conj usIU)i. Vot.7 rt)vcr We I bJo '[JJ'[ ''.::' ..1' 昌 '.I..: .'日 .I.I . -.hutu⊥1 ll 11tu.mC】S)-藍 ・n IrYkaku・niIBL
p・kakari-p・kakarTwE⊥汁1
::::(lnlhi..1ttSL:・tTITS
galp.k.ank.1:rutg,1."Iu[:11= :57・a;,?..Esahe
E
rTl暮 0..tJTL.JL
n. '
IT!^,
.sg[
p. ,a:Ci\ga・ol aheS n・mcislJ的a・0」壁 7一
tへ.ruXIStL一r】-Sa一e auX -auxste)n. c (leLtTCILCru-tL " [:TlJfH H .=ueLXsSutCIT;Tm aSu.帖 ・advcTpIcotlj・sy L' ''['' eLb\ga・ni・oI '.I. .-I. .::I...I.'.'' :''I'J .. i
くStemLJga・nTO-VSttjm・tJga・1Li・oI斡 d) く o ・reny ・tCjIT くerb IveユJJga p-kak ・。Iiu ・ a rip-n-qu nt sfuflXIuntt.