• 検索結果がありません。

0. 格構造を使った日本語文の意味解析システムの開発

N/A
N/A
Protected

Academic year: 2021

シェア "0. 格構造を使った日本語文の意味解析システムの開発"

Copied!
48
0
0

読み込み中.... (全文を見る)

全文

(1)

格構造を使った日本語文の意味解析システムの開発

0.は じ め に

コンピュータが人間のコ トバを理解す るという自然言語理解 は,人工知能の 重要な課題である。言語学の分野では,̲̲表層構造を探層構造で説明す る生成文 法を中心に した研究が行われて来たが,意味理解の研究には十分ではないと考 え られている。 これを補 うためにフィルモアは格文法 (CaseCrammer) 提唱 し [Fill],語 と語の間の係受けを中心 とす る日本語の意味分析 には格文 法が好都合であることが分 って来た。

日本語の文法 とい うと学校文法が代表的なようだが, 「学校文法 は,意味論 はまった く考慮 していないか ら,本来 『格』の ような概念を組込むようにはで きていない」 [郡 司], 「無原則的な,首尾一貫 しない活用語尾の特徴づけを もた らした」 [寺村2]とい うので,新 たな 日本語文法が必要である。そのよ うな文法 として,文の生成規則 と名詞句 に関 しては奥津文法 [奥津],用言の 活用に関 しては寺村文法 [寺村]を採用 した。文法の意味に係わる部分 に関 し ては,表層格の認定を結合価文法 [石綿]に従 って行 ったが,奥津文法の深層 格 との対応にはまだ研究が必要である

自然言語理解のシステム開発 には,構文情報,意味情報,文脈情事臥 談話情 報,専門知識,常識などの情報を馬区使す ることになるが,談話や状況や心的情 報などの高度な情報の表現 はまだ達成されていない [野村1] 一方,形態素

185

(2)

186 第42 2 ・3

解析,かな漢字変換,̲構文解析の技術 はかな り確立 されている [野村2] の中で も,限定節文法 は,構文解析,意味解析,文脈解析 とを融合 した自然言 語処理が可能な文法記述法で, これで書かれた文法には種々の構文解析手法が 適用可能であ り [田中],中で もBUP [松本] とい う高速の構文解析手法が 知 られている。

本研究は,奥津文法 ・寺村文法 ・結合価文法を限定節文法で記述 し, これを

BUPシステムで高速 に処理 し, 日本語の単位文の意味を深層格の レベルで と らえ るシステムを開発 した。開発言語 はパ ソコン上 のArity/Prologを使 っ た。文法記述 は26本の生成規則 と120本の辞書項 目である。結果 は良好で 「 郎が買 った本を花子がよむ らしい」を6秒で意味解析 した。

‑1. 日 本 語 文 法

(名詞句の構造)

奥津は,生成文法の立場か ら日本語文の名詞句の構造を明 らかにす る研究を 行 った [奥津]。名詞句 は,文の中で,動詞の主格や対象格や目的格 となる重 要 な素材である。(1)で,花子が本を読んだ ことが分 るが,その本 は太郎が買 っ て来た ものであった ことも分 らな くてはいけない。つま り,(1) (2) 2つの文か ら構成 されている。 これが同一名詞連体修飾である。同一名詞 とい うのは, (2a)の本 と (2b)の本が同一の名詞であることによっている。

果津 は, 「太郎が買 った本」 という時,本 は修飾す る文の 「買 う」になん らか の格関係 (ここでは対象格 「を」)で係 っていると見 るのである。

(1)太郎が買 った本を花子が読んだ。

(2)a太郎が本を買 った。

b花子が本を読んだ。

(3)

格構造を使 った 日本語文の意味解析 システムの開発 Jgア 修飾 される名詞が同一であることを図を使 って示そう。文を,動詞 と動詞 に 係 る部分 とに分けるとすれば, (3)の文の構造を [ 1]のように,動詞を 中心に置 き,その周 りを格助詞を伴 う名詞 (補語)が取 り巻 く姿 として表す こ とができるだろう ただ し通常は時間を表す名詞には格助詞を付けないので, 空の格助詞 ¢があるものとす る

(3) 昨日,太郎が町で本を買 った

太郎 ‑が‑[亘三‑ で一 町

1 昨 日

[ 1] 昨 日,太郎が町で本を買 った」の構造図

この図の表現方法を使えば, (2)を [2]のように表す ことができる。

太 郎 花子

iia 電ii 雷 電i

カヾ カヾ

ー ヽ▲ 少 / と一/

[亘三回 [垂司

[2] 太郎が買 った本を花子が読んだ」の構造図

しか し (1)は,単に (2)の2つの文が並列的に並んでいるのではない。

もし2つの文が単なる並列な らば,(4)の文 も成 り立っ ことになろう。だか ら,2つの文が何 らかの構造で繋が っていることをが分 るので,コンピュータ 処理では,その表現の工夫が必要である。

(4) 花子が読んだ本を太郎が買 った。

ところで,(1)か ら (2a)のように 「本を」の格助詞 「ヲ」をどのよう

(4)

Jββ 42 2・3

に導 きだ したのであろ うか ?人 間は (1)か ら (2)2つの文 を連想す るこ とが簡単 に出来 るのであ るが, コンピュータに これを させ ることすれば,その や り口はいったい何であろうか ?ここに意味解析の必要性が出て くるのである。

(構文規則)

我 々は,文が複数 の文節か ら出来てい ることを知 ってい る。特 に 日本語で は, 動詞 な どの用言句が必須 とな っていて, この用言句 に格助詞を伴 った格文節が 複数個用言 に先行 し,誰が何 を何処で等を示す補語で,文の内容を表現す る。

(1)のよ うに 「太郎が買 った本」 とい うよ うに,文が名詞を修飾 して も,そ の全体 は名詞 の性格が保持 されている。 このよ うな もの も名詞 として取 り扱 う ために名詞句 を置 く。文 の こうした構成概念を合理的に表すのに 「木構造」が 使われ る。その例 を [3] に示す。

格文節 格文節

/へ /〈

名詞句 格助詞 名詞句 格助詞 亭璽≡岳

名詞

/ / 一一‑、 格文節

琶Sii〜欝

I

名詞句 格助詞 用

名詞

太郎 買 った 本 花子 読んだ [ 3] 太郎が買 った本 を花子が読んだ」の構文木

[ 3]の木 を作 る規則を書 き換え規則 (生成規則) といい,例えば (5) のよ うに与え ることも出来 る。

(5) a 一> 用言 l 格文節 b 格文節 ‑> 名詞句 格助詞

C 名詞句 ‑> 名詞 名詞句

(5)

格構造を使 った 日本語文の意味解析 システムの開発 189

d 用言 ‑> 動詞

e 格助詞 ‑> l

f 名詞 ‑> 太郎 l 花子 l 本 g 動詞 ‑> 買 った 1 読んだ

(5)には aか らg まで 7本 の規則が あ る。各規則 は,左辺 の記号 を右辺 の記号で書 き換え ることが出来 るとい うことを表 している。 1つの記号を複数 個の記号の どれかに書 き換え る時,複数個の記号を並べ,それ らの間を縦棒の 記号 】で区切 る。例えば (5a)2通 りの書 き換えが可能である。 1つ は, 文 とい う記号を用言 とい う記号 に書 き換え可能 とい うことだ し,2つ は,文 と

い う記号を格文節 と文 とい う2つの記号の並びに書 き換え可能 とい うことであ る。 どち らの書 き換え規則を使 って も構わない ことを表 している。以下同様 に して次 々に書 き換えていき, (5f,ど)の規則を適用す ると, この規則の右辺 の記号 はこれ以降書 き換 えが出来な くなる。 (5f,g)の右辺の記号 を終端記 号 といい,その他の記号を非終端記号, もしくは文法記号 と呼んでいる。初期 記号 「文」か ら出発 してすべての記号が終端記号 にな った ら,それ は生成規則 か ら導 出され る正 しい文であるとい うことである。

次 に (5)か ら (1)が得 られ ることを示そ う。 まず記号 「文」か ら書 き換 えを始 める。書 き換えが行われた ら適用 された規則の番号を右側 に表示す る。

この表示で使われてい る左右 の記号 は,右辺 に 2つ の書 き換 え規則が あ る場 合,一その どち らかを示すための ものである。

(6)文 一>格文節

一>名詞句 格助詞 一>文 名詞句 格助詞

一>格文節 名詞 格助詞

a b c右

a

‑>名詞句 格助詞 名詞句 格助詞 b

‑>名詞 格助詞 名詞句 格助詞 C

‑>太郎 名詞句 格助詞 f左,e

(6)

190 第42 2 ・3号

‑>太郎 が 用言 名詞句 格助詞 一>太郎 が 動詞 名詞句 格助詞 一>太郎 が 買 った 名詞句 格助詞 一>太郎 が 買 った 名詞 格助詞 一>太郎 が 買 った 本 を 文

一>太郎 が 買 った 本 を 格文節

a d g

C f右,e a

‑>太郎 が 買 った 本 を 名詞句 格助詞 b

‑>太郎 が 買 った 本 を 名詞 格助詞 文 C

‑>太郎 が 買 った 本 を 花子 が 文 f中央,e

‑>太郎 が 買 った 本 を 花子 が 用言 a

‑>太郎 が 買 った 本 を 花子 が 動詞 d

‑>太郎 が 買 った 本 を 花子 が 読んだ g

このプロセスを逆に進めて,データとして与え られた文か ら記号 「文」を得 る ことも出来 る。 [3]の木を見 ると,記号 「文」は上 にありデータは下にあ るので,書 き換え規則を左辺か ら右辺方向に使 うことを トップダウン, この逆 方向をボ トムアップという。

1組の生成規則を与え ると,生成規則 に従 う文の集合を決定で きる。問題 は, 日本語の基本的な文の全てを生成出来て,なおかっ,非終端記号に対応す る概 念が構文のみな らず文が表 している意味の面で も合理的,統一的取扱 と解釈が 出来 ることが必要である。 さらには,それ らの規則が単純で見通 しが良いこと

も重要である。 この条件 に合致するもの として,奥津の生成文法 [奥津]を採 用 した。

(奥津の生成規則)

(7) a 一 > 中立文 文体素

b 中立文 一 > (文豆髭司) (叙述文 (文末詞))

(7)

格構造を使 った 日本語文の意味解析 システムの開発 191

C 叙述文 ‑ > 平叙文 (判断詞)

d 判断詞 ‑ > ((はずだ,はずがない)時制詞)

((らしい 時制詞,か もしれない,だろう1)

e 平叙文 ‑> 核文 時制詞

f 核文 一> 格要素の リス ト 用言句

g 用言句 ‑> (核文)用言

h 格要素 ‑> 名詞句 格助詞

i 名詞句 ‑>

j 補足句 ‑>

ただ し名詞句 は格助詞 と組合わせることによって, 次の深層格を持つ ものである :

[時,所,主語,直接 日的,間接 目的,手段,出発 点, 目標,対称,共同,引用,期間,移動, 目的, 理由]

(ただ し時間を表す格助詞 はないので,空格助詞を 持っ ことにす る)

叙述文 名詞句, (補居句)名詞,文)

(叙述文,出発格要素) ((とい う,数量名詞))

生成規則の表現のためにい くつかの記号を導入 した。それを(8)に説明す る。

(8)a ( )で囲まれた項 目は,選択項 目である。

b ( )で囲まれた項 目は,その中の1つを選択す る。

C リス トとは,複数個の並びをいう。従 って,格要素の リス トは,格 要素を複数個並べた もので,例えば 「昨夜 太郎が 本を」 とい うよ

うな並びがそれである。

本研究では,文の基本的な部分に注 目し,発話者の心的部分が反映される部 分である文体素,文頭詞,文末詞の部分を省略 し,次の生成規則 (9)を開発 の対象 とした。ただ し,文末詞 としての疑問詞や用言の活用で表示される命令

(8)

192 第42 2 ・3

形 は,重要であるので開発 したシステムでは考慮 した。だが今回のプログラム には開発時間の関係で組込 まれていない。その為,開発 システムでは (9a) が 「 一> 叙述文」 となっている。

(9)a 一> 叙述文 (文末詞)

b 叙述文 ‑ > 平叙文 (判断詞)

C 判断詞 ‑> lはずだ時制詞,はずがない時制詞,

らしい時制詞,か もしれない,だろう) d 平叙文 ‑ > 核文 時制詞

e 核文 一> 格要素の リス ト 用言句

f 用言句 ‑> (核文)用言

g 格要素 ‑> 名詞句 格助詞

h 名詞句 ‑> (叙述文 名詞句,名詞,文)

2.確 定 節 文 法 と 構 文 解 析 (構文解析の問題)

文脈 自由文法の構文解析の技法 として,ATNやア‑ リー法 は トップダウン 解析であ り,CYK法やボ トムア ップ ・チ ャー ト法 はボ トムア ップ解析であ る。両者の利点を生か した双方 向縦型探索法 とい うの もある。それ はボ トム ア ップの各時点において得 られた結果を,生成規則の左隅 とす るような直上の 生成規則を予測す る方法である。 この予測で得 られた生成規則の残 された目標 を,接続するデータの トップダウン解析の予測 とす るものであるか ら,ボ トム アップと トップダウンが交互 に行われ る効率的な方法である。

一般に文法記述 には文脈 自由文法が使われているが, これでは自然言語の中 で文脈依存を含む文を使 うことが出来ない。何 らかの補強を施す ことによって この部分を回避す ることが必要である そのために様 々の工夫があ りえるが, それ らの工夫 においては,次の問題が指摘 されている [田中]。

(9)

格構造を使 った 日本語文の意味解析 システムの開発 193

a 構文解析速度

b 構文解析過程の制御

C 構文解析 と意味解析 ・文脈解析 との融合 d 文法の記述能力

e 文法の記述形式 (10)

(10a)の解析速度を犠牲 に しないことは当然の要求であろう 田中は,人間 の 自然言語理解で は構文解析,意味解析,文脈解析を同時 に融合 していると考 え,そのように計算機処理で も可能なようにすることが重要だと考え,(lob,C) 2つを挙げている。 (10d)は上で指摘 した文脈依存の問題であり,(10e)

はそのような工夫が文法記述の量の増加や,複雑化にな らないようにす ること も, ソフ トウエア工学 として重要な検討事項である。田中の言語研究の これま での経験か ら,文法を確定節文法で記述 し, これに補強 と意味解析を組合わせ た方法が上記の問題解決の最 も良い方法であると述べている [田中]ので,今 回の開発はこの枠組みに従 った。

(確定節文法とProlog変換)

確定節文法(DCG)は,(9)で書かれた上記の文法形式をそのままProlog のプログラムに変換 して実行 させ るような文法記述法である。【付録 1】は(9) の判断詞に関係す る部分を省略 した文法を確定節文法で書いた ものである。 こ の記述を (9)の表現 と比較す ると,極めて 自然で簡単であることが理解 され るだろ う。各行の右側 に (9)の書 き換え規則 に対応するものがあれば,その 項 目番号を表示 した。プログラムの14行以降は辞書の部分である終端記号を列 挙 している。辞書項 目は,品詞名を左辺に書 き,右辺 には単語の語嚢を [ ] で括 って表す。

確定節文法記述 に書 き直す時,特 に工夫 した2点を説明す る。 (9d)では

(10)

194 第42 2 ・3

平叙文 は核文 と時制詞の2つに分割できることを意味 しているが,簡単 には文 を分割す ることが出来ない。奥津 は時制詞を 「る (ru)」の uと 「た (ta)」

aにあるとしているが,データとして与える文をローマ字で入力 させ る訳に はいかない。核文の解析では用言の活用解析を行 うことになるので, この時点 で時制が決定で きる。 このプログラムでは,4行 目の用言句解析で時制情報 も 得 られ るとしている。

(9e)の 「核要素の リス ト」を実現す るためにプログラムで は4,5行 目 の様 に した。 これは用言句の前 に複数個の格要素を連ね る再帰的な手法であ 平叙文を2つの格文節 と用言句の並 びに書 き換えるプロセスを (ll)で説 明す る。書 き換えの右側には適用 されたプログラムの行数が書かれている。 こ れで,格文節を必要な数だけ用意す ることが出来 る。

(ll) 平叙文 一一> 核文 +時制

一一> 格文節,核文 +時制.

一一> 格文節,格文節,核文 +時制.

> 格文節,格文節,用言句.

3554

確定節 はPrologに読み込まれる時に,それぞれの述語に2つの変数が追加 される。追加 には一定のルールがある。それを (12)に例示する (12a) 変数を順番に付 けてい く原則を示 している。 (12b)は辞書項 目の変形ルール を示 している。 (12C)は文脈依存を確定節文法 に取 り入れることがProlog

プログラム として実現で きることを示 している wordlword2に挟 まれ た時だけ,awordl bword2と書 き換え ることがで きるとい うのは, 語嚢の照応を文法 として定義可能であることを示 している。 【付録 1】の文法 はこの様な変形を受 けて,Prologプログラムとなる。確定節文法の記述 は単 純なルールではあるが,Prologプログラムの些細な部分 に気を取 られ ること な くコンピュータで動作可能な文法を定めることが出来 る。

(11)

格構造を使 った 日本語文の意味解析 システムの開発 195

(12) al a H> b,C,d.

a2 a(Sl,Sn):‑b(Sl,S2), C(S2,S3),d(S3,Sn).

bl a > [word]. b2 a([wordlS],S).

cl a H> [wordl],b,[word2].

C2 a([wordllSl],Sn):‑b(Sl,[word21Sn]).

(ボ トムア ップ解析)

たいていのProlog処理系 には確定節文法 の変換ルーテ ィンが あるので, こ のフ ァイルをそのままコンサル トすれば良 い。プログラムの実行 は (13)のよ うに解析 したい品詞名を述語名 とす るコマ ン ドを入れ る。パ ラメータはデータ と して与え る文の リス トと,空 リス トであ る。 ところが (13)の質問を入れて も答 は出ず に, しば らく待 たされた揚 げ句, スタ ックが一杯 にな った とい うよ うなメ ッセー ジが出力 されて終了す る。その原因 は,文法が持つ左再帰規則 に よって無限ループが発生 したか らである。

左再帰規則 とい うのは(14)に示す よ うに,規則の左辺 と同 じものが右辺 の最 も左側 にある規則の ことである。 付録 1】 には(14)のよ うな規則 は見当た ら ないが,それで もこれが あるとい うのは,間接的に左再帰 を形成す る組合わせが あるか らで,それ は4行 目と9行 目の2つの規則を組合 わせ ると出来 る(15)0

(13) ?一 文 ( [太郎,が,町,で,本,杏,買 った], [ ]).

(14) a ‑> a,b.

(15)4 核文 +時制 一一> 用言句.

9 用言句 一一> 核文 +時制,用言.

(12)

196 第42巻 第 2 ・3

J

核文+時制 > 核文+時制, 用言.

一般に確定節文法の構文解析 は, トップダウンである。 トップダウン解析で は左再帰規則があると,上記の様に動作 しないのである。従 って確定節文法で 書かれた文法で も左再帰規則を持たないものであれば,解析 は成功す る。 この 確定節文法は欧米での自然言語解析の目的で開発 されたものであって,欧米の 言語のように言語の構造が右枝分れ [柴谷]である場合 にはうま くい くが,左 枝分れである日本語 [柴谷]では本質的に左再帰構造を持つので うま くいかな

い。

これを回避す るには,ボ トムア ップ解析が適切である。 この候補 として, B UPシステム [松本]がある。 これは確定節文法で書かれた文法をボ トムア ッ プを中心に トップダウンを交えなが ら双方向か ら解析す る手法で,極めて高速 である。 このプログラムについての論文には方法論の記述があるがプログラム の全体がないが,一般に出版 されている出版物の中でただ 1つ畝見氏の85 はどのプログラムがあった [畝見] これにはコンパイルエラーに引掛か らな 7箇所の ミスタイプがあった (【付録2】参照)が,本文の説明を良 く読み なが らデバ ッグすれば取れるだろう。

BUPシステムによって, 【付録 1】のプログラムは順調 に動作 し結果を出 力する。どのよ うな解析を したのかについては不明であるが,正 しい文を与え た場合 にはyes,正 しくない文の場合にはnoの解答が出る。

3.詳 細 な 構 文 情 報

解析結果がイエスかノーかだけではな くて,正 しい文な らその文の構造が分

(13)

格構造を使 った日本語文の意味解析 システムの開発 197 る訳だか ら,それを表示 したい。また 【付録 1】の24行 目か ら以降の様 に動 詞それぞれについて,現在形,過去形,連用形,命令形,未然形などと種 々の 活用形を定義す ることは無駄であるか ら, これを統一的に処理 したい。 このよ

うな工夫を本章で行 う。

(確定節文法で構文情報を取るには)

付録 1】の書 き換え規則のそれぞれの品詞 に変数を用意 し, この変数 に構 文上の情報を持ち帰 らせ ることを考える。そのため,まず構文情報の表現を与 え る。規則が (16 al,bl,cl)で与え られた とす ると,その構文情報を リ ス ト表現で (16 a2,b2,C2)の様 に書 くことにす る。 リス トの先頭を品詞 名,残 りは品詞を構成する要素の情報の リス トとす る。

(16) al a H> b.

a2 [a,bの情報]

bl a > b, C.

b2 [a,bの情幸臥 Cの情報]

cl a >[word]. C2 [a, word]

この情報をプログラムに反映す るには (16)のそれぞれの形式について,確定 節文法表現を (17)のようにすれば良い。

(17) a a([a,Ⅹ]) 一一> b(Ⅹ).

b a([a,Ⅹ,Y]) => b(Ⅹ),C(Y).

c a([a,Word]) 一一> [Word].

(14)

198 42 2・3

この方法で【付録 1】を書 き直 したのが【付録 3】のプログラムである。 【 3】の第 1行 目の述語名が S にな っているのは,特別 な理 由はないが,文 の トップを S と置 くことが習慣 にな ってい るので, 「文」の代 りに S と表 す ことに した。 このプログラムで読み取 りに くいところは,格文節を束ねて格 文節 リス ト情報を作 りだす ところであろう これは リス ト処理 に慣れれば,そ

う困難 はないと思われ る。

(寺村文法の動詞活用)

学校文法 に従 って動詞の活用を実現す ることは難 しいことではない。 しか し その活用を使 って,意味処理を行 うには文の他の要素 との関係が重要 になる。

果津 は,助動詞,補助動詞などが構文を とる動詞であると考えて (7g)の生成 規則を設定 している。動詞の意味を活用 と文中の他の要素 との関連で とらえ直 す と,学校文法 よりは動詞の意味がよ り統一的になるとい う研究が寺村 によっ てなされている [寺村1,2] この研究 によると動詞を語幹の最後の音で,

,Ⅱ型,Ⅲ型 とい う3つの型に分類 しそれぞれの活用を次の様 に与えている。

[動詞分類]

Ⅰ型 語幹が子音で終 るもの

書 く, 読む, 取 る, 切 る, 練 る, 要 る kak‑ yom‑ tor‑ kir‑ ner‑ ir‑

特徴 :‑ru で終 らない もの。

で も‑ruの直前の母音がa,u,Oで終れば Ⅰ型 例) 有 る, 売 る, 取 る

ar‑ ur‑ tor‑

Ⅱ型 語幹が母音で終 るもの

食べ る, 見 る, 着 る, 寝 る, 居 る, 買 う tabe一 mi ki ne 1‑ ka‑

(15)

格構造を使 った 日本語文の意味解析 システムの開発 199 特徴 :‑ruで終 る。

Ⅲ型 来 る,「す る」 と 「す る」の変種

研究す る,議論す る,恋愛す る,失恋す る,マークする, ス トす る

[活用表]

ム‑ ド

確 言 ‑ u Ⅰ ‑ ta ‑ da

ru ‑ ta

‑ suru(基本形 ) ‑ sita(過去形 )

‑ kuru ‑ kita

A ‑ 1 ‑ katta

概 言 ‑ o Ⅰ ‑ taro d aro

‑ yo ‑ taro

‑ siyo(推量意 向形) ‑ sitaro(過去推量形)

‑ koyo ‑ kitaro

A ‑ karo ‑ kattaro

Ⅰ ‑ e‑ koi‑ ro‑ siro(命令形 ) A

条 件 Ⅰ ‑ eba Ⅰ ‑ tara dara

‑ reba ‑ tara

‑ sureba(レバ形) ‑ sitara(タラ形)

‑ kureba ‑ kitara

(16)

42 2 ・3号

荏) この表の中で,Ⅴは動詞,Aは形容詞を表す。

(動詞活用の実現方法)

動詞を語幹 と語尾 に分 けて考える。語尾の活用を調べ ると活用の種類 (M, Op)と時制 (T)が得 られ る。Mはムー ド情報,Opはオプシ ョン情報 とす る。

Ⅰ型の動詞には語幹末の子音 に従 って表層の発音が異なるか ら,音便などの処 理 を施す必要が あ る。 このために語幹末 の子音情報が必要 になる。例えば

買 う」の動詞定義を次の様に した。語幹の音韻はkaw‑である。

動詞 ([買 う, [M,Op],T]) 一一> [買],活用([W,M,T,Op]).

活用処理 はそれぞれ3つのタイプごとに用意 し, Ⅲ型 には 「来 る」「す る」の 2つを用意 したbそれが活用 Ⅰ,活用 Ⅱ,活用Ⅲk,活用Sである。オプショ ン情報が特 に無 ければその値をnonとした。活用の種類 は,例えば 「推量意 向形」はM‑概言,T‑完了 とい うよ うにムー ドと時制の座標で表す ことに し

その他判定詞ダ ・デスや助動詞などもあ り,文の中で重要な働 きを行 うが,

(17)

格構造を使った日本語文の意味解析システムの開発 201 今回は動詞の実現のみに した。

(実行例)

以上の2点を 【付録 1】に新たに付け加わえたのが 【付録3】のプログラム である。 【付録 3】を実行す るには,まずBUPシステムをPrologに読み込 み, このBUPシステムを使 って, 【付録3】のプログラムファイルを通常の

Prologプログラムに変換 しなが ら読み込む。そのコマ ン ドは (18)である。

変換 されたプログラムは,そのままPrologシステムにあるので, (19)のよ うに,解析のためのデータ文を与えると,解析結果が変数Ansに帰 って来 る。 果 は リス トで帰 って くるので,人間にとっては見にくいが,結果を巧 く印刷す

るプログラムを作成すれば 【付録 4‑ 1】の結果を得 ることが出来 る。

(18) ?‑bup('付録3のファイル名').

(19) ?‑goal(S,Ans,

[太,郎,が,買,つ,た,本,を,花,千,が,読,む,ら,し,い], [ ]).

4.意 味 解 析

構文解析には,構文情報だけでは取 ることがで きない誤 った解析結果 も含ま れ る。 (19)の実験では4種類の解答の うち,意味として正 しい ものは1つだ けであったOつま り25パーセ ン トの正解率である。その誤 った解釈の一部を【 4‑2】に示す。意味を考える人間だ った らこうは解釈 しないというような 制約条件を構文解析の実行時の必要な箇所 に組込めれば,明 らかに無駄な解答 は出てこないであろう そのような制約条件を入れて,構文解析を助けるのが 意味解析である。同時に,文の意味を集約す ることも出来 るので, コンピュー

タが 自然言語を理解す る基礎 とな りえる。

(連用修飾の格 とな りえる名詞の制約条件)

用言 に対 して種 々な格がある。そのような格 として奥津 は15種類の格を挙げ

(18)

202 第42巻 第 2 ・3

ている (20)[奥津]。表層格 の格助詞 と深層格 に1 1の対応があれば,格の 決定が実 に簡単 に行われ るのであるが,そ うは簡単 にはいかない。 (21) に示 す よ うに,同 じデで も,材料を示す手段格 のデ,あるいは場所格のデ, さ らに は理 由格 のデな どがあ り,紙や公園や宿題 の意味や概念を知 らないな らば,そ れ らが文の中で どうよ うな働 きを しているかが分 らないであろ う。

格助詞 ,格助詞相 当語 時格

場所格 主格

1対象格 2対象格 手段格

出発点 目標格 対称格 共 同格 引用格 期 間格 移動格 目的格 理 由格

(21) a 太郎 は,紙で 飛行機を作 った。

b 太郎 は,公園で 飛行機 を作 った。

C 太郎 は,宿題で 飛行機 を作 った。

(19)

格構造を使 った日本語文の意味解析 システムの開発 203 従 って,連用修飾の名詞が用言 とどのよ うな位置関係 にあるのかを,格助詞 以外 に知 る手立てが必要である。それが常識である。例えば,動詞 「買 う」の 主語 とな りえ るのは人間以外 にはあ りえないというよ うな ことである。 このよ うな観点か ら名詞の種類を整理す る作業を しているのが,依存文法 と呼ばれ る 分野である。石綿等 は,用言を 「体言 +格助詞」 との結合関係で とらえ,それ ぞれの結合の型を体言の意味 と格助詞の種類 によって記述 した 『日本語用言の 結合価』を作 った [石綿]。まず名詞の意味特徴を表 (22)とす る。

Nを名詞,Ⅴを動詞 として,それぞれの動詞の特徴を整理す る。 その一部を (23)に示す。石綿等 は,1154種類の用言 に対 して この作業を している。

(20)

42 2・3

a 買う(うらみを) b 買う

C

d 読む

e 作る f

N(hum )が+N(abs)杏+V

N(hum )が+N(con)香+N(hum )+V N(hum )が+N(con)杏+N(hum )か ら+V N(hum )が+N(con)+V

N(hum )が+N(con)を+N(con)+V N(hum )が+N(con)杏+N(mat)+Ⅴ

以上の考えを,構文解析の途中で用言が確定 した時に,格 として係 る名詞句 の種類のチェックに適用す ることにより,常識外の ものが格 として係わ ること を制限す る方策を組込む ことに した。 このために名詞の辞書にそれぞれの特徴 を考慮 して (22)の特徴を組込んだ。さ らに (23)に対応す る情報を動詞に組 込んだ。ただ,動詞定義が冗長にな らないよ うに1つの動詞に2つの定義が石 綿の研究でなされていて も,それを1つに集約 した。また,余分 に場所格など

も追加 した。

以上の追加 した部分の ところにさらに法情報 という項 目を追加 した。 これは 用言の活用情報を この用言が作 る核文や文の外部に伝えるためのチャンネルで

ある この情報 は 2つの目的で使われる。

1)規則 (7g)によって,用言を複数個接続す ることが出来 るが,その 結合情報 として役立てる。

2)用言の命令形 は文末詞に反映され ることになっているので,その情報 を叙述文まで伝えることが必要である。

(意味処理の具体化)

意味情報を伝えるために,3章で したように新たに1つの変数をそれぞれの 述語に追加す る。 この意味情報を加工す るために3章で述べた補強項を使 う 次の3つの補強項(24)を使 って意味処理を可能 に したプログラムが【付録 5

(21)

格構造を使った日本語文の意味解析システムの開発 205 である。 この 3つの補強項のプログラムは別 に 【付録 6】で与える。

(24) 1)体言の係受 け解析 (Ks,SemV,Time,Sem) 2)時間格標識確認 (Noun)

3)同一名詞連体修飾 (SemH,SemNP,Sem)

体言の係受け解析」は,格要素 リス トKs,用言の意味 (上記の制約条件 の情報)SemV,を使 って格の制約条件チ ェックを行 う この時,深層格 と

しての格 は1つの文に1つ しかないという 「1 1格原理」 も適用す る。 この チェックで埋 め込み文が複数個連 なって も無駄 な解析結果を切 ることが 出来

る。また時制情報Timeは格情報の 1つ として記録 される。

「時間格標識確認」は,名詞の意味情報を受 け取 ってその特徴が時間の特徴 を持 っているかを調べ る。 このチェックによって 【付録 4】で出力 された,時 間の格 になることが出来 ない ものまで時間格 にす るとい う,無駄を節約で き

る。

「同一名詞連体修飾」は, 1章で説明 したような連体修飾を調べ るものであ る。それは,連体修飾す る文の意味情報SemH と,修飾を受 ける名詞SemNP とを使 って,SemNPSemHの格要素でまだ埋 っていないどこかの格要素 を満たす ことが出来 るか どうかを調べ る。アルゴリズムは,動詞が持 っている 格要素の リス トを順番 に調べ る。すでに埋 っている格 は修飾文 の中の格であ る。従 って,空いている格の中で,名詞の特徴が入 り込める制限条件を見つけ れば良い。そのような格が無 ければ,現在 までの構文解析が間違 っていること になる。そ うなれば, この解析 は放棄 し新たな解析を試みればよい。

本来な らデータ構造について説明すべきところであるが,スペースの関係で 省略 した。 これ らは 【付録 5,6】のコメン トを参照の こと。

(実行結果)

(25a)の例文の実行結果を (26)に示す。 (25b)の結果 は 【付録 7】 に

(22)

206 第42 2 ・3

示す。 (25a)1章で述べた同一名詞連体修飾の例である。結果 は叙述文の 意味を表す動詞 と深層格を表示 し, これを判断詞で囲んだ。判断が特 に示 され ていなければnonと表示す る。名詞,あるいは名詞句 はカテ ゴ リーと して特 徴 を表示をす る。 また関連情報 として これ らに係 る連帯修飾の情報 も表示 し

た。関連情報が特 になければnonと表示す る。また文その ものが引用 されて いる場合 には,selrと表示 した。その場合のカテゴ リーは文を表すSである。

(25b)は引用の例であ るが,これは2つの解釈が可能 な唆味な文で もある。

つまり文頭の 「太郎が」が 「買 う」の主格 になった り, 「書 く」の主格 になっ た りしている。実際の解析結果 もそ うなった。 【付録 7】の 2つの解析結果の 解析速度が 5秒 と2秒 という大 きな差があるが, 2回 目はバ ック トラックなの で,最初の解析よりは速めになっている。なお, これ らの結果の表示には 【 8】のプログラムを使 った。

(25) a 太郎が買 った本を花子が読む らしい」

b 太郎が本を買 ったと花子に手紙を書いた」

(26) 太郎が買 った本を花子が読む らしい 6sec

意味解析】

判断詞 [らしい, [時制,現在]]

読む】

主格】

花子 カテゴリー (hum) 関連情報 ‑な し

対象格】

カテゴ リー (con) 関連情報 ‑

埋め込み構造 :対象格】

‥‥‥… 花子が読むの主格であることを表示

‥‥‥… 花子を修飾 している情報はない

… ‥… .本が読むの対象格であることを表示

… ‥‥‥本を修飾 している情報を以下に示す

‥‥… 本を修飾する埋め込み文である

(23)

格構造を使った日本語文の意味解析システムの開発 判断詞 non

買 う】

主格】

太郎 カテゴ リー (hum).‥ 太郎が買 うの主格である 関連情報 ‑な し ‥‥..‥ 太郎を修飾する情報はない

対象格】

* この対象が同一名詞連体修飾されている

法情報】

[確言,完了] ‥.‥ 買 う」ムー ドは確言

時制格】

完了

法情報】

[確言,現在]

【時制格】

現在

.‖ ‥ ‥ 「買 う」の時制は完了

‖‥‥.読む」のムー ドは確言

‥ ‥ ‥ .「読む」の時制は現在

207

(検討,その他)

(25)の例の結果 は期待 していた以上 に良好であったと考えている。また (27) のよ うな名詞 に関す る関連情報を代入す るための変数 (Object)杏, この名 詞 クラスのイ ンスタンスと考えてオブジェク ト指向を導入す ることも出来 る。

そ うれば,埋め込み文 と主文の間の引用関係をはっきり付けることが出来 るだ ろう また今後は文をイベ ン トとして とらえ, このイベ ン トを時間軸あるいは 原因 と結果の因果関係で管理す ることが,意味理解の重要な点であることも判 明 した。意味解析が石綿の結合価だけでは十分でないことは明 らかだが,簡便 な方法 として採用 した。 これ以上の意味解析 は,多 くの辞書情報を必要 とす る ので費用 と効果を十分考慮す る必要がある。

(24)

208 42 2 ・3号

(27) 名詞 ([名詞,本], [,con,Object]) 一一> [本].

開発 システムはNEC ‑ PC9801VMであ ったが 【付録 7】に示すよ うに 数秒で結果が出ている。最近の高性能パ ソコンでは1秒以内に収 るであろう。

開発言語 はArity/Prologver5.1である。ラムデ ィスク環境であれば,快 適 な開発が出来 る。ただデバ ックのツールが ボ ックスモデルのみ しかないの で,かな り苦 しい。

意味処理ルーティンを【付録6】に構文解析のための入 出力ルーティンを【 8】に示 した。意味処理 については説明が本文で出来なか ったが,プログラ ムのコメン トで概要が理解で きると思 う 意味解析の枠組みは [田中]によっ ている。今回の開発 には,文法 は [奥津] [寺村1,2],格構造の考え方 は [ 2],解析の枠組みは [田中],高速解析手法 は [松本] [畝見],.蕃 味の制約 条件 は [石綿] と種 々の方 々の研究に依存 している。係助詞の 「‑」の問題 も 組込の過程 にあるが,単位文の範噂を越えるので今回の開発 には完成 しなか っ た。残 された課題の大 きな ものに 「の」の付加詞句がある。単位文の トータル な理解 システムの完成には,まだまだ遠いというのが実感である。

参照

関連したドキュメント

原田研究室ではこれまで,EDR 電子化辞書に記載された情報を元に,日本語文を意味解析し格フ レーム群に自動変換するシステム SAGE(

2、構文解析(syntax analysis): token 列を意味を反映した 構造に変換。この構造は、しばしば、木構造で表現され

通常,(1)おける with 句の意味役割は「道具」( Instrument )であり,(1 a )のように主語の動作主 John と共起可能である.また,(1 b )のように(1 a )を受動文にして

 この文章は、PayPal( http://www.paypal.com/ )を使った決済システムを Web 上で構築す る方法を解説しています。

(Roberts (1987: 190)) (18) の主語 the answer, French は動詞の know, acquire によって何ら影響を受けていない。同 様に、(19) でも主語

JavaScript 処理系の開発では JavaScript の構文解析器を作る必要がある. JavaScript の構 文解析器は,

構造解析ソフトの利用法(2) ーアドインメニューの表示  メニューバーの「ファイル」を

構造解析ソフトの利用法(2) ーアドインメニューの表示  メニューバーの「ファイル」を