単 一 化 文 法 に基 づ く
自然 言 語 解 析 用 オ ブジ ェク トク ラス群 「言 の 葉 」
松 原 康
夫
"K
otonoha"
a set of object classes for natural
language
analysis
based on unification
grammar.
Yasuo Matsubara
Natural language understanding is one of the most important problems in artificial intelligence. Until now, the research has been done mainly for English statements. Research for Japanese statements also has been done, but it has not become to the level of one for English. Moreover, it seems that grammatical theory of Japanese has not been proposed in a form easy to analyze by computer.
In these days the main interest of research is about meanings of statements. However, it does not mean that the part of analyzing the statement syntactically and taking out the meaning has less importance.
A number of grammars called unification grammar which incorporates a mechanism of unification, have been proposed and indicated to be useful for analysis of syntactical phenomena. It is suggested that unification grammars are easy to analyze by computer and
are useful to take out the meaning. In many applications of the area of artificial intelligence, the man-machine interface has great importance. If one can interact with an application through a language similar to the natural one, it can be used by unskilled people.
In this paper, we propose a set of C+ + classes which can be used to incorporate a language analyzing function into any application program.
When a dictionary and a grammar are given in a fixed manner, these can analyze an statement and output a list similar to F-structure of LFG.
1.は じ め に 自然 言語 を コン ピュ ー タ で処 理 す る研 究 に は大 きい 二 つ の 流 れ が あ る。 一 つ は 異 な る言 語 間 で 翻 訳 す るこ とを 目的 とす る もの で あ り、 も う一 つ は 自然 言 語 で 書 か れ た文 の 意 味 を コ ン ピュー タ に理 解 させ よ う とす る もの で あ る。 これ ら は ほ ぼ 同 じ年 代 に 米 国 で研 究 が 始 ま って い る。 特 に翻 訳 は一 時 そ の 可 能 性 が 否 定 さ れ た こ と も あ っ た が 、 現 在 で は特 定 の 言 語 間や 、 あ る限 定 さ れ た 内 容 につ い て は 一 応 の 成 功 を収 め 、実 用 に 供 さ れ て い る。 自然 言語 理 解 は そ れ 自身 、 人 工 知 能 の 中
で も最 も重 要 な分 野 の 一 つ で あ り、 い ろ い ろ な分 野 の プ ロ グ ラム で 自然 言 語 、 ま た は そ れ に 近 い 人 工 言語 をマ ン マ シ ン イ ン ター フ ェー ス と して 採 用 す る もの も 多 い。 しか しな が ら、 本 格 的 な 自 然 言語 の 文 章 を コ ン ピ ュー タ に理 解 させ る こ とは 、 極 く限定 され た場 合 を除 い て 成 功 して い な い。 自然 言 語 理 解 の研 究9)は、他 の 人工 知 能 の 研 究 と同様 に 米 国が 主 導権 を握 っ て い る。これ に対 し て、 我 が 国 に於 け る 自然 言 語 理 解 の 研 究 は、 未 だ 米 国 と同 じ水 準 に達 した とは 言 い難 い 。 そ の 原 因 は幾 つ か 考 え られ る。 日本 語 は使 う文 字 の種 類 が 非 常 に 多 い こ と、 分 か ち書 き を行 な わ な い こ とで あ る。 さ らに も う一 つ 重 要 な こ とは、 コ ン ピュ ー タ の処 理 に 向 く よ うな 形 で の 日本 語 文 法 が 整 え られ て い な い事 が 考 え られ る。 これ らの 問題 の うち、 文 字 種 類 が 多 い こ と につ い て は 、 仮 名 漢 字 変 換 や ロー マ 字 漢 字 変 換 の普 及 に よ っ て解 決 され た とい って よ い で あ ろ う。 こ れ は 一 つ に は ハ ー ド的 に 多種 類 の 文 字 が 表 示 で き る よ うに な っ た こ と もあ るが 、 自然 言 語処 理 の 技術 を ソ フ ト に応 用 し た もの と考 え られ る。 一 方 分 か ち書 き を行 な わ な い こ と に よ る 困 難1)2)の克服 は、未 だ解 決 され るべ き問題 点 の 一 つ で あ る。 これ に対 す るい くつ か の ア プ ロー チ は 存在 す るが 、 どれ か 一 つ が 決 め 手 と して は 普 及 して は い な い 。 と こ ろで 、 コン ピュ ー タ で 自然 言 語 文 を解 析 す る ため に は何 らか の文 法 理 論 が 必要 と な る。 こ れ ま で の 多 くの研 究 で は 文 脈 自由 文 法 が 使 わ れ て い る。 しか し こ れ だ け で は 文 法 規 則 の 数 が 大 き くな る こ とや 、 非 常 に 長 い文 等 へ の 対 応 が 難 しい こ とが 指 摘 され て い る。 ま た、 文 脈 自由 文 法 に 基 づ く構 文 解 析 結 果 か ら意 味 を取 り出す 方 法 に つ い て は 必 ず し も整 理 され て い る とは 言 い難 い。 そ して 句構 造 文 法 は 元 来 、 英 語 ま た は そ れ に 近 い 言 語 の解 析 を 目的 と して 発 達 して きた ため 、 日 本 語 の解 析 に は 必 ず し も向 い て い な い可 能 性 が あ る。 こ れ に 対 して近 年 、単 一 化 と呼 ぶ 操 作1)3)4)5)7)8)1°)を行 な う機 構 を組 み 込 ん だ 、単 一 化 文 法(Unifi-cationGrammar)と 呼 ば れ る一 群 の文 法理 論 が 注 目 され つ つ あ る。これ らの 文 法 理 論 は 、Choms-ky等 の変 形 文 法 に対 す る批 判 か らで て き た もの で あ るが 、同 時 に コン ピュ ー タ に よ る処 理 に も適 した文 法理 論 で あ る とい え る。 代 表 的 な もの と して 、GPSG、LFG、CUG等 が あ るが 、 従 来 の文 脈 自由文 法 の雰 囲 気 を良 く残 して い る の はLFGで あ ろ う。LFGで は構 文 を表 わすC構 造 とそ の他 の 属 性 を表 わ すF構 造 に 分 け て考 え て お り、 まず 文 脈 自由 文 法 に基 づ い て 構 文 解 析 を行 な っ てC 構 造 を作 り上 げ た 後 で 、 単 一 化 操 作 に よ っ て 文 全 体 のF構 造 を作 り上 げ る。 こ の た め 、 従 来 良 く 研 究 され て きた構 文 解 析 の技 法 の 利 点 を活 か す 事 が で き る も の で あ る。 そ して、F構 造 の 中 か ら 意 味 を取 り出 す こ と も比 較 的容 易 で あ る。 自然 言 語 、 中 で も 日本 語 に 関 す る処 理 の研 究 は 、 文 法 理 論 の整 備 、 意 味 理 解 の研 究 や 他 の ア プ リケー シ ョン プ ロ グ ラム の マ ンマ シ ン イ ン ター フ ェー ス な ど、 多 方 面 か ら研 究 す る必 要 が あ る。 そ の..、 文 脈 自由 文 法 を 自然 な 形 で拡 張 した と考 え られ る単 一 化 文 法 に 基 づ くこ とが 、 今 後 の極 め て有 力 な方 向 で あ る。 こ れ まで 従 来 の文 脈 自由 文 法 に 基づ い て文 を解 析 す る シス テ ム に 関 して は、 極 め て 多 くの研 究 が な され て い る が 、 単 一 化 文 法 に 基づ い て文 を解 析 す る シス テ ム につ い て は未 だ 限 ら れ た研 究 しか な され て い な い模 様 で あ る。 一 般 に、 自然 言 語 処 理 を行 な うプ ロ グ ラム は か な り大 き い もの に な り、 しか も研 究 の進 展 に 伴 っ て 多 くの 変 更 を行 な う もの と考 え られ る。 この よ うな 場 合 に は オ ブ ジ ェ ク ト指 向 プ ロ グ ラ ミン グ の考 え方 が 有 効 と な る。 特 に他 の プ ロ グ ラム の マ ン マ シ ン イ ン ター フ ェー ス部 と して使 う時 は、 言 語 処 理 部 分 は他 の 部 分 とは独 立 した部 分 と して 動 作 す る こ とに な る。 ま た、 意 味 理 解 シス テ ム に お い て も、 単 一化 文 法 に基 づ く処 理 と、 意 味 に関 す る処 理 とは あ る程 度 独 立 し た もの とな る。 こ れ らの こ と を考 え合 わせ る と、 単 一 化 文 法 に基 づ く文 解 析 シ ス テ ム を、 オ ブ ジ ェ ク ト指 向 プ ロ グ ラ ミン グ 言語 の い くつ か の ク ラ ス の集 合 と して 実 現 す る こ とが望 ま しい こ とに な る。 現 在 、 オ ブ ジ ェ ク ト指 向 言 語 は 多 くの もの が 提 案 さ れ て い る が 、 最 も広 く使 わ れ て い る の が
C++で あ る。 この 言 語 は これ ま で広 く普 及 して きたC言 語 を拡 張 した もの で あ る。最 近 で は、処 理 系 の 普 及 度 と処 理 速 度 等 の 点 か ら、従 来 はLISPやPROLOG等 の い わ ゆ る人 工 知 能 用 言 語(リ ス ト処 理 言 語)に よ って 書 か れ て い たプ ロ グ ラム を、CやC++等 に 書 き替 え る こ とが 行 な わ れ て い る。 本 論 文 で は、特 に 日本 語 の解 析 を単 一 化 文 法 に基 づ い て行 な う シ ス テ ム を、C++の クラ ス に よ っ て 実 現 した シス テ ム 「言 の葉 」 につ い て述 べ る。 この シ ス テ ム で はLFGと 同様 に、 句 構 造規 則 に 単 一 化 の た め の ル ー ル を付 加 し た もの を文 法 と して 読 み込 み 、 単 語 に 品詞 とい くつ か の属 性 を 付 加 し た もの を辞 書 と して 読 み 込 む。 また構 文 解 析 に は ボ トム ア ップ 並 列 型 の ア ル ゴ リズ ム で あ るCKY法 に 、 候 補 単 語 を すべ て 登 録 す る 方法 を組 み合 わ せ た方 法 を用 い る。 こ の こ とに よ っ て、 分 か ち書 き しな い こ とに よ る問 題 を 克服 して い る。 2.自 然 言 語 処 理 の 流 れ 一 般 に 自然 言 語 の処 理 は、 初 め に形 態素 解 析 を行 な い、 次 に構 文 解 析 、 そ して 意 味 解 析 を行 な う。 さ らに この 後 、 意 味 や 文 脈 に対 応 す る処 理 を行 な い、 今 度 は 逆 に意 味 か ら、 そ れ を表 現 す る 文 を生 成 す る。 但 し本 論 文 で対 象 とす るの は 、 最 初 の 形 態素 解 析 か ら構 文 解 析 、 そ して 意 味解 析 の 入 り口 の と こ ろ ま で で あ る。 もち ろ ん この 後 の処 理 を行 な わ なけ れ ば完 全 な意 味 で の 自然 言 語 処 理 とは い え な い。 しか し こ の部 分 は どの よ うな処 理 で も必 要 とす る共 通 な部 分 で あ る。 この 部 分 につ い て一 般 的 に使 え る ツー ル が 存 在 す る な らば 、 そ の 後 の 意 味 処 理 等 の研 究 を促 進 す る もの とな る。 2.1形 態 素 解 析 形 態 素 解 析 は、 入 力 され た文 を辞 書 上 の 見 出 し語 、 また は その 変 化 した もの に分 解 す る こ とで あ る。 英 語 な ど の よ うに 単 語 毎 に分 か ち書 き され て い る もの に つ い て は 、 各 単 語 毎 に そ の 品 詞 と 変 化 形 を定 め る こ とが 主 な仕 事 とな る。 これ に 対 して 日本 語 の 場 合 は ど こが 単 語 の切 れ 目で あ る か を決 め る こ とが 重 要 な仕 事 の一 つ と な る。こ の と き、形 態 素 解 析 だ け で100%正 しい切 り方 を定 め る こ とは 不 可 能 で あ る。 そ こ で 発 見 法 に よ って い くつ か の 可 能 な切 り方 の リス トを出 力 す る の で あ る。 発 見 法 と して は最 長 一 致 法 や 、 文 字 種 の 変 わ り目 を 目安 にす る も の、 あ るい は分 節 数 最 小 法 な どが あ る。 辞 書 に どの 段 階 の 語 を載 せ るか は 重 要 な決 定 事 項 で あ る。 つ ま り、 基 本 形 と可 能 な 変 化 の 種 類 を載 せ るか 、 ま た は す べ て の変 化 形 を見 出 し語 と して 載 せ るか で あ る。 規 則 的 な変 化 に 対 して は 基 本 形 か ら導 く こ とが 出来 るが 、 不 規 則 な変 化 をす る もの につ い て は全 て の変 化 形 を見 出 し語 と して辞 書 に載 せ る必 要 が あ る。 さ らに 形 態 素 解 析 と して 重要 な仕 事 は、 辞 書 に無 い 語 、 い わ ゆ る未知 語 の処 理 で あ る。 自然 言 語 で使 う語 を予 め す べ て辞 書 に 載 せ て お くこ とは、 対 象 とな るエ リア をか な り限定 し な い 限 り困 難 で あ る。 そ の た め 、 常 に新 し い語 が 現 れ る可 能 性 が 存 在 す る。 そ れ で も正 しい 語 と して 処 理 し な け れ ば な らな い が 、 日本 語 の 場 合 は ど こか ら ど こ まで が 未 知 語 な の か を特 定 す る必 要 が あ る。 こ れ も絶 対 的 な 方 法 は な く、 文 字 種 類 等 を手 掛 か り とす る必 要 が あ る。 2.2構 文解 析 形 態 素 解 析 で 提 案 さ れ た 語 の 列 に対 して 、 あ る文 法 に従 っ て構 文 の 木 を 見 い だ す 。 文 法 と して 文 脈 自由 文 法 を使 う事 が 多 く、Chomskyの 変 形 文 法 等 を用 い る事 も研 究 され た が 一 般 的 で は な い 。 文 脈 自由 文 法 を使 っ た構 文 解 析 は極 め て よ く研 究 さ れ て お り、 種 々 の ア ル ゴ リズ ムが 存 在 す
る。 これ ら を分 類 す る基 準 の 一 つ は、 トップ ダ ウ ン型 か ボ トム ア ップ 型 か とい う こ とで あ る。 トッ プ ダ ウ ン 型 で は 文 記 号Sか ら開 始 し、 文 の 方 に 向 か って 規 則 を適 用 して行 く。 ボ トム ア ップ 型 で は文 の 方 か ら、 こ れ を生 成 す る規 則 を見 い だ して行 く。 こ れ ら を ミッ クス した もの もあ る。 ま た、 直列 型 か 並 列 型 か の分 類 も あ る。 直列 型 で は可 能 な 一 つ の選 択 肢 を可 能 な 限 り深 く追 究 す る も の で あ り、 行 き詰 ま っ た と きに バ ッ ク トラ ッ ク を行 な う。 並 列 型 で は 、 適 用 可 能 な選 択 肢 をす べ て 保 持 し なが ら処 理 を行 な う。 それ ぞ れ一 長 一 短 が あ るが 、 最 近 は コ ン ピ ュー タの 記1意容 量 が 大 き く安 価 で あ る こ とを考 え る と、 並 列 型 の 方 が 以 前 よ り有 利 で あ るか も しれ な い。 と くに 直 列 型 の 場 合 は 下 位 部 分 に於 け る同一 の 試 行 錯 誤 を何 回 も繰 り返 す 可 能 性 が あ る。 また 、 形 態素 解 析 で可 能 な切 り方 が複 数 あ る と き、並 列 型 な らば これ ら を同 時 に 並 行 して 処 理 す る こ と も可 能 で あ る。 2.3単 一化 と意 味 解 析 文 脈 自 由文 法 は 、 自然 言語 の 性 質 を か な りよ く表 わ して い る の で よ く用 い られ るが 、 これ に 従 っ て解 析 した構 文 木 か ら、 どの よ うに して 意 味 を取 り出 す の か とい う方 法 論 は、 必 ず し も整 理 さ れ て い る とは 言 い 難 い。 また文 脈 自 由文 法 だ け で は 意 味 的 に 関連 の あ る文 を統 一 的 に扱 え な か っ た り、 規 則 の数 が 多 い な どの 問題 も存 在 す る。 例 え ば肯 定 文 と疑 問 文 は 意 味 的 に 関 連 が あ りなが ら、 文 法 的 に独 立 な規 則 で処 理 され る こ とに な る。 Chomskyは こ う し た 問題 を文 法 の 枠 内 で 扱 う た め に 、変 形 規 則 を使 っ たが これ に つ い て は 問 題 点 も多 い 。 こ うい った 問 題 に対 してChomskyと は 異 な る方 法 を取 っ た の が 単 一 化 文 法 で あ る。 こ れ は 記 号 に 自由 な 数 の 属 性 を持 た せ 、 こ れ らの 間 の 関係 を、 句 構 造 規 則 に付 随 した 単 一 化 操 作 に よ っ て規 定 す る もの で あ る。GPSG,CUG,LFGな どが提 案 され て い るが 、従 来 の文 脈 自 由文 法 の 雰 囲気 を最 も よ く残 して い るの がLFGで あ る と考 え られ る。LFGで は構 文 を表 わ すC構 造 と、 そ れ に付 随 す る属 性 の 構 造 で あ るF構 造 を 区別 し て い る。 最 初 にC構 造 を求 め 、 そ の 後 にF構 造 を 求 め るの で 、 最 初 の 段 階 で従 来 の 文 脈 自由文 法 に関 す る構 文 解 析 の 技 法 を十 分 に 活 用 す る こ とが で き る。 ま た、F構 造 の なか に 意 味 を表 わ す 構 造 を含 ませ る こ とで 、 文 の 意 味 を 自然 な形 で 取 り 出す こ とが で き る。 本 論 文 で は、LFGに 近 い 形 で の 、 単 一 化 文 法 の記 述 を可 能 とす る シ ス テ ム を構 築 す る 。 2.4単 一 化 操 作 と構 文 解 析 の 並 行 動 作 前 節 で 述 べ た よ うに 、LFGで は 先 にC構 造 を構 築 して か らF構 造 を構 築 して い る。 しか し、C 構 造 だ け の 解 析 で は 多 くの 可 能 性 が 残 っ て し ま い、 並 列 な構 文 解 析 法 で は 全 て の 可 能 性 を試 す の で 、 記 憶容 量 と処 理 時 間 を消 費 す る こ とに な る。 理 想 的 に は 意 味 の処 理 を も並 列 に行 な う こ と に よ っ て、 多 くの選 択 肢 を カ ッ トすべ き で あ るが 、 意 味 の処 理 を あ る程 度 は 含 む単 一 化 の 処 理 を、 構 文 解 析 と並 行 して行 な うこ とに よ っ て、 か な りの 選 択 肢 を カ ッ トで き る可 能 性 が あ る。 構 文 解 析 の 操 作 とF構 造 の単 一 化 操 作 を並 行 して 行 な う場 合 、 以 下 の よ うな点 に つ い て 注 意 が 必 要 とな る。F構 造 に つ い て は、 下位 の記 号 に 付 随 す るF構 造 か ら上 位 の 記 号 に付 随 す るF構 造 を構 成 す るの で あ る。 仮 に トップ ダ ウ ン の構 文 解 析 ア ル ゴ リズ ム を使 っ た場 合 、 上 位 の 部 分 木 の F構 造 は下 位 の 部 分 木 に 依 存 して決 定 さ れ る。 しか し、 初 め か ら どの 下位 部 分 木 が 正 し い もの で あ るか は不 明 な の で 、 上 位 の 部 分 木 のF構 造 に つ い て は下 位 の 部 分 木 の 選 択 肢 の各 々 に対 応 して 、 別 々 のF構 造 を保 持 し なけ れ ば な ら な くな る。 これ に対 して 、 ボ トム ア ップ 型 の構 文 解 析 ア ル ゴ リズ ム の 方 が 、 単 一化 処 理 と並 行 し て行 な う の に 適 して い る。 但 し、 単 一 化 の操 作 に よ っ て 下 位 の部 分 木 のF構 造 を変 化 させ て し ま う場 合 に
は 同様 の 問題 を生 じ る。 以 上 の 考 察 に 基 づ き、 本 論 文 で は ボ トム ア ップ 並 列 型 の構 文 解 析 ア ル ゴ リズ ム で あ るCKY法 と、 単 一 化 操 作 に よ っ て 下 位 のF構 造 を変 化 させ な い よ うな 性 質 を持 つ 単 一 化 文 法 と を組 み 合 わ せ 、 構 文 解 析 と単 一 化 の 操 作 を 同 時 に並 行 して行 な う方 法 を提 案 す る。 また併 せ て、 分 か ち書 き の 問題 を も同 時 に解 決 す る。 3.リ ス ト処 理 の た め の デ ー タ構 造 自然 言 語 を始 め とす る、 人 工 知 能 上 の 記 号 を主体 とす る処 理 にお い て は 、 一 般 に リス ト構 造 を 多用 す る。 こ の デ ー タ構 造 を どの よ うな もの に す るか とい う こ とは そ の表 記 法 とあ い ま って 、 単 に処 理 の 仕 方 に影 響 を与 え る とい うだ け で は な く、 もの の考 え方 に も影 響 を与 え る一 つ の 文 化 の よ う な もの で あ る。 これ は プ ロ グ ラム の 構 築 に 大 きな影 響 を与 え、 最 終 的 に実 現 性 や 効 率 を左 右 す る もの で あ る 。 これ ま で はLISP言 語 の 影響 が 大 き く、 同様 の デー タ構 造 を使 う こ とが 多 い。 し か し本 論 文 で は 、 や や 異 な るデ ー タ構 造 を採 用 して お り、 その 表 記 法 と と も に予 め 記 述 して お く。 3.1LISPの デ ー タ 構 造 LISPに お い て は 以 下 の よ う な 二 つ の 要 素 か ら な る セ ル を ビ ル デ ィ ン グ ブ ロ ッ ク と し て 使 っ て い る 。 car cdr 左 側 の 部 分 はcar(カ ー)と 呼 び 、 右 側 の 部 分 はcdr(ク ダ ー)と 呼 ぶ 。 一 般 にcar及 びcdrに は 他 の セ ル へ の ポ イ ン タ を 入 れ る 。 例 え ば 次 の よ う な リ ス ト表 記 が あ っ た 場 合 、 (AIBI(Cl)D2) こ れ は 、 セ ル を ポ イ ン タ で 繋 ぎ あ わ せ て 次 の よ う な 構 造 を意 味 す る も の で あ る 。 但 し、 こ こ で セ ル のcar部 分 に"A1"等 の 文 字 列 が 直 接 書 い て あ るの は、 表 記 の 便 法 で あ り、 実 際 に は この よ うな文 字 列 ま た は 直接 数 値 が お い て あ る記 憶 エ リア へ の ポ イ ン タが 置 か れ る。 この よ うな文 字 列 や 直 接 数 値 の 事 をア トム とい っ て そ の ため の 記 憶エ リア に ま とめ て 置 か れ る。処 理 系 は そ の ポ イ ン タ が この エ リア を指 して い る こ とに よ っ て ア トム で あ る と判 断 す る。 こ の よ う にLISPに お い て は具 体 的 な デ ー タ構 造 と、そ の 表 記 方 法 が 整 って い る た め、同様 の デ ィ シ ップ リン が コ ン ピ ュー タサ イエ ン ス の 中 で も広 く使 われ 一 つ の文 化 を形 作 っ て い る。 3.2本 論 文 で 採 用 す るデ ー タ構 造 最 近 で は こ れ ま でLISPやprolog等 の い わ ゆ る人 工 知 能 用 の 言 語 で書 か れ た プ ロ グ ラ ム を、C言 語 やC++言 語 等 で書 き替 え る こ と もよ くあ る模 様 で あ る。LISPやprologで は、 リス ト構 造 に関 す る処 理 が 容 易 に 書 け た り、 あ る い はバ ッ ク トラ ッ ク等 の 処 理 が表 現 出 来 る とい う利 点 が あ る。 し か し処 理 系 自体 が 大 きか っ た り、 処 理 速 度 が 遅 い 等 の 問 題 点 も指 摘 され て い る。 さ ら に大 き い プ ロ グ ラ ム を 書 く際 に全 体 を モ ジ ュー ル化 して 見 通 しの よ い プ ロ グ ラム とす る た め の 工 夫 な ど につ
いて は、 これ ま で の 人 工 知 能 用 言語 は 必 ず し も優 れ て い る とは い い 難 い。 本 論 文 で は、 自然 言 語処 理 に要 求 され る機 能 が 多種 で あ り、研 究 の 発 展 段 階や 応 用 の 対 象 に 応 じて 種 々 の 変 更 が要 求 され る こ と、 ま た速 度 や プ ロ グ ラ ム の コ ンパ ク ト性 等 を も考 慮 して 、 オ ブ ジ ェ ク ト指 向 言 語 で あ るC++を 使 って の 実 現 を想定 し て い る。 その た め に は 、必 ず し もこ れ まで 一 般 的 で あ っ たLISPの 習 慣 に 捉 わ れ る 必要 は な い。 こ こで は と くに辞 書 構 造 やF一 構 造 を表 現 す るた め に、C及 びC++上 で リス ト構 造 を実 現 す る た め の セ ル と、 それ に よ る リス ト構 造 の 表 記 方 法 を提 案 す る。 具 体 的 な セ ル と して 次 の よ うなC言 語 に 於 け る構 造体 を用 い る。 structdcell{intdd;structdcell*other,*next;}; そ して こ れ は 次 の よ うな セ ル と して描 くもの とす る。 この よ うに 、dcelIに お い て は具 体 的 な値 を入 れ る部 分 と ポ イ ン タ を入 れ る部 分 をは っ き り区 別 して い る。 これ に よ り、LISPデ ィ シ プ リンに お い て ア トム か ど うか の 判 別 が 必 要 で あ っ た 点 を簡 略 化 して い る。 次 に 述 べ て お く必 要 が あ るの は 、 ア トム の 表 現 で あ る。 実 際 の処 理 に お い て は い ろ い ろ な文 字 列 が 出 現 す る。 具体 的 に は各 種 の 非 終 端 記 号 や 、F一 構 造 の 素 性 標 識 や 素 性 値 で あ る。 こ れ らの 文 字 列 は そ の文 字 列 そ の もの が 問 題 な の で は な く、 互 い に 識 別 や 同定 が 可 能 で あ れ ば 良 い の で あ る。 そ こ で 本 論 文 で は これ らの文 字 列 を一 つ の整 数 に置 き換 え、 これ をdcel1のdd部 分 に 格 納 す る 方 法 を と る。 こ れ に よ っ て、 互 い の 識 別 同定 を、 単 な る整 数 値 の 比較 に よ っ て行 な う。 図3. trie構 造 のdcellに よ る 構 成
3.3辞 書 の デ ー タ構 造 形 態 素 解 析 の 段 階 で は 、 辞 書 を頻 繁 に ア クセ ス す る こ とに な る。 と くに、 あ る文 字 か ら探 索 を 開 始 して 引 き続 く文 字 を辞 書 の 上 で 辿 っ て行 くよ うな 操 作 を可 能 とす る必 要 が あ る。例 え ば 「あ い う え お 」 とい う文 字 列 が あ り、 こ の 「あ 」か ら 開始 す る単 語 を辞 書 の上 で 探 して行 く。 「あ 」が 辞 書 に載 っ て い れ ば、 そ の 単 語 を候 補 単 語 と して 返 す 。 次 に 「あ い 」 が 載 っ て い れ ば それ を候 補 単 語 と して 返 す … … とい う よ うな操 作 が 必要 で あ る。 こ の よ うな 操 作 に便 利 な の が トラ イ(trie)と 呼 ば れ るデ ー タ構 造 で あ る。 例 え ば次 の よ う な一 群 の 言 葉 が 辞 書 に登 録 され て い る な らば 「あ き、 あ い 、 あ き る、 あ さ、 あか 、 あ か ね 、 あ か ね い ろ」 これ を表 現 す る トラ イ構 造 は 、 上 記 のdcellを 使 っ て 図3.1の よ うに 表 現 さ れ る。 こ こ で 匚≡≡:]はNULLポ イ ン タ を表 わ し、 何 も指 し示 され ない こ とを 意 味 す るの はLISPの 場 合 と同様 で あ る。 ま た 、 「あ」等 の 文 字 は これ に対 応 す る整 数 値 を意 味 す る。 つ ま り、 引 き続 く文 字 に対 して はnextポ イ ン タで繋 ぎ、他 の 選 択 肢 に つ い て はotherポ イ ン タで 繋 ぐ。-1は そ こ で終 了 す る単 語 が 存 在 す る こ とを示 し、 実 際 は この 後 に 品 詞 やF構 造 が繋 が れ る。 こ の よ う なtrie構造 が使 え るの は、単 語 の 数 が 比 較 的 小 さい 間 の み で あ る。登 録 単 語 数 が大 き く な っ た場 合 は、 こ れ を索 引 フ ァ イ ル 等 で 置 き換 え る必 要 が あ る。 その よ うな デ ー タ構 造 の 置 き換 え は 、 辞 書 を一 つ の オ ブ ジ ェ ク トと して 構 成 して お け ば、 他 の 部分 に影 響 が 及 ば な い た め 比較 的 容 易 で あ る。 3.4F一 リ ス トの デ ー タ 構 造 と 表 記 LFGに お い て は 、 各 非 終 端 記 号 が 持 つ 属 性 をF一 構 造 に よ っ て 表 現 し て い る 。F一 構 造 は い く つ か の 素 性 標 識 と素 性 値 の 対 の 集 合 で あ る 。 そ し て 素 性 標 識 の 種 類 と、 各 標 識 に つ い て 取 り得 る 素 性 値 の 種 類 が 定 ま っ て い る。 し か し 本 論 文 で は 、 も っ と素 性 標 識 や 素 性 値 に 自 由 度 を 持 た せ 、 さ ら に そ の 対 の 並 ぶ 順 序 に も、 時 に は 意 味 を 持 た せ た い 。 そ こ で 本 論 文 で はF一 リ ス ト と 呼 ぶ デ ー タ 構 造 を 用 い る 。 F一 リ ス トは 、 標 識 と値 の 対 か ら な る 列 で あ る 。 空 列 の こ と も あ る 。 標 識 と し て は 任 意 の 、 文 字 列 を 許 す 。 値 と し て は ア トム の 場 合 とF一 リ ス トの 場 合 が あ る 。F一 構 造 の よ う に 素 性 値 に よ っ て 取 り得 る値 が 制 限 さ れ る こ と は な い 。 F一 リ ス トは 表 示 す る と き左 側 の 角 括 弧'['で 始 ま り、 右 の 角 括 弧']'で 終 わ る 。 但 し、'['と']' は 別 の 行 の 同 じ カ ラ ム 位 置 に 表 示 し 、 そ の 内 容 は こ れ ら よ り右 側 に 表 示 す る 。 各 標 識 の 値 は 、 ア トム かF一 リ ス トか 、 ま た は 空 で あ る こ と を許 す 。 値 の 終 わ りに は 、 そ れ が 、 空 で あ っ て も ア トム で あ っ て も 、F一 リ ス トで あ っ て も そ の 後 に';'セ ミ コ ロ ン を 置 く。 ま た 、 こ の F一 リ ス ト をdcellで 表 わ す 時 は 、 ア トム の 前 に 一1をdd部 の 値 とす る セ ル を 置 い て 表 わ す 。 例 え ば 次 の よ う なF一 リス トは [Al[Blc; B2[BBbl; ]; ]; A2B2; D1[Eleee; E2; 〉 〉 ];
dcel1を 使 っ て 図3.2の よ う な デ ー タ 構 造 を表 わ す 。 図3.2F-1丿 ス トの デ ー タ 構 造 こ こ で"A1"等 の 文 字 列 は 、 こ れ に 対 応 す る 整 数 が こ こ に 入 っ て い る こ と を 意 味 す る 。 3.5記 憶 管 理 一 般 に リス ト処 理 に お い て は、 メ モ リの 管理 が 問題 とな る。 新 しい セ ル を造 り出 す た め に 、 未 使 用 記IBエ リア か ら一 定 の大 き さの エ リア を割 り付 け るの で あ る。 問題 は 一 方 で新 しい セ ル が 必 要 とな るの に対 して 、他 方 で は 不 要 とな るセ ル が 生 ず る事 で あ る。LISPで は新 しい セ ル が 必要 と な っ て 、 未 使 用 エ リアが 無 い と きに は、 ガベ ー ジ コ レ ク シ ョン(ご み 集 め)と 呼 ぶ 操 作 を行 な う。 こ れ は 現 在 使 用 中の リス ト構 造 に 組 み 込 まれ て い る セ ル に 何 らか の 印 をつ け て い って 、 最 後 に 印 のつ い て い な い セ ル を未 使 用 セ ル と して登 録 す る方 法 で あ る。 しか し ご み集 め は時 間が 掛 か り、 処 理 を途 中 で 中 断 して 行 な うの で 、 で きれ ば 避 け た い 方 法 で あ る。 これ を避 け る ため に は 、新 し く リス トを造 る と きに は、 こ れ まで の リス トの 一 部 を流 用 せ ず 必 ず新 し くセ ル を使 っ て造 りな お す 方 法 が あ る。 こ うす れ ば不 要 に な っ た リス トに 含 まれ るセ ル を全 て 不 要 の もの と して 未使 用 リス トに戻 す こ とが で き る。 しか し これ で は余 分 な 記1意容 量 を 必 要 とす る し、 内容 を コ ピー す る ため の 時 間 も必 要 とす る。 そ こで 以 下 の よ う な方 法 が 現 実 的 な妥 協 案 と して考 え られ る。 つ ま り、 処 理 の 途 中 で は従 来 と 同 じ よ う に、 他 の リス トの一 部 で あ っ て も新 し い リス トに 組 み込 む事 を許 す 。 しか し あ る ま とま っ た処 理 が 終 わ って 、 最 終 結 果 を造 る と きに は未 使 用 セ ル の ブ ロ ッ ク を切 り替 え て 、 新 し く内 容 を コ ピー し直 す の で あ る。 こ うす る こ とで 、 これ まで使 っ て い た セ ル が あ る一 定 の ア ドレス 範 囲 に納 ま って い れ ば 、 こ こ は 改 め て 新 しい 未使 用 エ リア と して使 え る こ とに な るの で あ る 。 と くに LISP等 の よ うに ごみ 集 め の機 能 が シ ス テ ム に 組 み 込 ま れ て い な い 、CやC++等 の 言 語 を使 っ て シ ス テ ム を構 築 す る と きに は 有効 で あ る。 4.形 態 素 解 析 と構 文解 析 の融 合 先 述 し た よ う に、 分 か ち 書 き を行 な わ な い 日本 語 に お い て は 、 入 力 文 を単 語 に 分 解 す るや り方 が 複 数 存 在 す る。 そ の た め 、従 来 い くつ か の 発 見 法 を使 っ て、 出 来 る だ け少 な い 数 の 切 り方 を候 補 と して 挙 げ 、 それ らを一 つ 一 つ 構 文 解 析 す る方 法 が と られ た 。 しか しな が ら、 本 論 文 で は い ろ い ろ な 応 用 を想 定 して お り、 と くに対 象 領 域 を 限定 し た、 疑 似 日本 語 等 の処 理 も考 え る必 要 が あ
る。 そ う した場 合 、 必 ず し も従 来 の 発 見 法 に 基 づ く切 り方 が 有 効 とは 限 らな い 。 む しろ そ の 疑似 日本 語 に対 応 した 発 見 法 を見 つ け な け れ ば な らず 、 現 実 的 で は な い 。 この 問題 を解 決 す る方 法 と し て、 本 論 文 で は可 能 な 単 語 の候 補 を全 て 三 角 行 列 に登 録 し、 構 文 解 析 の 段 階 で ボ トム ア ッ プ で しか も全 て の 可 能 性 を並 列 に 追 究 し て行 くア ル ゴ リ ズ ム で あ る CKY法 を適 用 す る方 法 を提 案 す る。こ れ まで に採 用 され た切 り方 の 発 見 法 も本 来 構 文 上 許 され る 接 続 関 係 だ け を取 り出す 方 法 と考 え る事 が で き る。 そ れ は文 法 に よ る制 約 に優 先 す る もの で は な く、 文 法 に よ って 制 約 され る もの で あ る。 し たが って 、 本 論 文 で提 案 す る方 法 を使 え ば、 辞 書 に 載 っ て い る単 語 の 範 囲 な らば 、 改 め て 入 力 文 を単 語 に分 解 す るた め の 発 見 法 を考 え る余 地 は 無 い 。 4.2形 態 素 解 析 本 論 文 で は 、 形 態 素 解 析 は 辞 書 引 き を行 な う こ と で 実 現 す る 。 つ ま り、 辞 書 内 部 で ど の よ う な 処 理 を 行 な う か に 関 わ ら ず 、 あ る 文 字 の 綴 りが 辞 書 に 載 っ て い る か ど うか を 、 辞 書 に 問 い 合 わ せ る こ と で 、 形 態 素 解 析 を行 な う。 こ の よ う な 機 能 を持 っ た 辞 書 を 、 一 つ の オ ブ ジ ェ ク ト"jisho"と して 構 成 し 、 辞 書 引 き は 、 こ の オ ブ ジ ェ ク トの メ ソ ッ ドを 呼 び 出 す 事 で 行 な う 。 C++で は 、各 オ ブ ジ ェ ク トの ク ラ ス に 対 し て 必 ず コ ン ス ト ラ ク タ ー と呼 ば れ る メ ソ ッ ドが 存 在 し、 新 し い イ ン ス タ ン ス(そ の ク ラ ス の 具 体 的 な オ ブ ジ ェ ク ト)が 造 ら れ た と き に 必 ず こ れ が 実 行 さ れ る 。jishoオ ブ ジ ェ ク トの 場 合 は 、 コ ン ス ト ラ ク タ ー の 中 で 辞 書 デ ー タ を 含 む フ ァ イ ル を 読 み 込 み 、 ト ラ イ 構 造 を構 築 す る も の で あ る 。 重 要 な メ ソ ッ ド と し てinitO,stepO,itemOが 用 意 し て あ る 。initOは 引 き数 を と ら ず 関 数 値 も 返 さ な い 。 あ る 文 字 か ら 、 短 い 順 に 辞 書 引 き を 行 な う前 に 一 回 だ け 実 行 す る こ と に よ っ て 、 オ ブ ジ ェ ク ト内 部 の ポ イ ン タ を トラ イ 構 造 の ル ー ト を 指 す よ う に す る もの で あ る。stepOは 一 つ の 漢 字 の コー ド を 表 わ す 整 数 を 引 き 数 と し て 、 トラ イ を 一 文 字 分 辿 る も の で あ る 。 も し こ の 一 文 字 が 辿 れ な け れ ば0を 返 し 、こ こ で 終 わ る 文 字 が あ れ ば 一1を 返 す 。そ れ 以 外 は1を 返 す も の で あ る 。item() は 辞 書 に 登 録 さ れ た 単 語 に 関 す る 記 載 項 目 を一 つ ず つ 取 り出 す もの で あ る。 具 体 的 に は 記 載 項 目 を 表 わ すF一 リ ス トへ の ポ イ ン タ を 返 す 。 こ れ ら の 機 能 を使 っ て 辞 書 引 き を行 な う手 順 は 以 下 の 様 に な る 。 使 う変 数: intstr[];解 析 す べ き 入 力 文 を 入 れ た 配 列 。 配 列 要 素 に は 一 つ の 文 字 の コー ドが 入 る 。 文 の 終 わ りは0で 示 す 。 inti,j;配 列strの 要 素 を 指 す 添 え 字 。 ints;関 数stepの 関 数 値 を 入 れ る 変 数 。 手 順: ①i=o;と し て 先 頭 の 文 字 を 指 す 。 ②str[i]が0で あ れ ば ⑩ に 行 く。 ③initO;を 実 行 す る 。 ④j=i;と す る 。 ⑤str[j]が0で あ れ ば 、1=1+1;を 行 な っ て ② に 行 く。 ⑥s=step(str匚j]);現 在 見 て い る文 字 を 引 き数 と し てstepを 呼 び 出 す 。 ⑦ も しs==0な ら ば 、 こ れ 以 上 長 い 文 字 列 は 登 録 さ れ て い な い の で 、 i=i+1;を 行 な っ て ② に 行 く。 ⑧ も しs==-1な ら ば 、str[i]か らstr[j]ま で の 文 字 列 が 辞 書 に 登 録 し て あ る の で 、 必 要 な 処 置 を す る 。
⑨j=j+1;を 行 な っ て ⑤ に 行 く。 ⑩ 手 続 き を 終 了 す る 。 例 え ば 、 辞 書 に 「あ る 、 は れ 、 は れ た 、 ひ 」 と い う 単 語 だ け が 登 録 さ れ て い る と す る 。 こ の と き 「あ る は れ た ひ 」 と い う 入 力 文 に つ い て は 次 の 様 に 辞 書 引 き を す る 。 ま ずinitOを 実 行 し 、 次 にstep(あ)を 行 な う(実 際 に は 「あ 」 と い う文 字 の コ ー ドを 整 数 型 の 変 数 に 入 れ て 呼 ぶ)。 結 果 は1が 返 っ て く る 。 次 にstep(る)を 行 な う が 、 こ れ は 辞 書 に 載 っ て い る の で 一1が 返 っ て く る。 そ し てstep(は)を 行 な う と0が 返 っ て く る の で 、 こ れ 以 上 長 い 文 字 列 の 辞 書 引 き を 停 止 す る 。 ま たinitOを 実 行 し て 、step(る)を 実 行 す る と0が 返 っ て く る 。
initOを 実 行 し て 、step(は)を 実 行 す る と1が 返 っ て く る 。 次 にstep(れ)を 実 行 す る と 一1が返 っ て く る 。 さ ら にstep(た)を 実 行 す る と 一1が返 っ て く る 。step(ひ)は0が 返 っ て く る 。 initOを 実 行 し 、step(れ)を 実 行 し て0が 返 る 。 initOを 実 行 し 、step(た)は0を 返 す 。 initOを 実 行 し て 、step(ひ)は 一1を返 す 。 こ の よ う に し てstepOが 一1を返 し た と き は 、itemOを 使 っ て 記 載 項 目 を 取 り 出 す 。 4.3三 角 行 列 とCKY法 これ ま で のCKY法 で は、文 が 含 む 単 語 の数 をWと して 、W×Wの 三角 行 列 を使 用 し た。例 えば 「わ た し は こ こに い る」 とい う文 が 厂わ た し は こ こ に い る」 と区 切 られ て それ ぞ れ の 品 詞 がN,J,N,J,Vで あれ ば 、 図4.1の よ う な三 角 行 列 の 一 番 下 の行 に そ の非 終 端 記 号 を登 録 す る こ とか ら 開 始 して い た。 図4. 従 来 のCKY法 で の 三 角 行 列 これ に 対 して 、 本 論 文 で は 入 力 文 か ら見 い だ す こ との 出 来 る、 可 能 な単 語 の候 補 を全 て 三 角 行 列 に登 録 す る 方 法 を とる。CKY法 で は、三 角 行 列 上 の位 置 は、 そ こに 登 録 され た非 終 端 記 号 の 支 配 す る範 囲 を 表 わ して い る。 三 角 行 列 を配 列tt[][]で 表 わ す もの と して 、tt[i][j]に 登 録 さ れ た非 終 端 記 号 はtt[i][0]か らtt[i+j][0]ま で の範 囲 を支 配 す る(但 し配 列 の 添 え 字 は0か ら始 ま る も の とす る)。逆 に 言 え ば こ の 非 終 端 記 号 か ら、こ の部 分 を導 出す る こ とが 出来 るの で あ る。 三 角 行 列 を図 示 す る と きは 、 図4.2の 様 にiを 横 方 向、jを 縦 方 向 に変 化 させ る。
tt [o] [4]
tt [o] [3] tt [1] [3]
tt [o] [2] tt [1] [2] tt [2] [2]
tt [off[1] tt [1] [1] tt [2] [1] tt [3] [1]
tt [off[o] tt [1] [o] tt [2] [o] tt [3] [off tt [4] [off
図4.2サ イ ズ5の 三 角 行 列 と要 素 つ ま り三 角 行 列 上 の 高 さが 、 そ の支 配 す る範 囲 の 広 さ を表 わ す の で あ る。 そ こ で本 論 文 で は こ の 高 さ が、 支 配 す る文 字 列 の 長 さ を表 わ す もの と考 え る。 したが っ て 入 力 文 に含 まれ る文 字 数 が 三 角 行 列 の サ イ ズ を決 定 す る。 例 と して 文 「あ な た は こ こ に い る」 とい う文 を考 え る。 但 し、 辞 書 に は 次 の よ うな 単 語 が 登 録 され て い る も の とす る。 N-〉 あ な,N-〉 あ な た,N-〉 な た,J-〉 は,N-〉 は こ,DN-〉 こ こ,」 一〉 に,N-〉 い,V-〉 い る こ の文 は9個 の文 字 を含 む の で 、 サ イ ズが9の 三 角 行 列 を使 用 し、 上 記 の単 語 を登 録 す る と図 4.3の よ う に な る。 一 N N N N DN V J J
i
あ な た は こ こ に い る 図4.3三 角 行 列 へ の 登 録 一 般 的 に は 、 一 つ の 行 列 要 素 に複 数 の 非 終 端 記 号 が登 録 され る こ とが あ る。 そ して登 録 と同 時 に 、 シ ン グル ルー ル に 関 す る処 理 を行 な うこ とは 従 来 のCKY法 と同 じで あ る。 4.4単 一 化 規 則 を付 け加 えた 句構 造 規 則 CKY法 で は、 文 法 が シ ン グ ル ル ー ル か ま た は ダ ブ ル ル ー ル の い ず れ か で あ る こ と を前 提 とす る。 句 構 造 規 則 の右 辺 に丁 度 一 つ の 非 終 端 記 号 を持 つ もの が シ ン グ ル ル ー ル で あ り、2つ あ るの が ダ ブ ル ル ー ル で あ る。 どの よ う な文 脈 自由文 法 もこ の よ うな形 に変 形 で き る こ とは よ く知 られ た事 実 で あ る。 本 論 文 で は 、 こ う した書 き替 え規 則 に、 単 一 化 規 則 を付 け 加 え た もの を フ ァ イ ル か ら読 み 込 み 、 F一 リス トの 形 で貯 え る オ ブ ジ ェ ク トbunpouを 用 意 して い'る。 具 体 的 な 句 構 造 規 則 は例 え ば 次 の よ う に書 い て 、 フ ァ イル と して用 意 す る。1)S->NPVP
[Xl=X3;
X1.SUBJ=X2
];
2)NP->N
[X1=X2;
].
図4.4単 一 化 規 則 を 付 け 加 え た 句 構 造 規 則 の 例 こ の よ う に、 句構 造 規 則 の あ とに[]で 括 っ て い くつ か の 単 一 化 規 則 を書 く。 こ こ でX1,X2, X3は それ ぞ れ 左 辺 、 右 辺 の 左 側 、 右 辺 の 右 側 の 記号 のF一 リス トを意 味 す る。 単 一 化 規 則 と して は 、 現 在 の と こ ろ以 上 の よ う な等 式 の み をサ ポー トして い るが 、 将 来 必 要 に 応 じて機 能 を拡 張 す る予 定 で あ る。 等 式 の左 辺 に は 以上 の よ うなXnま た は、Xnの あ とに ドッ ト'.'でい くつ か の 文 字 列 を繋 い だ もの を許 す 。右 辺 に は左 辺 と同様 の もの が書 け る他 、一 つ の文 字 列 ま た は 二 つ 以 上 の 文 字 列 を'.'で繋 い だ も のが 書 け る。 単 一 化 の 操 作 は 、基 本 的 にX2やX3のF一 リス トを変 更 しな い 。左 辺 がX1で あ る とき は 、右 辺 の 情 報 を元 に して、X1の 構 造 に付 け 加 え て行 くこ とに な る。X2やX3の 内容 を変 えな い の で 基 本 的 に 内容 を コ ピー す る。 X2,X3や 等 式 の 右 辺 で指 定 され た標 識 が 無 い と きは 、単 一 化 は 成 功 しな い。しか し左 辺 に現 れ たX1に つ い て は、 指 定 され た 標 識 を造 って 行 く。 ま た 同 じ標 識 が 異 な る値 を持 っ て い る場 合 も単 一 化 は成 功 し な い。 一 方 の値 が 空 に な っ て い て 、 他 方 が 値 を持 っ て い る と き は成 功 す る。 4.5CKY法 と単 一 化 の 並 行 処 理 CKY法 の ア ル ゴ リズ ム は よ く知 られ て い るの で、 こ こ で は述 べ な い。 た だ 、本 論 文 で は構 文 解 析 を して行 くの と同 時 に 単 一 化 の処 理 を行 な い 、 ま た 同 時 に 木 の 構 造 を構 成 して 行 く。 そ の た め の デ ー タ構 造 と して次 の よ うなtcellを用 い て い る。 structtcell{structdcell*dp;intsw; structtcell*next,*left,*right; }; 一 つ のtcellが 丁 度 一 つ の 非 終 端 記 号 に 対 応 す る。 一 つ の 三 角 行 列 要 素 に い くつ か のtcellを 入 れ る の で 、 こ れ ら を 線 形 リス ト と し て つ な ぐ の に ポ イ ン タnextを 使 う 。 同 様 に ポ イ ン タleftとright は 、 木 の 構 造 で そ れ ぞ れ 左 側 と右 側 の 子 を 指 す の に 使 う。 非 終 端 記 号 そ の も の や 、 そ れ に 付 随 す るF一 リス ト構 造 な ど は 、dcel1を 使 っ て 構 成 し た リ ス ト構 造 で 表 わ し、 そ れ をtcel1のdpに つ な ぐ。 し た が っ て 三 角 行 列 は 、 次 の よ う に 大 きめ の 配 列 と し て 用 意 さ れ る 。 structtcell*tt[100][100];5.単 一 化 文 法 と意 味 解 析 単 一 化 文 法 に お い て は 、文 脈 自 由文 法 の 各 記 号 に い ろ い ろ な属 性 を持 たせ るの で あ るが 、 この 中 に 意 味 に 関す る情 報 を含 ませ る事 が で き る。 本 章 で は具 体 的 な例 に よ って 、 入 力 文 か ら意 味 を どの よ うに して 取 り出 す こ とが で き るか を示 す 。例 と して 、生 物 に 関 す るisa関 係 を定 義 す る文 と、逆 に そ れ を質 問 す る文 を許 す 質 問 応 答 シス テ ム を示 す 。 5.1対 象 領 域 こ こ で は 図5.1に 示 す 範 囲 のisa関 係 を入 力 文 に よ って 作 り上 げ 、ま た質 問 す る シ ス テ ム を想 定 す る。 生 物
∴
動 物△
哺乳類 爬 虫類△/\
\
犬 猫 蛇 鰐 亀 栗 柿 植物へ
木
草
八1\
花 雑草 図5.生 物 に 関 す るisa関 係 そ して例 え ば 「犬 は 哺 乳 類 で あ る」 とい う断 定 文 や 「栗 は 植 物 です か 」 とい う よ う な疑 問 文 を 許 す こ とに す る。断 定 文 は 直 接 的 なisa関 係 を表 わす もの と解 釈 し、そ れ ま で にisa関 係 の 無 か っ た とこ ろにisa関 係 を 設 定 す る。但 し、既 に 同 じisa関 係 が 設 定 され て い る場 合 は そ れ に 対 して 確 認 の 言 葉 を表 示 し、 既 に 異 な るisa関 係 が 設 定 さ れ て い る場 合 は エ ラー メ ッセ ー ジ を 出す 。 疑 問文 の 場 合 は 直 接 的 なisa関 係 だ け で な く、間接 的 なisa関 係 に対 して も、成 り立 つ か ど うか を 判 断 して 「は い 」 ま た は 「い い え」 で応 答 す る。 以 上 の よ うな 応 答 を させ るた め に、 一 つ の 小 さ な世 界 を設 定 し、 そ の 中 に 存在 す る もの を一 つ の 線 形 リス トに 接 続 す る もの とす る。 こ の世 界 に は 、 最 初 か ら図5.1に 現 れ る もの は存 在 す る が 、そ の 間 のisa関 係 が 定 義 され て い な い もの とす る。一 つ の もの は そ の 名 前 と、isa関係 の上 位 の もの へ の ポ イ ン タ に よ っ て 表 現 され る。 こ う い っ た リス ト構 造 は 、先 に 定義 し たdcellに よ って 簡 単 に実 現 で き る。 つ ま りこ の世 界 に 存 在 す る もの を全 て 接 続 す る ため にnextポ イ ン タ を使 用 し、isa関 係 を表 わ す の にothert:イ ン タ を 使 う。 もの の 名 前 は整 数 値 に変 換 してdd部 分 に格 納 す る。 5.2文 法 と 辞 書 項 目 こ こ で は 、 あ く ま で 単 一 化 文 法 の 処 理 か ら 、 意 味 を 取 り 出 す 過 程 を 描 く こ と を 目 的 と し て い る の で 、 各 々 の 細 か い 属 性 は 無 視 す る こ と に す る 。 ま た 、 図5.1に 登 場 す る 「も の 」 に つ い て は 、 予 め 辞 書 に 登 録 し て お く も の と す る 。 辞 書 を 図5.2に 、 文 法 を 図5.3に 示 す 。生 物N[SEMseibutu;]; 動 物N[SEMdoubutu;]; 植 物N[SEMshokubutu;]; 哺 乳 類N[SEMhonyuurui;]; 爬 虫 類N[SEMhachuurui;];]; 犬N[SEMinu;]; 猫N[SEMneko;]; 蛇N[SEMhebi;]; 鰐N[SEMwani;]; 亀N[SEMkame;]; 木N[SEMki;]; 草N[SEMkusa;]; 柿N[SEMkaki;]; 栗N[SEMkuri;]; 花N[SEMhana;]; 雑 草N[SEMzassou;]; はJ[SEMha;]; で あ るV[SEM[dantei;OBJ1;OBJ2 ]; ]; で すV[SEM[dantei;OBJ1;OBJ2 ]: ]; で す かV[SEM[gimon;OBJ1;OBJ2 ]: ]. のJ[SEMno;]; 上 位 概 念N[SEM[JouiGainen;SUB; ]; ]; 図5.2F一 リス トを伴 う辞 書 項 目 1)S->NPIVP [X1=X3; X1.OBJ1=X2; ]: 2)NPI->NPJ [X3.SEM=ha; X1=X2; ]; 3)VP->NPV [Xl.SEM=X3.SEM; X1.OBJ2=X2; ]; 4)NP->N [xi=x2; ], 5)NP->NP3N [Xl.SEM=X3.SEM; X1.SUB=X2; ]: 6)NP3->NJ [X3.SEM=no; X1=X2; ]; 図5.3単 一 化 規 則 を 付 加 した 句 構 造 規 則
5.3対 話 以 上 の よ うな辞 書 と文 法 に基 づ い て 、 実 際 に対 話 を行 な っ た 結 果 を示 す 。 最 初 に各 入 力文 に 対 して どの よ うなF一 リス トが 出 力 さ れ るか を示 す 。 例 え ば 「花 は草 で す 」 とい う文 に対 して 、 図5.4の よ うに 、 文 記 号 とそ れ に付 随 す るF一 リ ス トが 出 力 され る。 [S[SEM[dantei; OBJ1; OBJ2; ]; OBJ2[SEMkusa; ]; OBJI[SEMhana; ]; ]; ]; 図5.4「 花 は 草 で す 」 に対 す る 出 力 SEM以 下 の 部 分 は 「OBJ1はOBJ2で あ る こ と を 断定 す る」 とい う意 味 で あ る。 ま た 、 「植 物 は 亀 の 上 位 概 念 で す か 」 とい う文 に対 し て は 図5.5の よ うに 出 力 され る。 [S[SEM[gimon; OBJ1; oBJ2; ]; OBJ2[SEM[JouiGainen; SUB; ]; SUB[SEMkame; ]; ]; OBJ1[SEMshokubutsu; ]; ]; ]; 図5.5「 植 物 は 亀 の 上 位 概 念 で す か 」 に 対 す る 出 力
この 図 に お いて 、SEM以 下 の 部 分 は 「OBJ1はOBJ2で あ るか 」 とい う意 味 で あ る が、OBJ2の SEM部 分 を 見 る こ とでOBJ2が 「亀 の 上 位 概 念 」 を表 わ す こ とが 判 る。 以 上 の よ う な 出力 に対 して 、 これ を 入 力 と して 応 答 す る プ ロ グ ラム を一 つ の オ ブ ジ ェ ク トと し て構 成 す る。 この オ ブ ジ ェ ク トは コン ス トラ ク タ の他 にkaiwaOと い うメ ソ ッ ドを もつ 。こ の メ ソ ッ ドを上 記 のF一 リス トを引 き数 と して 呼 び 出す 。 こ の メ ソ ッ ドは、 断定 文 に 対 して 内部 のisa関 係 を リン ク と して 設定 し、 疑 問 文 に対 して リン ク関係 か ら、 そ の 関 係 が 成 り立 つ か ど うか を判 断 す る。 実 際 の 会 話 の 記録 を図5.6に 示 す 。 以 上 に示 し た よ うに 、 辞 書 と文 法 に よ って 各 入 力 文 に対 す る適 切 なF一 リス トを構 成 せ しめ 、 そ のF一 リス トか ら意 味 を取 り出す プ ロ グ ラ ム を作 成 す るこ とに よ り、 比較 的容 易 に対 話 シス テ ム を構 築 す る こ とが で き る。
1) 入 力文:花 は生 物 ですか 応答 文:そ の関係 は成 り立 ちませ ん 2) 入 力 文:花 は 草 で す 応 答 文:わ か り ま した 3) 入 力文:草 は植物 です 応答 文:わ か りま した 4) 入 力文:植 物 は生物 です 応答 文:わ か りま した 5) 入 力文:木 は植物 です 応答 文:わ か りま した 6) 入 力文:雑 草 は草 です 応答 文:わ か りま した 7) 入 力文:草 は生物 です か 応答 文:そ うです 8) 入 力文:柿 は生物 です か 応答 文:そ の関係 は成 り立 ちませ ん 9) 入 力文:柿 は木 です 応答 文:わ か りま した 10) 入 力文:柿 は植 物 ですか 応答 文:そ うです 11) 入 力文:柿 は生 物 ですか 応答 文:そ うです 12) 入 力文:動 物 は生物 です 応答 文:わ か りま した 14) 入力 文:爬 虫類 は動物 です 応答 文:わ か りま した 15) 入力 文:猫 は哺乳 類 です 応答 文:わ か りま した 16) 入 力 文:犬 は 哺 乳 類 で あ る 応 答 文:わ か りま し た 17) 入 力 文:鰐 は 爬 虫 類 で あ る 応 答 文:わ か り ま し た 18) 入力 文:亀 は爬 虫類 です 応答 文:わ か りま した 19) 入 力文:蛇 は爬 虫類 です 応答 文:わ か りました 20) 入力 文:蛇 は動物 で すか 応答 文:そ うです 21) 入 力文:栗 は生物 ですか 応答 文:そ の関係 は成 り立 ちませ ん 22) 入 力文:栗 は木 です か 応答 文:そ の関係 は成 り立 ちませ ん 23) 入 力 文:栗 は 木 で す 応 答 文:わ か り ま した 24) 入 力文:栗 は生物 ですか 応答 文:そ うです 25) 入 力 文:end 13) 入 力文:哺 乳 類 は動物 です 応答 文:わ か りま した 図5.6 6.言 の 葉 の 表 現 能 力 前 章 に お い て は 意 味 を取 り出 す 過 程 に 主 眼 を置 い て 説 明 した の で 、 そ の他 の 文 法 的 な事 項 は省 略 した 。 しか し 「言 の 葉 」 はLFGに か な り近 い表 現 能 力 を もっ て い る。 本 章 で はLFGと 比 較 す る こ とに よ っ て 、 言 の 葉 の文 法 的 な表 現 能 力 を示 す 。 6.1LFGと の 比 較 LFGで は 例 え ば 図6. 1の よ う な 文 法 規 則 を 書 く こ と が 出 来 る1)。
1)S->NP (↑SUBJ)=↓ 2)VP->V ↑=↓ 3)VP->V VP ↑=↓ (NP) (↑OBJ)=↓ (NP) (TOBJ)=」. 図6. (NP) (↑OBJ2)=↓ (PP) (↑(↓PCASE))=↓ LFGの 文 法規 則 1)に つ い て は 言 の 葉 で も一 つ の 規 則 と して 書 くこ とが で き る。 図6.2の1)が ほ ぼ これ に対 応 す る もの と考 え られ る。 2)に つ い て は 、 右 辺 の 記号 の 数 と省 略 記 号 が あ るの で 、 複 数 の規 則 に 分 け て 書 く必 要 が あ る。 しか しそ れ 以外 は 極 め て容 易 で あ る。 図6.2で は2)∼6)で 表 現 で き る。
1)S->NPVP[Xl.SUBJ=X2;Xl=X3;];
2)VP->V[X1=X2;];
3)VP->VNP[Xl=X2;Xl.OBJ=X3;];
4)VP->VNP[Xl=X2;X1.OBJ2=X3;];
5)VP->VTEMP-[X1=X2;X1.OBJ=X3.OBJ;X1.OBJ2=X3.OBJ2;]
6)TEMP->NPNP[X1.OBJ=X2;Xl.OBJ2=X3;];
図6.2言 の 葉 の 文 法 規 則 図6.1の3)に つ い て は 、右 辺 のPPに つ い た(↑(↓PCASE))=↓ と い う 式 が 問 題 と な る 。 こ れ は 文 献(1)に よ れ ばvarを 変 数 と し て(↑var)=↓ と(↓PCASE)=varの 二 つ の 式 を ま と め た も の と見 な さ れ る 。 現 在 、 言 の 葉 で は こ の よ う な 機 能 を 用 意 し て い な い 。 こ れ は 、 今 後 い ろ い ろ な 使 用 経 験 を 経 て 、 必 要 と あ れ ば 拡 張 し た い 。 ま た 、LFGで は 、 あ る 素 性 値 が あ る 定 数 で あ る こ と を 要 求 す る た め に (TINF)=c十 の よ う に 書 く こ と が 出 来 る 。こ れ は 言 の 葉 で も等 式 の 右 辺 にXn以 外 の 文 字 を 書 く こ と で 指 定 で き る 。 し か し、LFGで は あ る 関 係 が 成 り立 た な い こ と を 要 求 す る た め に コ[(↑SUBJNUM)=SG.and.(↑SUBJpERS)=3] 等 の よ う に 書 く こ と が 出 来 る 。 こ の よ う な 否 定 の 機 能 は い ず れ か な ら ず 必 要 に な る と考 え ら れ る 。 6.2言 の 葉 の 拡 張 前 節 で も述 べ た よ うに 、 言 の葉 で は 、 今 後 拡 張 が 必 要 と考 え られ る機 能 が い くつ か あ る。 実 際 に 簡 単 な対 話 シ ス テ ム を構 築 して 見 て 感 じる こ とは 、F一 リス トを構 築 す る ため の 、 各 種 の 演 算 子 が 欲 しい こ とで あ る。 言 の葉 の 出 力 は 、 意 味 処 理 プ ロ グ ラム に引 き渡 され るが 、 そ の前 に 出 来 る だ け 意 味 を素 直 に 表 わすF一 リス トを構 成 して お きた い。 この こ と と、 前 節 で も触 れ た よ う な、 条 件 を指 定 す る制 御 機 能 を 強化 す る こ とに よ って 、 一 種 の プ ロ グ ラ ミン グ機 能 を、 単 一 化 規 則 に 与 え る必要 が あ る。 今 後 の考 え られ る拡 張 と して 、F標 識 を単 一 化 規 則 に よ って 与 え る 方 法 を考 え る。 例 えば 変 数 と して%1,%2,… … を使 い 、この 変 数 に文 字 列 を代 入 して お き、そ の値 をF標 識 と して使 う こ と が 考 え られ る。 この よ うな機 能 を使 って 、 例 えば 図5.3の 規 則5)を 図6.3の よ うに 書 く と、
「亀 の 上 位 概 念 」 に 対 す るF一 リス トは 図6.4の よ う に な る で あ ろ う 。
5)NP->NP3N
[%1=X3.SEM;
X1.SEM.%1=SUB;
X1.SUB=X2;
J.
図6.3F標 識 を指 定 す る規 則 [SEM[JouiGainen[SUB; ]; ], SUB[SEMkame; 〉 〉 〉 〉 図6.4「 亀 の 上 位 概 念 」 に 対 す るFl丿 ス ト こ の よ う な デー タ構 造 の方 が 、 関 数 関 係 を素 直 に表 わ す 場 合 が あ る。 7.終 わ り に 自然 言語 を コン ピュ ー タ に理 解 させ る試 み は 、 人 工 知 能 の 中 で も最 も重 要 な研 究 分 野 の 一 つ で あ る。 と くに 日本 語 に つ い て も多 くの 研 究 が な され て い るが 、 必 ず し も広 く応 用 され て い る訳 で は な い。 日本 語 の処 理 が 、 もっ と容 易 に しか も確 実 に行 な う こ とが 出 来 れ ば、 そ の 応 用 範 囲 は 非 常 に広 い もの とな るで あ ろ う。 人 間 の 理 解 過 程 そ の もの を研 究 す る立 場 か ら も、 ま た種 々 の ア プ リケー シ ョ ン プ ロ グ ラム に 自然 言 語 に 近 い イ ン ター フ ェ ー ス を与 え る立 場 か ら も、 日本 語 を もっ と手 軽 に 扱 う手 段 が望 まれ て い る。' こ れ まで こ う した 企 図 を 阻 ん で い た の は、 日本 語 の文 字 種 類 が 多 か っ た こ と、分 か ち 書 き を し な い た め 、 形 態 素 解 析 が 困難 で あ る こ と、 そ し て 日本 語 の 文 法 が 必 ず し も コ ン ピュ ー タ処 理 に適 す る形 で整 備 さ れ て い な い こ と等 が 考 え られ る。 と くに 文 法 を整 備 す る事 は、 今 後 の 日本 語 処 理 の発 展 を考 え る上 で極 め て重 要 な 課 題 で あ るが 、 一 朝 一 夕 に解 決 す る問 題 で は な い。 そ の た め に もい ろ い ろ な文 法 を仮 定 して コ ン ピ ュー タに よ る解 析 の 実 験 を繰 り返 す 事 が 必 要 と考 え られ る。 こ れ まで 文 法 の理 論 は、 英 語 や ヨー ロ ッパ の 言 語 を中 心 に発 達 して きた もの で あ り、 そ の 中か ら文 脈 自由 文 法CFGな ど も現 れ た もの で あ る。 そ の た め 、CFGよ りは 格 文 法 の 方 が 日本 語 の 解 析 に は適 して い る と言 う人 もい る。 しか しCFGに つ い て は これ ま で に 膨 大 な量 の研 究 が な され て お り、 と くに そ の構 文 解 析 の方 法 論 は ほぼ 完 成 され た もの な の で、 可 能 な らば これ ら の手 法 を使 う べ きで あ ろ う。 さ ら に最 近 注 目 され つ つ あ る単 一 化 文 法 はCFGの 極 め て 自然 な 拡 張 とな っ て お り、 こ れ に よ っ て 日本 語 の 包 括 的 な文 法 理 論 が 構 築 され る可 能 性 もあ る。 ・ 本 論 文 で は、 単 一 化 文 法 に よ って 記 述 した 文 法 と辞 書 をデ ー タ と し て読 み 込 み 、 構 文 解 析 と単 一 化 の処 理 を並 行 して 行 な う シス テ ム を構 築 す る た め の オ ブ ジ ェ ク トの ク ラス群 「言 の 葉 」 を提 案 した。 言 の葉 で は 、 入 力文 に 含 まれ る複 数 の 候 補 単 語 を全 て三 角 行 列 に登 録 し、 そ れ に 対 して CKY法 を適 用 す る方 法 を採 用 して い る。これ に よ っ て 形 態 素 解 析 の ため の各 種 の 発 見法 の 適 用 を省 略 して い る。 この 方 法 は著 者 が 単 独 で発 見 し た もの で あ るが 、ほ ぼ 同 じ方法 が 文 献(3)に あ る。ただ し文 献(3)で は この 他 に接 続 関 係 の チ ェ ッ ク を行 な っ て い るの に対 して 本 論 文 で は その よ うな チ ェ ッ ク を全 く 行 な わ な い点 が 、 や や 異 な る点 で あ る。 ま た、 ボ トム ア ップ 並 列 な ア ル ゴ リズ ム で あ るCKY法 との組 み合 わせ を考 慮 して、句 構 造 規 則 に付 加 す る単 一 化 規 則 は、 下 位 のF構 造 を変 化 させ な い も の と して い る。 ま た本 論 文 で は 、 極 め て小 さい 文 法 と辞 書 につ い て例 を示 し、 言 の 葉 の 出 力 か ら意 味 を取 り出 す こ とが 比 較 的容 易 で あ る こ と を も示 した 。 言 の 葉 で は 未知 語 の 処 理 を未 だ 組 み 込 ん で い な い 。従 っ て、 辞 書 に 記 載 され て い な い単 語 に っ い て は、 何 らか の 発 見 法 を適 用 して 切 れ 目や 品詞 を推 定 す る機 構 を今 後 組 み込 む 必 要 が あ る。 ま た 、6.で も述べ た様 に、 単 一 化 規 則 を 記 述 す る 方 法 につ い て も拡 張 して行 く必 要 が あ る。 言 の 葉 は何 か 特 定 の 文 法 を仮 定 し、 そ れ に 基 づ い て 文 を解 析 す る もの で は な い 。 そ う で は な く、 単 一 化 文 法 に よ る一 定 の書 き方 に従 う限 り、 い ろ い ろ な文 法 を 記 述 す る こ とが 出 来 る点 に大 きな 特 徴 が あ る。 言 い 換 え れ ば本 論 文 で は、 い ろ い ろ な文 法 を記 述 す るた め の 、 単 一 化 文 法 に よ る記 述 法 とそ の処 理 系 を提 案 して い るの で あ る。 これ に よ って 、 今 後 各 種 の 文 法 を記 述 す る こ とが 比 較 的 容 易 に行 な え、 そ れ に 基づ いて 各 種 の 対 話 シ ス テム な どを実 験 的 に構 築 す る こ とが で き る。 そ う し た実 験 を通 して 言 の 葉 を改 良 す る と,ともに 、 い ろ い ろ な 意 味 処 理 シ ス テ ム を構 築 す る た め に あ る程 度 共 通 に 使 え る部 分 を オ ブ ジ ェ ク トの ク ラ ス群 と して 見 い だ して行 きた い 。 引 用 文 献 (D野 村 浩 郷:"自 然 言 語 処 理 の 基 礎 技 術",電 子 情 報 通 信 学 会 編(1988) (2)野 口 正 一 監 修,牧 野 武 則 著:"自 然 言 語 処 理",オ ー ム 社(1991) (3)田 中 穂 積:"自 然 言 語 解 析 の 基 礎",産 業 図 書(1989) (4)田 中 穂 積,辻 井Jil頁一 共 編:"自 然 言 語 理 解",オ ー ム 社(1988) (5)BresnanJ.,ed.:"TheMentalRepresentationofGrammaticalRelations".TheMITPress (igs2> (6)チ ョ ム ス キ ー 著 、 安 井 稔 訳:"文 法 理 論 の 諸 相",研 究 社(ig70) (7)黒 川 利 明 監 修,東 条 敏 著:"自 然 言 語 処 理 入 門",近 代 科 学 社(1988) (8)渕 一 博 監 修,古 川 康 一,溝 口 文 雄 共 編:"自 然 言 語 の 基 礎 理 論",共 立 出 版(1986) (9)シ ャ ン ク/リ ー ズ ベ ッ ク 編 石 崎 俊 監 訳:"自 然 言 語 理 解 入 門",総 研 出 版('1.) (10)郡 司 隆 男 著:"自 然 言 語 の 文 法 理 論",産 業 図 書(1987)