• 検索結果がありません。

単一化文法に基づく自然言語解析用オブジェクトクラス群「言の葉」

N/A
N/A
Protected

Academic year: 2021

シェア "単一化文法に基づく自然言語解析用オブジェクトクラス群「言の葉」"

Copied!
19
0
0

読み込み中.... (全文を見る)

全文

(1)

単 一 化 文 法 に基 づ く

自然 言 語 解 析 用 オ ブジ ェク トク ラス群 「言 の 葉 」

松 原 康

"K

otonoha"

a set of object classes for natural

language

analysis

based on unification

grammar.

Yasuo Matsubara

Natural language understanding is one of the most important problems in artificial intelligence. Until now, the research has been done mainly for English statements. Research for Japanese statements also has been done, but it has not become to the level of one for English. Moreover, it seems that grammatical theory of Japanese has not been proposed in a form easy to analyze by computer.

In these days the main interest of research is about meanings of statements. However, it does not mean that the part of analyzing the statement syntactically and taking out the meaning has less importance.

A number of grammars called unification grammar which incorporates a mechanism of unification, have been proposed and indicated to be useful for analysis of syntactical phenomena. It is suggested that unification grammars are easy to analyze by computer and

are useful to take out the meaning. In many applications of the area of artificial intelligence, the man-machine interface has great importance. If one can interact with an application through a language similar to the natural one, it can be used by unskilled people.

In this paper, we propose a set of C+ + classes which can be used to incorporate a language analyzing function into any application program.

When a dictionary and a grammar are given in a fixed manner, these can analyze an statement and output a list similar to F-structure of LFG.

1.は じ め に 自然 言語 を コン ピュ ー タ で処 理 す る研 究 に は大 きい 二 つ の 流 れ が あ る。 一 つ は 異 な る言 語 間 で 翻 訳 す るこ とを 目的 とす る もの で あ り、 も う一 つ は 自然 言 語 で 書 か れ た文 の 意 味 を コ ン ピュー タ に理 解 させ よ う とす る もの で あ る。 これ ら は ほ ぼ 同 じ年 代 に 米 国 で研 究 が 始 ま って い る。 特 に翻 訳 は一 時 そ の 可 能 性 が 否 定 さ れ た こ と も あ っ た が 、 現 在 で は特 定 の 言 語 間や 、 あ る限 定 さ れ た 内 容 につ い て は 一 応 の 成 功 を収 め 、実 用 に 供 さ れ て い る。 自然 言語 理 解 は そ れ 自身 、 人 工 知 能 の 中

(2)

で も最 も重 要 な分 野 の 一 つ で あ り、 い ろ い ろ な分 野 の プ ロ グ ラム で 自然 言 語 、 ま た は そ れ に 近 い 人 工 言語 をマ ン マ シ ン イ ン ター フ ェー ス と して 採 用 す る もの も 多 い。 しか しな が ら、 本 格 的 な 自 然 言語 の 文 章 を コ ン ピ ュー タ に理 解 させ る こ とは 、 極 く限定 され た場 合 を除 い て 成 功 して い な い。 自然 言 語 理 解 の研 究9)は、他 の 人工 知 能 の 研 究 と同様 に 米 国が 主 導権 を握 っ て い る。これ に対 し て、 我 が 国 に於 け る 自然 言 語 理 解 の 研 究 は、 未 だ 米 国 と同 じ水 準 に達 した とは 言 い難 い 。 そ の 原 因 は幾 つ か 考 え られ る。 日本 語 は使 う文 字 の種 類 が 非 常 に 多 い こ と、 分 か ち書 き を行 な わ な い こ とで あ る。 さ らに も う一 つ 重 要 な こ とは、 コ ン ピュ ー タ の処 理 に 向 く よ うな 形 で の 日本 語 文 法 が 整 え られ て い な い事 が 考 え られ る。 これ らの 問題 の うち、 文 字 種 類 が 多 い こ と につ い て は 、 仮 名 漢 字 変 換 や ロー マ 字 漢 字 変 換 の普 及 に よ っ て解 決 され た とい って よ い で あ ろ う。 こ れ は 一 つ に は ハ ー ド的 に 多種 類 の 文 字 が 表 示 で き る よ うに な っ た こ と もあ るが 、 自然 言 語処 理 の 技術 を ソ フ ト に応 用 し た もの と考 え られ る。 一 方 分 か ち書 き を行 な わ な い こ と に よ る 困 難1)2)の克服 は、未 だ解 決 され るべ き問題 点 の 一 つ で あ る。 これ に対 す るい くつ か の ア プ ロー チ は 存在 す るが 、 どれ か 一 つ が 決 め 手 と して は 普 及 して は い な い 。 と こ ろで 、 コン ピュ ー タ で 自然 言 語 文 を解 析 す る ため に は何 らか の文 法 理 論 が 必要 と な る。 こ れ ま で の 多 くの研 究 で は 文 脈 自由 文 法 が 使 わ れ て い る。 しか し こ れ だ け で は 文 法 規 則 の 数 が 大 き くな る こ とや 、 非 常 に 長 い文 等 へ の 対 応 が 難 しい こ とが 指 摘 され て い る。 ま た、 文 脈 自由 文 法 に 基 づ く構 文 解 析 結 果 か ら意 味 を取 り出す 方 法 に つ い て は 必 ず し も整 理 され て い る とは 言 い難 い。 そ して 句構 造 文 法 は 元 来 、 英 語 ま た は そ れ に 近 い 言 語 の解 析 を 目的 と して 発 達 して きた ため 、 日 本 語 の解 析 に は 必 ず し も向 い て い な い可 能 性 が あ る。 こ れ に 対 して近 年 、単 一 化 と呼 ぶ 操 作1)3)4)5)7)8)1°)を行 な う機 構 を組 み 込 ん だ 、単 一 化 文 法(Unifi-cationGrammar)と 呼 ば れ る一 群 の文 法理 論 が 注 目 され つ つ あ る。これ らの 文 法 理 論 は 、Choms-ky等 の変 形 文 法 に対 す る批 判 か らで て き た もの で あ るが 、同 時 に コン ピュ ー タ に よ る処 理 に も適 した文 法理 論 で あ る とい え る。 代 表 的 な もの と して 、GPSG、LFG、CUG等 が あ るが 、 従 来 の文 脈 自由文 法 の雰 囲 気 を良 く残 して い る の はLFGで あ ろ う。LFGで は構 文 を表 わすC構 造 とそ の他 の 属 性 を表 わ すF構 造 に 分 け て考 え て お り、 まず 文 脈 自由 文 法 に基 づ い て 構 文 解 析 を行 な っ てC 構 造 を作 り上 げ た 後 で 、 単 一 化 操 作 に よ っ て 文 全 体 のF構 造 を作 り上 げ る。 こ の た め 、 従 来 良 く 研 究 され て きた構 文 解 析 の技 法 の 利 点 を活 か す 事 が で き る も の で あ る。 そ して、F構 造 の 中 か ら 意 味 を取 り出 す こ と も比 較 的容 易 で あ る。 自然 言 語 、 中 で も 日本 語 に 関 す る処 理 の研 究 は 、 文 法 理 論 の整 備 、 意 味 理 解 の研 究 や 他 の ア プ リケー シ ョン プ ロ グ ラム の マ ンマ シ ン イ ン ター フ ェー ス な ど、 多 方 面 か ら研 究 す る必 要 が あ る。 そ の..、 文 脈 自由 文 法 を 自然 な 形 で拡 張 した と考 え られ る単 一 化 文 法 に 基 づ くこ とが 、 今 後 の極 め て有 力 な方 向 で あ る。 こ れ まで 従 来 の文 脈 自由 文 法 に 基づ い て文 を解 析 す る シス テ ム に 関 して は、 極 め て 多 くの研 究 が な され て い る が 、 単 一 化 文 法 に 基づ い て文 を解 析 す る シス テ ム につ い て は未 だ 限 ら れ た研 究 しか な され て い な い模 様 で あ る。 一 般 に、 自然 言 語 処 理 を行 な うプ ロ グ ラム は か な り大 き い もの に な り、 しか も研 究 の進 展 に 伴 っ て 多 くの 変 更 を行 な う もの と考 え られ る。 この よ うな 場 合 に は オ ブ ジ ェ ク ト指 向 プ ロ グ ラ ミン グ の考 え方 が 有 効 と な る。 特 に他 の プ ロ グ ラム の マ ン マ シ ン イ ン ター フ ェー ス部 と して使 う時 は、 言 語 処 理 部 分 は他 の 部 分 とは独 立 した部 分 と して 動 作 す る こ とに な る。 ま た、 意 味 理 解 シス テ ム に お い て も、 単 一化 文 法 に基 づ く処 理 と、 意 味 に関 す る処 理 とは あ る程 度 独 立 し た もの とな る。 こ れ らの こ と を考 え合 わせ る と、 単 一 化 文 法 に基 づ く文 解 析 シ ス テ ム を、 オ ブ ジ ェ ク ト指 向 プ ロ グ ラ ミン グ 言語 の い くつ か の ク ラ ス の集 合 と して 実 現 す る こ とが望 ま しい こ とに な る。 現 在 、 オ ブ ジ ェ ク ト指 向 言 語 は 多 くの もの が 提 案 さ れ て い る が 、 最 も広 く使 わ れ て い る の が

(3)

C++で あ る。 この 言 語 は これ ま で広 く普 及 して きたC言 語 を拡 張 した もの で あ る。最 近 で は、処 理 系 の 普 及 度 と処 理 速 度 等 の 点 か ら、従 来 はLISPやPROLOG等 の い わ ゆ る人 工 知 能 用 言 語(リ ス ト処 理 言 語)に よ って 書 か れ て い たプ ロ グ ラム を、CやC++等 に 書 き替 え る こ とが 行 な わ れ て い る。 本 論 文 で は、特 に 日本 語 の解 析 を単 一 化 文 法 に基 づ い て行 な う シ ス テ ム を、C++の クラ ス に よ っ て 実 現 した シス テ ム 「言 の葉 」 につ い て述 べ る。 この シ ス テ ム で はLFGと 同様 に、 句 構 造規 則 に 単 一 化 の た め の ル ー ル を付 加 し た もの を文 法 と して 読 み込 み 、 単 語 に 品詞 とい くつ か の属 性 を 付 加 し た もの を辞 書 と して 読 み 込 む。 また構 文 解 析 に は ボ トム ア ップ 並 列 型 の ア ル ゴ リズ ム で あ るCKY法 に 、 候 補 単 語 を すべ て 登 録 す る 方法 を組 み合 わ せ た方 法 を用 い る。 こ の こ とに よ っ て、 分 か ち書 き しな い こ とに よ る問 題 を 克服 して い る。 2.自 然 言 語 処 理 の 流 れ 一 般 に 自然 言 語 の処 理 は、 初 め に形 態素 解 析 を行 な い、 次 に構 文 解 析 、 そ して 意 味 解 析 を行 な う。 さ らに この 後 、 意 味 や 文 脈 に対 応 す る処 理 を行 な い、 今 度 は 逆 に意 味 か ら、 そ れ を表 現 す る 文 を生 成 す る。 但 し本 論 文 で対 象 とす るの は 、 最 初 の 形 態素 解 析 か ら構 文 解 析 、 そ して 意 味解 析 の 入 り口 の と こ ろ ま で で あ る。 もち ろ ん この 後 の処 理 を行 な わ なけ れ ば完 全 な意 味 で の 自然 言 語 処 理 とは い え な い。 しか し こ の部 分 は どの よ うな処 理 で も必 要 とす る共 通 な部 分 で あ る。 この 部 分 につ い て一 般 的 に使 え る ツー ル が 存 在 す る な らば 、 そ の 後 の 意 味 処 理 等 の研 究 を促 進 す る もの とな る。 2.1形 態 素 解 析 形 態 素 解 析 は、 入 力 され た文 を辞 書 上 の 見 出 し語 、 また は その 変 化 した もの に分 解 す る こ とで あ る。 英 語 な ど の よ うに 単 語 毎 に分 か ち書 き され て い る もの に つ い て は 、 各 単 語 毎 に そ の 品 詞 と 変 化 形 を定 め る こ とが 主 な仕 事 とな る。 これ に 対 して 日本 語 の 場 合 は ど こが 単 語 の切 れ 目で あ る か を決 め る こ とが 重 要 な仕 事 の一 つ と な る。こ の と き、形 態 素 解 析 だ け で100%正 しい切 り方 を定 め る こ とは 不 可 能 で あ る。 そ こ で 発 見 法 に よ って い くつ か の 可 能 な切 り方 の リス トを出 力 す る の で あ る。 発 見 法 と して は最 長 一 致 法 や 、 文 字 種 の 変 わ り目 を 目安 にす る も の、 あ るい は分 節 数 最 小 法 な どが あ る。 辞 書 に どの 段 階 の 語 を載 せ るか は 重 要 な決 定 事 項 で あ る。 つ ま り、 基 本 形 と可 能 な 変 化 の 種 類 を載 せ るか 、 ま た は す べ て の変 化 形 を見 出 し語 と して 載 せ るか で あ る。 規 則 的 な変 化 に 対 して は 基 本 形 か ら導 く こ とが 出来 るが 、 不 規 則 な変 化 をす る もの につ い て は全 て の変 化 形 を見 出 し語 と して辞 書 に載 せ る必 要 が あ る。 さ らに 形 態 素 解 析 と して 重要 な仕 事 は、 辞 書 に無 い 語 、 い わ ゆ る未知 語 の処 理 で あ る。 自然 言 語 で使 う語 を予 め す べ て辞 書 に 載 せ て お くこ とは、 対 象 とな るエ リア をか な り限定 し な い 限 り困 難 で あ る。 そ の た め 、 常 に新 し い語 が 現 れ る可 能 性 が 存 在 す る。 そ れ で も正 しい 語 と して 処 理 し な け れ ば な らな い が 、 日本 語 の 場 合 は ど こか ら ど こ まで が 未 知 語 な の か を特 定 す る必 要 が あ る。 こ れ も絶 対 的 な 方 法 は な く、 文 字 種 類 等 を手 掛 か り とす る必 要 が あ る。 2.2構 文解 析 形 態 素 解 析 で 提 案 さ れ た 語 の 列 に対 して 、 あ る文 法 に従 っ て構 文 の 木 を 見 い だ す 。 文 法 と して 文 脈 自由 文 法 を使 う事 が 多 く、Chomskyの 変 形 文 法 等 を用 い る事 も研 究 され た が 一 般 的 で は な い 。 文 脈 自由 文 法 を使 っ た構 文 解 析 は極 め て よ く研 究 さ れ て お り、 種 々 の ア ル ゴ リズ ムが 存 在 す

(4)

る。 これ ら を分 類 す る基 準 の 一 つ は、 トップ ダ ウ ン型 か ボ トム ア ップ 型 か とい う こ とで あ る。 トッ プ ダ ウ ン 型 で は 文 記 号Sか ら開 始 し、 文 の 方 に 向 か って 規 則 を適 用 して行 く。 ボ トム ア ップ 型 で は文 の 方 か ら、 こ れ を生 成 す る規 則 を見 い だ して行 く。 こ れ ら を ミッ クス した もの もあ る。 ま た、 直列 型 か 並 列 型 か の分 類 も あ る。 直列 型 で は可 能 な 一 つ の選 択 肢 を可 能 な 限 り深 く追 究 す る も の で あ り、 行 き詰 ま っ た と きに バ ッ ク トラ ッ ク を行 な う。 並 列 型 で は 、 適 用 可 能 な選 択 肢 をす べ て 保 持 し なが ら処 理 を行 な う。 それ ぞ れ一 長 一 短 が あ るが 、 最 近 は コ ン ピ ュー タの 記1意容 量 が 大 き く安 価 で あ る こ とを考 え る と、 並 列 型 の 方 が 以 前 よ り有 利 で あ るか も しれ な い。 と くに 直 列 型 の 場 合 は 下 位 部 分 に於 け る同一 の 試 行 錯 誤 を何 回 も繰 り返 す 可 能 性 が あ る。 また 、 形 態素 解 析 で可 能 な切 り方 が複 数 あ る と き、並 列 型 な らば これ ら を同 時 に 並 行 して 処 理 す る こ と も可 能 で あ る。 2.3単 一化 と意 味 解 析 文 脈 自 由文 法 は 、 自然 言語 の 性 質 を か な りよ く表 わ して い る の で よ く用 い られ るが 、 これ に 従 っ て解 析 した構 文 木 か ら、 どの よ うに して 意 味 を取 り出 す の か とい う方 法 論 は、 必 ず し も整 理 さ れ て い る とは 言 い 難 い。 また文 脈 自 由文 法 だ け で は 意 味 的 に 関連 の あ る文 を統 一 的 に扱 え な か っ た り、 規 則 の数 が 多 い な どの 問題 も存 在 す る。 例 え ば肯 定 文 と疑 問 文 は 意 味 的 に 関 連 が あ りなが ら、 文 法 的 に独 立 な規 則 で処 理 され る こ とに な る。 Chomskyは こ う し た 問題 を文 法 の 枠 内 で 扱 う た め に 、変 形 規 則 を使 っ たが これ に つ い て は 問 題 点 も多 い 。 こ うい った 問 題 に対 してChomskyと は 異 な る方 法 を取 っ た の が 単 一 化 文 法 で あ る。 こ れ は 記 号 に 自由 な 数 の 属 性 を持 た せ 、 こ れ らの 間 の 関係 を、 句 構 造 規 則 に付 随 した 単 一 化 操 作 に よ っ て規 定 す る もの で あ る。GPSG,CUG,LFGな どが提 案 され て い るが 、従 来 の文 脈 自 由文 法 の 雰 囲気 を最 も よ く残 して い るの がLFGで あ る と考 え られ る。LFGで は構 文 を表 わ すC構 造 と、 そ れ に付 随 す る属 性 の 構 造 で あ るF構 造 を 区別 し て い る。 最 初 にC構 造 を求 め 、 そ の 後 にF構 造 を 求 め るの で 、 最 初 の 段 階 で従 来 の 文 脈 自由文 法 に関 す る構 文 解 析 の 技 法 を十 分 に 活 用 す る こ とが で き る。 ま た、F構 造 の なか に 意 味 を表 わ す 構 造 を含 ませ る こ とで 、 文 の 意 味 を 自然 な形 で 取 り 出す こ とが で き る。 本 論 文 で は、LFGに 近 い 形 で の 、 単 一 化 文 法 の記 述 を可 能 とす る シ ス テ ム を構 築 す る 。 2.4単 一 化 操 作 と構 文 解 析 の 並 行 動 作 前 節 で 述 べ た よ うに 、LFGで は 先 にC構 造 を構 築 して か らF構 造 を構 築 して い る。 しか し、C 構 造 だ け の 解 析 で は 多 くの 可 能 性 が 残 っ て し ま い、 並 列 な構 文 解 析 法 で は 全 て の 可 能 性 を試 す の で 、 記 憶容 量 と処 理 時 間 を消 費 す る こ とに な る。 理 想 的 に は 意 味 の処 理 を も並 列 に行 な う こ と に よ っ て、 多 くの選 択 肢 を カ ッ トすべ き で あ るが 、 意 味 の処 理 を あ る程 度 は 含 む単 一 化 の 処 理 を、 構 文 解 析 と並 行 して行 な うこ とに よ っ て、 か な りの 選 択 肢 を カ ッ トで き る可 能 性 が あ る。 構 文 解 析 の 操 作 とF構 造 の単 一 化 操 作 を並 行 して 行 な う場 合 、 以 下 の よ うな点 に つ い て 注 意 が 必 要 とな る。F構 造 に つ い て は、 下位 の記 号 に 付 随 す るF構 造 か ら上 位 の 記 号 に付 随 す るF構 造 を構 成 す るの で あ る。 仮 に トップ ダ ウ ン の構 文 解 析 ア ル ゴ リズ ム を使 っ た場 合 、 上 位 の 部 分 木 の F構 造 は下 位 の 部 分 木 に 依 存 して決 定 さ れ る。 しか し、 初 め か ら どの 下位 部 分 木 が 正 し い もの で あ るか は不 明 な の で 、 上 位 の 部 分 木 のF構 造 に つ い て は下 位 の 部 分 木 の 選 択 肢 の各 々 に対 応 して 、 別 々 のF構 造 を保 持 し なけ れ ば な ら な くな る。 これ に対 して 、 ボ トム ア ップ 型 の構 文 解 析 ア ル ゴ リズ ム の 方 が 、 単 一化 処 理 と並 行 し て行 な う の に 適 して い る。 但 し、 単 一 化 の操 作 に よ っ て 下 位 の部 分 木 のF構 造 を変 化 させ て し ま う場 合 に

(5)

は 同様 の 問題 を生 じ る。 以 上 の 考 察 に 基 づ き、 本 論 文 で は ボ トム ア ップ 並 列 型 の構 文 解 析 ア ル ゴ リズ ム で あ るCKY法 と、 単 一 化 操 作 に よ っ て 下 位 のF構 造 を変 化 させ な い よ うな 性 質 を持 つ 単 一 化 文 法 と を組 み 合 わ せ 、 構 文 解 析 と単 一 化 の 操 作 を 同 時 に並 行 して行 な う方 法 を提 案 す る。 また併 せ て、 分 か ち書 き の 問題 を も同 時 に解 決 す る。 3.リ ス ト処 理 の た め の デ ー タ構 造 自然 言 語 を始 め とす る、 人 工 知 能 上 の 記 号 を主体 とす る処 理 にお い て は 、 一 般 に リス ト構 造 を 多用 す る。 こ の デ ー タ構 造 を どの よ うな もの に す るか とい う こ とは そ の表 記 法 とあ い ま って 、 単 に処 理 の 仕 方 に影 響 を与 え る とい うだ け で は な く、 もの の考 え方 に も影 響 を与 え る一 つ の 文 化 の よ う な もの で あ る。 これ は プ ロ グ ラム の 構 築 に 大 きな影 響 を与 え、 最 終 的 に実 現 性 や 効 率 を左 右 す る もの で あ る 。 これ ま で はLISP言 語 の 影響 が 大 き く、 同様 の デー タ構 造 を使 う こ とが 多 い。 し か し本 論 文 で は 、 や や 異 な るデ ー タ構 造 を採 用 して お り、 その 表 記 法 と と も に予 め 記 述 して お く。 3.1LISPの デ ー タ 構 造 LISPに お い て は 以 下 の よ う な 二 つ の 要 素 か ら な る セ ル を ビ ル デ ィ ン グ ブ ロ ッ ク と し て 使 っ て い る 。 car cdr 左 側 の 部 分 はcar(カ ー)と 呼 び 、 右 側 の 部 分 はcdr(ク ダ ー)と 呼 ぶ 。 一 般 にcar及 びcdrに は 他 の セ ル へ の ポ イ ン タ を 入 れ る 。 例 え ば 次 の よ う な リ ス ト表 記 が あ っ た 場 合 、 (AIBI(Cl)D2) こ れ は 、 セ ル を ポ イ ン タ で 繋 ぎ あ わ せ て 次 の よ う な 構 造 を意 味 す る も の で あ る 。 但 し、 こ こ で セ ル のcar部 分 に"A1"等 の 文 字 列 が 直 接 書 い て あ るの は、 表 記 の 便 法 で あ り、 実 際 に は この よ うな文 字 列 ま た は 直接 数 値 が お い て あ る記 憶 エ リア へ の ポ イ ン タが 置 か れ る。 この よ うな文 字 列 や 直 接 数 値 の 事 をア トム とい っ て そ の ため の 記 憶エ リア に ま とめ て 置 か れ る。処 理 系 は そ の ポ イ ン タ が この エ リア を指 して い る こ とに よ っ て ア トム で あ る と判 断 す る。 こ の よ う にLISPに お い て は具 体 的 な デ ー タ構 造 と、そ の 表 記 方 法 が 整 って い る た め、同様 の デ ィ シ ップ リン が コ ン ピ ュー タサ イエ ン ス の 中 で も広 く使 われ 一 つ の文 化 を形 作 っ て い る。 3.2本 論 文 で 採 用 す るデ ー タ構 造 最 近 で は こ れ ま でLISPやprolog等 の い わ ゆ る人 工 知 能 用 の 言 語 で書 か れ た プ ロ グ ラ ム を、C言 語 やC++言 語 等 で書 き替 え る こ と もよ くあ る模 様 で あ る。LISPやprologで は、 リス ト構 造 に関 す る処 理 が 容 易 に 書 け た り、 あ る い はバ ッ ク トラ ッ ク等 の 処 理 が表 現 出 来 る とい う利 点 が あ る。 し か し処 理 系 自体 が 大 きか っ た り、 処 理 速 度 が 遅 い 等 の 問 題 点 も指 摘 され て い る。 さ ら に大 き い プ ロ グ ラ ム を 書 く際 に全 体 を モ ジ ュー ル化 して 見 通 しの よ い プ ロ グ ラム とす る た め の 工 夫 な ど につ

(6)

いて は、 これ ま で の 人 工 知 能 用 言語 は 必 ず し も優 れ て い る とは い い 難 い。 本 論 文 で は、 自然 言 語処 理 に要 求 され る機 能 が 多種 で あ り、研 究 の 発 展 段 階や 応 用 の 対 象 に 応 じて 種 々 の 変 更 が要 求 され る こ と、 ま た速 度 や プ ロ グ ラ ム の コ ンパ ク ト性 等 を も考 慮 して 、 オ ブ ジ ェ ク ト指 向 言 語 で あ るC++を 使 って の 実 現 を想定 し て い る。 その た め に は 、必 ず し もこ れ まで 一 般 的 で あ っ たLISPの 習 慣 に 捉 わ れ る 必要 は な い。 こ こで は と くに辞 書 構 造 やF一 構 造 を表 現 す るた め に、C及 びC++上 で リス ト構 造 を実 現 す る た め の セ ル と、 それ に よ る リス ト構 造 の 表 記 方 法 を提 案 す る。 具 体 的 な セ ル と して 次 の よ うなC言 語 に 於 け る構 造体 を用 い る。 structdcell{intdd;structdcell*other,*next;}; そ して こ れ は 次 の よ うな セ ル と して描 くもの とす る。 この よ うに 、dcelIに お い て は具 体 的 な値 を入 れ る部 分 と ポ イ ン タ を入 れ る部 分 をは っ き り区 別 して い る。 これ に よ り、LISPデ ィ シ プ リンに お い て ア トム か ど うか の 判 別 が 必 要 で あ っ た 点 を簡 略 化 して い る。 次 に 述 べ て お く必 要 が あ るの は 、 ア トム の 表 現 で あ る。 実 際 の処 理 に お い て は い ろ い ろ な文 字 列 が 出 現 す る。 具体 的 に は各 種 の 非 終 端 記 号 や 、F一 構 造 の 素 性 標 識 や 素 性 値 で あ る。 こ れ らの 文 字 列 は そ の文 字 列 そ の もの が 問 題 な の で は な く、 互 い に 識 別 や 同定 が 可 能 で あ れ ば 良 い の で あ る。 そ こ で 本 論 文 で は これ らの文 字 列 を一 つ の整 数 に置 き換 え、 これ をdcel1のdd部 分 に 格 納 す る 方 法 を と る。 こ れ に よ っ て、 互 い の 識 別 同定 を、 単 な る整 数 値 の 比較 に よ っ て行 な う。 図3. trie構 造 のdcellに よ る 構 成

(7)

3.3辞 書 の デ ー タ構 造 形 態 素 解 析 の 段 階 で は 、 辞 書 を頻 繁 に ア クセ ス す る こ とに な る。 と くに、 あ る文 字 か ら探 索 を 開 始 して 引 き続 く文 字 を辞 書 の 上 で 辿 っ て行 くよ うな 操 作 を可 能 とす る必 要 が あ る。例 え ば 「あ い う え お 」 とい う文 字 列 が あ り、 こ の 「あ 」か ら 開始 す る単 語 を辞 書 の上 で 探 して行 く。 「あ 」が 辞 書 に載 っ て い れ ば、 そ の 単 語 を候 補 単 語 と して 返 す 。 次 に 「あ い 」 が 載 っ て い れ ば それ を候 補 単 語 と して 返 す … … とい う よ うな操 作 が 必要 で あ る。 こ の よ うな 操 作 に便 利 な の が トラ イ(trie)と 呼 ば れ るデ ー タ構 造 で あ る。 例 え ば次 の よ う な一 群 の 言 葉 が 辞 書 に登 録 され て い る な らば 「あ き、 あ い 、 あ き る、 あ さ、 あか 、 あ か ね 、 あ か ね い ろ」 これ を表 現 す る トラ イ構 造 は 、 上 記 のdcellを 使 っ て 図3.1の よ うに 表 現 さ れ る。 こ こ で 匚≡≡:]はNULLポ イ ン タ を表 わ し、 何 も指 し示 され ない こ とを 意 味 す るの はLISPの 場 合 と同様 で あ る。 ま た 、 「あ」等 の 文 字 は これ に対 応 す る整 数 値 を意 味 す る。 つ ま り、 引 き続 く文 字 に対 して はnextポ イ ン タで繋 ぎ、他 の 選 択 肢 に つ い て はotherポ イ ン タで 繋 ぐ。-1は そ こ で終 了 す る単 語 が 存 在 す る こ とを示 し、 実 際 は この 後 に 品 詞 やF構 造 が繋 が れ る。 こ の よ う なtrie構造 が使 え るの は、単 語 の 数 が 比 較 的 小 さい 間 の み で あ る。登 録 単 語 数 が大 き く な っ た場 合 は、 こ れ を索 引 フ ァ イ ル 等 で 置 き換 え る必 要 が あ る。 その よ うな デ ー タ構 造 の 置 き換 え は 、 辞 書 を一 つ の オ ブ ジ ェ ク トと して 構 成 して お け ば、 他 の 部分 に影 響 が 及 ば な い た め 比較 的 容 易 で あ る。 3.4F一 リ ス トの デ ー タ 構 造 と 表 記 LFGに お い て は 、 各 非 終 端 記 号 が 持 つ 属 性 をF一 構 造 に よ っ て 表 現 し て い る 。F一 構 造 は い く つ か の 素 性 標 識 と素 性 値 の 対 の 集 合 で あ る 。 そ し て 素 性 標 識 の 種 類 と、 各 標 識 に つ い て 取 り得 る 素 性 値 の 種 類 が 定 ま っ て い る。 し か し 本 論 文 で は 、 も っ と素 性 標 識 や 素 性 値 に 自 由 度 を 持 た せ 、 さ ら に そ の 対 の 並 ぶ 順 序 に も、 時 に は 意 味 を 持 た せ た い 。 そ こ で 本 論 文 で はF一 リ ス ト と 呼 ぶ デ ー タ 構 造 を 用 い る 。 F一 リ ス トは 、 標 識 と値 の 対 か ら な る 列 で あ る 。 空 列 の こ と も あ る 。 標 識 と し て は 任 意 の 、 文 字 列 を 許 す 。 値 と し て は ア トム の 場 合 とF一 リ ス トの 場 合 が あ る 。F一 構 造 の よ う に 素 性 値 に よ っ て 取 り得 る値 が 制 限 さ れ る こ と は な い 。 F一 リ ス トは 表 示 す る と き左 側 の 角 括 弧'['で 始 ま り、 右 の 角 括 弧']'で 終 わ る 。 但 し、'['と']' は 別 の 行 の 同 じ カ ラ ム 位 置 に 表 示 し 、 そ の 内 容 は こ れ ら よ り右 側 に 表 示 す る 。 各 標 識 の 値 は 、 ア トム かF一 リ ス トか 、 ま た は 空 で あ る こ と を許 す 。 値 の 終 わ りに は 、 そ れ が 、 空 で あ っ て も ア トム で あ っ て も 、F一 リ ス トで あ っ て も そ の 後 に';'セ ミ コ ロ ン を 置 く。 ま た 、 こ の F一 リ ス ト をdcellで 表 わ す 時 は 、 ア トム の 前 に 一1をdd部 の 値 とす る セ ル を 置 い て 表 わ す 。 例 え ば 次 の よ う なF一 リス トは [Al[Blc; B2[BBbl; ]; ]; A2B2; D1[Eleee; E2; 〉 〉 ];

(8)

dcel1を 使 っ て 図3.2の よ う な デ ー タ 構 造 を表 わ す 。 図3.2F-1丿 ス トの デ ー タ 構 造 こ こ で"A1"等 の 文 字 列 は 、 こ れ に 対 応 す る 整 数 が こ こ に 入 っ て い る こ と を 意 味 す る 。 3.5記 憶 管 理 一 般 に リス ト処 理 に お い て は、 メ モ リの 管理 が 問題 とな る。 新 しい セ ル を造 り出 す た め に 、 未 使 用 記IBエ リア か ら一 定 の大 き さの エ リア を割 り付 け るの で あ る。 問題 は 一 方 で新 しい セ ル が 必 要 とな るの に対 して 、他 方 で は 不 要 とな るセ ル が 生 ず る事 で あ る。LISPで は新 しい セ ル が 必要 と な っ て 、 未 使 用 エ リアが 無 い と きに は、 ガベ ー ジ コ レ ク シ ョン(ご み 集 め)と 呼 ぶ 操 作 を行 な う。 こ れ は 現 在 使 用 中の リス ト構 造 に 組 み 込 まれ て い る セ ル に 何 らか の 印 をつ け て い って 、 最 後 に 印 のつ い て い な い セ ル を未 使 用 セ ル と して登 録 す る方 法 で あ る。 しか し ご み集 め は時 間が 掛 か り、 処 理 を途 中 で 中 断 して 行 な うの で 、 で きれ ば 避 け た い 方 法 で あ る。 これ を避 け る ため に は 、新 し く リス トを造 る と きに は、 こ れ まで の リス トの 一 部 を流 用 せ ず 必 ず新 し くセ ル を使 っ て造 りな お す 方 法 が あ る。 こ うす れ ば不 要 に な っ た リス トに 含 まれ るセ ル を全 て 不 要 の もの と して 未使 用 リス トに戻 す こ とが で き る。 しか し これ で は余 分 な 記1意容 量 を 必 要 とす る し、 内容 を コ ピー す る ため の 時 間 も必 要 とす る。 そ こで 以 下 の よ う な方 法 が 現 実 的 な妥 協 案 と して考 え られ る。 つ ま り、 処 理 の 途 中 で は従 来 と 同 じ よ う に、 他 の リス トの一 部 で あ っ て も新 し い リス トに 組 み込 む事 を許 す 。 しか し あ る ま とま っ た処 理 が 終 わ って 、 最 終 結 果 を造 る と きに は未 使 用 セ ル の ブ ロ ッ ク を切 り替 え て 、 新 し く内 容 を コ ピー し直 す の で あ る。 こ うす る こ とで 、 これ まで使 っ て い た セ ル が あ る一 定 の ア ドレス 範 囲 に納 ま って い れ ば 、 こ こ は 改 め て 新 しい 未使 用 エ リア と して使 え る こ とに な るの で あ る 。 と くに LISP等 の よ うに ごみ 集 め の機 能 が シ ス テ ム に 組 み 込 ま れ て い な い 、CやC++等 の 言 語 を使 っ て シ ス テ ム を構 築 す る と きに は 有効 で あ る。 4.形 態 素 解 析 と構 文解 析 の融 合 先 述 し た よ う に、 分 か ち 書 き を行 な わ な い 日本 語 に お い て は 、 入 力 文 を単 語 に 分 解 す るや り方 が 複 数 存 在 す る。 そ の た め 、従 来 い くつ か の 発 見 法 を使 っ て、 出 来 る だ け少 な い 数 の 切 り方 を候 補 と して 挙 げ 、 それ らを一 つ 一 つ 構 文 解 析 す る方 法 が と られ た 。 しか しな が ら、 本 論 文 で は い ろ い ろ な 応 用 を想 定 して お り、 と くに対 象 領 域 を 限定 し た、 疑 似 日本 語 等 の処 理 も考 え る必 要 が あ

(9)

る。 そ う した場 合 、 必 ず し も従 来 の 発 見 法 に 基 づ く切 り方 が 有 効 とは 限 らな い 。 む しろ そ の 疑似 日本 語 に対 応 した 発 見 法 を見 つ け な け れ ば な らず 、 現 実 的 で は な い 。 この 問題 を解 決 す る方 法 と し て、 本 論 文 で は可 能 な 単 語 の候 補 を全 て 三 角 行 列 に登 録 し、 構 文 解 析 の 段 階 で ボ トム ア ッ プ で しか も全 て の 可 能 性 を並 列 に 追 究 し て行 くア ル ゴ リ ズ ム で あ る CKY法 を適 用 す る方 法 を提 案 す る。こ れ まで に採 用 され た切 り方 の 発 見 法 も本 来 構 文 上 許 され る 接 続 関 係 だ け を取 り出す 方 法 と考 え る事 が で き る。 そ れ は文 法 に よ る制 約 に優 先 す る もの で は な く、 文 法 に よ って 制 約 され る もの で あ る。 し たが って 、 本 論 文 で提 案 す る方 法 を使 え ば、 辞 書 に 載 っ て い る単 語 の 範 囲 な らば 、 改 め て 入 力 文 を単 語 に分 解 す るた め の 発 見 法 を考 え る余 地 は 無 い 。 4.2形 態 素 解 析 本 論 文 で は 、 形 態 素 解 析 は 辞 書 引 き を行 な う こ と で 実 現 す る 。 つ ま り、 辞 書 内 部 で ど の よ う な 処 理 を 行 な う か に 関 わ ら ず 、 あ る 文 字 の 綴 りが 辞 書 に 載 っ て い る か ど うか を 、 辞 書 に 問 い 合 わ せ る こ と で 、 形 態 素 解 析 を行 な う。 こ の よ う な 機 能 を持 っ た 辞 書 を 、 一 つ の オ ブ ジ ェ ク ト"jisho"と して 構 成 し 、 辞 書 引 き は 、 こ の オ ブ ジ ェ ク トの メ ソ ッ ドを 呼 び 出 す 事 で 行 な う 。 C++で は 、各 オ ブ ジ ェ ク トの ク ラ ス に 対 し て 必 ず コ ン ス ト ラ ク タ ー と呼 ば れ る メ ソ ッ ドが 存 在 し、 新 し い イ ン ス タ ン ス(そ の ク ラ ス の 具 体 的 な オ ブ ジ ェ ク ト)が 造 ら れ た と き に 必 ず こ れ が 実 行 さ れ る 。jishoオ ブ ジ ェ ク トの 場 合 は 、 コ ン ス ト ラ ク タ ー の 中 で 辞 書 デ ー タ を 含 む フ ァ イ ル を 読 み 込 み 、 ト ラ イ 構 造 を構 築 す る も の で あ る 。 重 要 な メ ソ ッ ド と し てinitO,stepO,itemOが 用 意 し て あ る 。initOは 引 き数 を と ら ず 関 数 値 も 返 さ な い 。 あ る 文 字 か ら 、 短 い 順 に 辞 書 引 き を 行 な う前 に 一 回 だ け 実 行 す る こ と に よ っ て 、 オ ブ ジ ェ ク ト内 部 の ポ イ ン タ を トラ イ 構 造 の ル ー ト を 指 す よ う に す る もの で あ る。stepOは 一 つ の 漢 字 の コー ド を 表 わ す 整 数 を 引 き 数 と し て 、 トラ イ を 一 文 字 分 辿 る も の で あ る 。 も し こ の 一 文 字 が 辿 れ な け れ ば0を 返 し 、こ こ で 終 わ る 文 字 が あ れ ば 一1を 返 す 。そ れ 以 外 は1を 返 す も の で あ る 。item() は 辞 書 に 登 録 さ れ た 単 語 に 関 す る 記 載 項 目 を一 つ ず つ 取 り出 す もの で あ る。 具 体 的 に は 記 載 項 目 を 表 わ すF一 リ ス トへ の ポ イ ン タ を 返 す 。 こ れ ら の 機 能 を使 っ て 辞 書 引 き を行 な う手 順 は 以 下 の 様 に な る 。 使 う変 数: intstr[];解 析 す べ き 入 力 文 を 入 れ た 配 列 。 配 列 要 素 に は 一 つ の 文 字 の コー ドが 入 る 。 文 の 終 わ りは0で 示 す 。 inti,j;配 列strの 要 素 を 指 す 添 え 字 。 ints;関 数stepの 関 数 値 を 入 れ る 変 数 。 手 順: ①i=o;と し て 先 頭 の 文 字 を 指 す 。 ②str[i]が0で あ れ ば ⑩ に 行 く。 ③initO;を 実 行 す る 。 ④j=i;と す る 。 ⑤str[j]が0で あ れ ば 、1=1+1;を 行 な っ て ② に 行 く。 ⑥s=step(str匚j]);現 在 見 て い る文 字 を 引 き数 と し てstepを 呼 び 出 す 。 ⑦ も しs==0な ら ば 、 こ れ 以 上 長 い 文 字 列 は 登 録 さ れ て い な い の で 、 i=i+1;を 行 な っ て ② に 行 く。 ⑧ も しs==-1な ら ば 、str[i]か らstr[j]ま で の 文 字 列 が 辞 書 に 登 録 し て あ る の で 、 必 要 な 処 置 を す る 。

(10)

⑨j=j+1;を 行 な っ て ⑤ に 行 く。 ⑩ 手 続 き を 終 了 す る 。 例 え ば 、 辞 書 に 「あ る 、 は れ 、 は れ た 、 ひ 」 と い う 単 語 だ け が 登 録 さ れ て い る と す る 。 こ の と き 「あ る は れ た ひ 」 と い う 入 力 文 に つ い て は 次 の 様 に 辞 書 引 き を す る 。 ま ずinitOを 実 行 し 、 次 にstep(あ)を 行 な う(実 際 に は 「あ 」 と い う文 字 の コ ー ドを 整 数 型 の 変 数 に 入 れ て 呼 ぶ)。 結 果 は1が 返 っ て く る 。 次 にstep(る)を 行 な う が 、 こ れ は 辞 書 に 載 っ て い る の で 一1が 返 っ て く る。 そ し てstep(は)を 行 な う と0が 返 っ て く る の で 、 こ れ 以 上 長 い 文 字 列 の 辞 書 引 き を 停 止 す る 。 ま たinitOを 実 行 し て 、step(る)を 実 行 す る と0が 返 っ て く る 。

initOを 実 行 し て 、step(は)を 実 行 す る と1が 返 っ て く る 。 次 にstep(れ)を 実 行 す る と 一1が返 っ て く る 。 さ ら にstep(た)を 実 行 す る と 一1が返 っ て く る 。step(ひ)は0が 返 っ て く る 。 initOを 実 行 し 、step(れ)を 実 行 し て0が 返 る 。 initOを 実 行 し 、step(た)は0を 返 す 。 initOを 実 行 し て 、step(ひ)は 一1を返 す 。 こ の よ う に し てstepOが 一1を返 し た と き は 、itemOを 使 っ て 記 載 項 目 を 取 り 出 す 。 4.3三 角 行 列 とCKY法 これ ま で のCKY法 で は、文 が 含 む 単 語 の数 をWと して 、W×Wの 三角 行 列 を使 用 し た。例 えば 「わ た し は こ こに い る」 とい う文 が 厂わ た し は こ こ に い る」 と区 切 られ て それ ぞ れ の 品 詞 がN,J,N,J,Vで あれ ば 、 図4.1の よ う な三 角 行 列 の 一 番 下 の行 に そ の非 終 端 記 号 を登 録 す る こ とか ら 開 始 して い た。 図4. 従 来 のCKY法 で の 三 角 行 列 これ に 対 して 、 本 論 文 で は 入 力 文 か ら見 い だ す こ との 出 来 る、 可 能 な単 語 の候 補 を全 て 三 角 行 列 に登 録 す る 方 法 を とる。CKY法 で は、三 角 行 列 上 の位 置 は、 そ こに 登 録 され た非 終 端 記 号 の 支 配 す る範 囲 を 表 わ して い る。 三 角 行 列 を配 列tt[][]で 表 わ す もの と して 、tt[i][j]に 登 録 さ れ た非 終 端 記 号 はtt[i][0]か らtt[i+j][0]ま で の範 囲 を支 配 す る(但 し配 列 の 添 え 字 は0か ら始 ま る も の とす る)。逆 に 言 え ば こ の 非 終 端 記 号 か ら、こ の部 分 を導 出す る こ とが 出来 るの で あ る。 三 角 行 列 を図 示 す る と きは 、 図4.2の 様 にiを 横 方 向、jを 縦 方 向 に変 化 させ る。

(11)

tt [o] [4]

tt [o] [3] tt [1] [3]

tt [o] [2] tt [1] [2] tt [2] [2]

tt [off[1] tt [1] [1] tt [2] [1] tt [3] [1]

tt [off[o] tt [1] [o] tt [2] [o] tt [3] [off tt [4] [off

図4.2サ イ ズ5の 三 角 行 列 と要 素 つ ま り三 角 行 列 上 の 高 さが 、 そ の支 配 す る範 囲 の 広 さ を表 わ す の で あ る。 そ こ で本 論 文 で は こ の 高 さ が、 支 配 す る文 字 列 の 長 さ を表 わ す もの と考 え る。 したが っ て 入 力 文 に含 まれ る文 字 数 が 三 角 行 列 の サ イ ズ を決 定 す る。 例 と して 文 「あ な た は こ こ に い る」 とい う文 を考 え る。 但 し、 辞 書 に は 次 の よ うな 単 語 が 登 録 され て い る も の とす る。 N-〉 あ な,N-〉 あ な た,N-〉 な た,J-〉 は,N-〉 は こ,DN-〉 こ こ,」 一〉 に,N-〉 い,V-〉 い る こ の文 は9個 の文 字 を含 む の で 、 サ イ ズが9の 三 角 行 列 を使 用 し、 上 記 の単 語 を登 録 す る と図 4.3の よ う に な る。 一 N N N N DN V J J

i

あ な た は こ こ に い る 図4.3三 角 行 列 へ の 登 録 一 般 的 に は 、 一 つ の 行 列 要 素 に複 数 の 非 終 端 記 号 が登 録 され る こ とが あ る。 そ して登 録 と同 時 に 、 シ ン グル ルー ル に 関 す る処 理 を行 な うこ とは 従 来 のCKY法 と同 じで あ る。 4.4単 一 化 規 則 を付 け加 えた 句構 造 規 則 CKY法 で は、 文 法 が シ ン グ ル ル ー ル か ま た は ダ ブ ル ル ー ル の い ず れ か で あ る こ と を前 提 とす る。 句 構 造 規 則 の右 辺 に丁 度 一 つ の 非 終 端 記 号 を持 つ もの が シ ン グ ル ル ー ル で あ り、2つ あ るの が ダ ブ ル ル ー ル で あ る。 どの よ う な文 脈 自由文 法 もこ の よ うな形 に変 形 で き る こ とは よ く知 られ た事 実 で あ る。 本 論 文 で は 、 こ う した書 き替 え規 則 に、 単 一 化 規 則 を付 け 加 え た もの を フ ァ イ ル か ら読 み 込 み 、 F一 リス トの 形 で貯 え る オ ブ ジ ェ ク トbunpouを 用 意 して い'る。 具 体 的 な 句 構 造 規 則 は例 え ば 次 の よ う に書 い て 、 フ ァ イル と して用 意 す る。

(12)

1)S->NPVP

[Xl=X3;

X1.SUBJ=X2

];

2)NP->N

[X1=X2;

].

図4.4単 一 化 規 則 を 付 け 加 え た 句 構 造 規 則 の 例 こ の よ う に、 句構 造 規 則 の あ とに[]で 括 っ て い くつ か の 単 一 化 規 則 を書 く。 こ こ でX1,X2, X3は それ ぞ れ 左 辺 、 右 辺 の 左 側 、 右 辺 の 右 側 の 記号 のF一 リス トを意 味 す る。 単 一 化 規 則 と して は 、 現 在 の と こ ろ以 上 の よ う な等 式 の み をサ ポー トして い るが 、 将 来 必 要 に 応 じて機 能 を拡 張 す る予 定 で あ る。 等 式 の左 辺 に は 以上 の よ うなXnま た は、Xnの あ とに ドッ ト'.'でい くつ か の 文 字 列 を繋 い だ もの を許 す 。右 辺 に は左 辺 と同様 の もの が書 け る他 、一 つ の文 字 列 ま た は 二 つ 以 上 の 文 字 列 を'.'で繋 い だ も のが 書 け る。 単 一 化 の 操 作 は 、基 本 的 にX2やX3のF一 リス トを変 更 しな い 。左 辺 がX1で あ る とき は 、右 辺 の 情 報 を元 に して、X1の 構 造 に付 け 加 え て行 くこ とに な る。X2やX3の 内容 を変 えな い の で 基 本 的 に 内容 を コ ピー す る。 X2,X3や 等 式 の 右 辺 で指 定 され た標 識 が 無 い と きは 、単 一 化 は 成 功 しな い。しか し左 辺 に現 れ たX1に つ い て は、 指 定 され た 標 識 を造 って 行 く。 ま た 同 じ標 識 が 異 な る値 を持 っ て い る場 合 も単 一 化 は成 功 し な い。 一 方 の値 が 空 に な っ て い て 、 他 方 が 値 を持 っ て い る と き は成 功 す る。 4.5CKY法 と単 一 化 の 並 行 処 理 CKY法 の ア ル ゴ リズ ム は よ く知 られ て い るの で、 こ こ で は述 べ な い。 た だ 、本 論 文 で は構 文 解 析 を して行 くの と同 時 に 単 一 化 の処 理 を行 な い 、 ま た 同 時 に 木 の 構 造 を構 成 して 行 く。 そ の た め の デ ー タ構 造 と して次 の よ うなtcellを用 い て い る。 structtcell{structdcell*dp;intsw; structtcell*next,*left,*right; }; 一 つ のtcellが 丁 度 一 つ の 非 終 端 記 号 に 対 応 す る。 一 つ の 三 角 行 列 要 素 に い くつ か のtcellを 入 れ る の で 、 こ れ ら を 線 形 リス ト と し て つ な ぐ の に ポ イ ン タnextを 使 う 。 同 様 に ポ イ ン タleftとright は 、 木 の 構 造 で そ れ ぞ れ 左 側 と右 側 の 子 を 指 す の に 使 う。 非 終 端 記 号 そ の も の や 、 そ れ に 付 随 す るF一 リス ト構 造 な ど は 、dcel1を 使 っ て 構 成 し た リ ス ト構 造 で 表 わ し、 そ れ をtcel1のdpに つ な ぐ。 し た が っ て 三 角 行 列 は 、 次 の よ う に 大 きめ の 配 列 と し て 用 意 さ れ る 。 structtcell*tt[100][100];

(13)

5.単 一 化 文 法 と意 味 解 析 単 一 化 文 法 に お い て は 、文 脈 自 由文 法 の 各 記 号 に い ろ い ろ な属 性 を持 たせ るの で あ るが 、 この 中 に 意 味 に 関す る情 報 を含 ませ る事 が で き る。 本 章 で は具 体 的 な例 に よ って 、 入 力 文 か ら意 味 を どの よ うに して 取 り出 す こ とが で き るか を示 す 。例 と して 、生 物 に 関 す るisa関 係 を定 義 す る文 と、逆 に そ れ を質 問 す る文 を許 す 質 問 応 答 シス テ ム を示 す 。 5.1対 象 領 域 こ こ で は 図5.1に 示 す 範 囲 のisa関 係 を入 力 文 に よ って 作 り上 げ 、ま た質 問 す る シ ス テ ム を想 定 す る。 生 物

動 物

哺乳類 爬 虫類

△/\

犬 猫 蛇 鰐 亀 栗 柿 植物

八1\

花 雑草 図5.生 物 に 関 す るisa関 係 そ して例 え ば 「犬 は 哺 乳 類 で あ る」 とい う断 定 文 や 「栗 は 植 物 です か 」 とい う よ う な疑 問 文 を 許 す こ とに す る。断 定 文 は 直 接 的 なisa関 係 を表 わす もの と解 釈 し、そ れ ま で にisa関 係 の 無 か っ た とこ ろにisa関 係 を 設 定 す る。但 し、既 に 同 じisa関 係 が 設 定 され て い る場 合 は そ れ に 対 して 確 認 の 言 葉 を表 示 し、 既 に 異 な るisa関 係 が 設 定 さ れ て い る場 合 は エ ラー メ ッセ ー ジ を 出す 。 疑 問文 の 場 合 は 直 接 的 なisa関 係 だ け で な く、間接 的 なisa関 係 に対 して も、成 り立 つ か ど うか を 判 断 して 「は い 」 ま た は 「い い え」 で応 答 す る。 以 上 の よ うな 応 答 を させ るた め に、 一 つ の 小 さ な世 界 を設 定 し、 そ の 中 に 存在 す る もの を一 つ の 線 形 リス トに 接 続 す る もの とす る。 こ の世 界 に は 、 最 初 か ら図5.1に 現 れ る もの は存 在 す る が 、そ の 間 のisa関 係 が 定 義 され て い な い もの とす る。一 つ の もの は そ の 名 前 と、isa関係 の上 位 の もの へ の ポ イ ン タ に よ っ て 表 現 され る。 こ う い っ た リス ト構 造 は 、先 に 定義 し たdcellに よ って 簡 単 に実 現 で き る。 つ ま りこ の世 界 に 存 在 す る もの を全 て 接 続 す る ため にnextポ イ ン タ を使 用 し、isa関 係 を表 わ す の にothert:イ ン タ を 使 う。 もの の 名 前 は整 数 値 に変 換 してdd部 分 に格 納 す る。 5.2文 法 と 辞 書 項 目 こ こ で は 、 あ く ま で 単 一 化 文 法 の 処 理 か ら 、 意 味 を 取 り 出 す 過 程 を 描 く こ と を 目 的 と し て い る の で 、 各 々 の 細 か い 属 性 は 無 視 す る こ と に す る 。 ま た 、 図5.1に 登 場 す る 「も の 」 に つ い て は 、 予 め 辞 書 に 登 録 し て お く も の と す る 。 辞 書 を 図5.2に 、 文 法 を 図5.3に 示 す 。

(14)

生 物N[SEMseibutu;]; 動 物N[SEMdoubutu;]; 植 物N[SEMshokubutu;]; 哺 乳 類N[SEMhonyuurui;]; 爬 虫 類N[SEMhachuurui;];]; 犬N[SEMinu;]; 猫N[SEMneko;]; 蛇N[SEMhebi;]; 鰐N[SEMwani;]; 亀N[SEMkame;]; 木N[SEMki;]; 草N[SEMkusa;]; 柿N[SEMkaki;]; 栗N[SEMkuri;]; 花N[SEMhana;]; 雑 草N[SEMzassou;]; はJ[SEMha;]; で あ るV[SEM[dantei;OBJ1;OBJ2 ]; ]; で すV[SEM[dantei;OBJ1;OBJ2 ]: ]; で す かV[SEM[gimon;OBJ1;OBJ2 ]: ]. のJ[SEMno;]; 上 位 概 念N[SEM[JouiGainen;SUB; ]; ]; 図5.2F一 リス トを伴 う辞 書 項 目 1)S->NPIVP [X1=X3; X1.OBJ1=X2; ]: 2)NPI->NPJ [X3.SEM=ha; X1=X2; ]; 3)VP->NPV [Xl.SEM=X3.SEM; X1.OBJ2=X2; ]; 4)NP->N [xi=x2; ], 5)NP->NP3N [Xl.SEM=X3.SEM; X1.SUB=X2; ]: 6)NP3->NJ [X3.SEM=no; X1=X2; ]; 図5.3単 一 化 規 則 を 付 加 した 句 構 造 規 則

(15)

5.3対 話 以 上 の よ うな辞 書 と文 法 に基 づ い て 、 実 際 に対 話 を行 な っ た 結 果 を示 す 。 最 初 に各 入 力文 に 対 して どの よ うなF一 リス トが 出 力 さ れ るか を示 す 。 例 え ば 「花 は草 で す 」 とい う文 に対 して 、 図5.4の よ うに 、 文 記 号 とそ れ に付 随 す るF一 リ ス トが 出 力 され る。 [S[SEM[dantei; OBJ1; OBJ2; ]; OBJ2[SEMkusa; ]; OBJI[SEMhana; ]; ]; ]; 図5.4「 花 は 草 で す 」 に対 す る 出 力 SEM以 下 の 部 分 は 「OBJ1はOBJ2で あ る こ と を 断定 す る」 とい う意 味 で あ る。 ま た 、 「植 物 は 亀 の 上 位 概 念 で す か 」 とい う文 に対 し て は 図5.5の よ うに 出 力 され る。 [S[SEM[gimon; OBJ1; oBJ2; ]; OBJ2[SEM[JouiGainen; SUB; ]; SUB[SEMkame; ]; ]; OBJ1[SEMshokubutsu; ]; ]; ]; 図5.5「 植 物 は 亀 の 上 位 概 念 で す か 」 に 対 す る 出 力

この 図 に お いて 、SEM以 下 の 部 分 は 「OBJ1はOBJ2で あ るか 」 とい う意 味 で あ る が、OBJ2の SEM部 分 を 見 る こ とでOBJ2が 「亀 の 上 位 概 念 」 を表 わ す こ とが 判 る。 以 上 の よ う な 出力 に対 して 、 これ を 入 力 と して 応 答 す る プ ロ グ ラム を一 つ の オ ブ ジ ェ ク トと し て構 成 す る。 この オ ブ ジ ェ ク トは コン ス トラ ク タ の他 にkaiwaOと い うメ ソ ッ ドを もつ 。こ の メ ソ ッ ドを上 記 のF一 リス トを引 き数 と して 呼 び 出す 。 こ の メ ソ ッ ドは、 断定 文 に 対 して 内部 のisa関 係 を リン ク と して 設定 し、 疑 問 文 に対 して リン ク関係 か ら、 そ の 関 係 が 成 り立 つ か ど うか を判 断 す る。 実 際 の 会 話 の 記録 を図5.6に 示 す 。 以 上 に示 し た よ うに 、 辞 書 と文 法 に よ って 各 入 力 文 に対 す る適 切 なF一 リス トを構 成 せ しめ 、 そ のF一 リス トか ら意 味 を取 り出す プ ロ グ ラ ム を作 成 す るこ とに よ り、 比較 的容 易 に対 話 シス テ ム を構 築 す る こ とが で き る。

(16)

1) 入 力文:花 は生 物 ですか 応答 文:そ の関係 は成 り立 ちませ ん 2) 入 力 文:花 は 草 で す 応 答 文:わ か り ま した 3) 入 力文:草 は植物 です 応答 文:わ か りま した 4) 入 力文:植 物 は生物 です 応答 文:わ か りま した 5) 入 力文:木 は植物 です 応答 文:わ か りま した 6) 入 力文:雑 草 は草 です 応答 文:わ か りま した 7) 入 力文:草 は生物 です か 応答 文:そ うです 8) 入 力文:柿 は生物 です か 応答 文:そ の関係 は成 り立 ちませ ん 9) 入 力文:柿 は木 です 応答 文:わ か りま した 10) 入 力文:柿 は植 物 ですか 応答 文:そ うです 11) 入 力文:柿 は生 物 ですか 応答 文:そ うです 12) 入 力文:動 物 は生物 です 応答 文:わ か りま した 14) 入力 文:爬 虫類 は動物 です 応答 文:わ か りま した 15) 入力 文:猫 は哺乳 類 です 応答 文:わ か りま した 16) 入 力 文:犬 は 哺 乳 類 で あ る 応 答 文:わ か りま し た 17) 入 力 文:鰐 は 爬 虫 類 で あ る 応 答 文:わ か り ま し た 18) 入力 文:亀 は爬 虫類 です 応答 文:わ か りま した 19) 入 力文:蛇 は爬 虫類 です 応答 文:わ か りました 20) 入力 文:蛇 は動物 で すか 応答 文:そ うです 21) 入 力文:栗 は生物 ですか 応答 文:そ の関係 は成 り立 ちませ ん 22) 入 力文:栗 は木 です か 応答 文:そ の関係 は成 り立 ちませ ん 23) 入 力 文:栗 は 木 で す 応 答 文:わ か り ま した 24) 入 力文:栗 は生物 ですか 応答 文:そ うです 25) 入 力 文:end 13) 入 力文:哺 乳 類 は動物 です 応答 文:わ か りま した 図5.6 6.言 の 葉 の 表 現 能 力 前 章 に お い て は 意 味 を取 り出 す 過 程 に 主 眼 を置 い て 説 明 した の で 、 そ の他 の 文 法 的 な事 項 は省 略 した 。 しか し 「言 の 葉 」 はLFGに か な り近 い表 現 能 力 を もっ て い る。 本 章 で はLFGと 比 較 す る こ とに よ っ て 、 言 の 葉 の文 法 的 な表 現 能 力 を示 す 。 6.1LFGと の 比 較 LFGで は 例 え ば 図6. 1の よ う な 文 法 規 則 を 書 く こ と が 出 来 る1)。

(17)

1)S->NP (↑SUBJ)=↓ 2)VP->V ↑=↓ 3)VP->V VP ↑=↓ (NP) (↑OBJ)=↓ (NP) (TOBJ)=」. 図6. (NP) (↑OBJ2)=↓ (PP) (↑(↓PCASE))=↓ LFGの 文 法規 則 1)に つ い て は 言 の 葉 で も一 つ の 規 則 と して 書 くこ とが で き る。 図6.2の1)が ほ ぼ これ に対 応 す る もの と考 え られ る。 2)に つ い て は 、 右 辺 の 記号 の 数 と省 略 記 号 が あ るの で 、 複 数 の規 則 に 分 け て 書 く必 要 が あ る。 しか しそ れ 以外 は 極 め て容 易 で あ る。 図6.2で は2)∼6)で 表 現 で き る。

1)S->NPVP[Xl.SUBJ=X2;Xl=X3;];

2)VP->V[X1=X2;];

3)VP->VNP[Xl=X2;Xl.OBJ=X3;];

4)VP->VNP[Xl=X2;X1.OBJ2=X3;];

5)VP->VTEMP-[X1=X2;X1.OBJ=X3.OBJ;X1.OBJ2=X3.OBJ2;]

6)TEMP->NPNP[X1.OBJ=X2;Xl.OBJ2=X3;];

図6.2言 の 葉 の 文 法 規 則 図6.1の3)に つ い て は 、右 辺 のPPに つ い た(↑(↓PCASE))=↓ と い う 式 が 問 題 と な る 。 こ れ は 文 献(1)に よ れ ばvarを 変 数 と し て(↑var)=↓ と(↓PCASE)=varの 二 つ の 式 を ま と め た も の と

見 な さ れ る 。 現 在 、 言 の 葉 で は こ の よ う な 機 能 を 用 意 し て い な い 。 こ れ は 、 今 後 い ろ い ろ な 使 用 経 験 を 経 て 、 必 要 と あ れ ば 拡 張 し た い 。 ま た 、LFGで は 、 あ る 素 性 値 が あ る 定 数 で あ る こ と を 要 求 す る た め に (TINF)=c十 の よ う に 書 く こ と が 出 来 る 。こ れ は 言 の 葉 で も等 式 の 右 辺 にXn以 外 の 文 字 を 書 く こ と で 指 定 で き る 。 し か し、LFGで は あ る 関 係 が 成 り立 た な い こ と を 要 求 す る た め に コ[(↑SUBJNUM)=SG.and.(↑SUBJpERS)=3] 等 の よ う に 書 く こ と が 出 来 る 。 こ の よ う な 否 定 の 機 能 は い ず れ か な ら ず 必 要 に な る と考 え ら れ る 。 6.2言 の 葉 の 拡 張 前 節 で も述 べ た よ うに 、 言 の葉 で は 、 今 後 拡 張 が 必 要 と考 え られ る機 能 が い くつ か あ る。 実 際 に 簡 単 な対 話 シ ス テ ム を構 築 して 見 て 感 じる こ とは 、F一 リス トを構 築 す る ため の 、 各 種 の 演 算 子 が 欲 しい こ とで あ る。 言 の葉 の 出 力 は 、 意 味 処 理 プ ロ グ ラム に引 き渡 され るが 、 そ の前 に 出 来 る だ け 意 味 を素 直 に 表 わすF一 リス トを構 成 して お きた い。 この こ と と、 前 節 で も触 れ た よ う な、 条 件 を指 定 す る制 御 機 能 を 強化 す る こ とに よ って 、 一 種 の プ ロ グ ラ ミン グ機 能 を、 単 一 化 規 則 に 与 え る必要 が あ る。 今 後 の考 え られ る拡 張 と して 、F標 識 を単 一 化 規 則 に よ って 与 え る 方 法 を考 え る。 例 えば 変 数 と して%1,%2,… … を使 い 、この 変 数 に文 字 列 を代 入 して お き、そ の値 をF標 識 と して使 う こ と が 考 え られ る。 この よ うな機 能 を使 って 、 例 えば 図5.3の 規 則5)を 図6.3の よ うに 書 く と、

(18)

「亀 の 上 位 概 念 」 に 対 す るF一 リス トは 図6.4の よ う に な る で あ ろ う 。

5)NP->NP3N

[%1=X3.SEM;

X1.SEM.%1=SUB;

X1.SUB=X2;

J.

図6.3F標 識 を指 定 す る規 則 [SEM[JouiGainen[SUB; ]; ], SUB[SEMkame; 〉 〉 〉 〉 図6.4「 亀 の 上 位 概 念 」 に 対 す るFl丿 ス ト こ の よ う な デー タ構 造 の方 が 、 関 数 関 係 を素 直 に表 わ す 場 合 が あ る。 7.終 わ り に 自然 言語 を コン ピュ ー タ に理 解 させ る試 み は 、 人 工 知 能 の 中 で も最 も重 要 な研 究 分 野 の 一 つ で あ る。 と くに 日本 語 に つ い て も多 くの 研 究 が な され て い るが 、 必 ず し も広 く応 用 され て い る訳 で は な い。 日本 語 の処 理 が 、 もっ と容 易 に しか も確 実 に行 な う こ とが 出 来 れ ば、 そ の 応 用 範 囲 は 非 常 に広 い もの とな るで あ ろ う。 人 間 の 理 解 過 程 そ の もの を研 究 す る立 場 か ら も、 ま た種 々 の ア プ リケー シ ョ ン プ ロ グ ラム に 自然 言 語 に 近 い イ ン ター フ ェ ー ス を与 え る立 場 か ら も、 日本 語 を もっ と手 軽 に 扱 う手 段 が望 まれ て い る。' こ れ まで こ う した 企 図 を 阻 ん で い た の は、 日本 語 の文 字 種 類 が 多 か っ た こ と、分 か ち 書 き を し な い た め 、 形 態 素 解 析 が 困難 で あ る こ と、 そ し て 日本 語 の 文 法 が 必 ず し も コ ン ピュ ー タ処 理 に適 す る形 で整 備 さ れ て い な い こ と等 が 考 え られ る。 と くに 文 法 を整 備 す る事 は、 今 後 の 日本 語 処 理 の発 展 を考 え る上 で極 め て重 要 な 課 題 で あ るが 、 一 朝 一 夕 に解 決 す る問 題 で は な い。 そ の た め に もい ろ い ろ な文 法 を仮 定 して コ ン ピ ュー タに よ る解 析 の 実 験 を繰 り返 す 事 が 必 要 と考 え られ る。 こ れ まで 文 法 の理 論 は、 英 語 や ヨー ロ ッパ の 言 語 を中 心 に発 達 して きた もの で あ り、 そ の 中か ら文 脈 自由 文 法CFGな ど も現 れ た もの で あ る。 そ の た め 、CFGよ りは 格 文 法 の 方 が 日本 語 の 解 析 に は適 して い る と言 う人 もい る。 しか しCFGに つ い て は これ ま で に 膨 大 な量 の研 究 が な され て お り、 と くに そ の構 文 解 析 の方 法 論 は ほぼ 完 成 され た もの な の で、 可 能 な らば これ ら の手 法 を使 う べ きで あ ろ う。 さ ら に最 近 注 目 され つ つ あ る単 一 化 文 法 はCFGの 極 め て 自然 な 拡 張 とな っ て お り、 こ れ に よ っ て 日本 語 の 包 括 的 な文 法 理 論 が 構 築 され る可 能 性 もあ る。 ・ 本 論 文 で は、 単 一 化 文 法 に よ って 記 述 した 文 法 と辞 書 をデ ー タ と し て読 み 込 み 、 構 文 解 析 と単 一 化 の処 理 を並 行 して 行 な う シス テ ム を構 築 す る た め の オ ブ ジ ェ ク トの ク ラス群 「言 の 葉 」 を提 案 した。 言 の葉 で は 、 入 力文 に 含 まれ る複 数 の 候 補 単 語 を全 て三 角 行 列 に登 録 し、 そ れ に 対 して CKY法 を適 用 す る方 法 を採 用 して い る。これ に よ っ て 形 態 素 解 析 の ため の各 種 の 発 見法 の 適 用 を

(19)

省 略 して い る。 この 方 法 は著 者 が 単 独 で発 見 し た もの で あ るが 、ほ ぼ 同 じ方法 が 文 献(3)に あ る。ただ し文 献(3)で は この 他 に接 続 関 係 の チ ェ ッ ク を行 な っ て い るの に対 して 本 論 文 で は その よ うな チ ェ ッ ク を全 く 行 な わ な い点 が 、 や や 異 な る点 で あ る。 ま た、 ボ トム ア ップ 並 列 な ア ル ゴ リズ ム で あ るCKY法 との組 み合 わせ を考 慮 して、句 構 造 規 則 に付 加 す る単 一 化 規 則 は、 下 位 のF構 造 を変 化 させ な い も の と して い る。 ま た本 論 文 で は 、 極 め て小 さい 文 法 と辞 書 につ い て例 を示 し、 言 の 葉 の 出 力 か ら意 味 を取 り出 す こ とが 比 較 的容 易 で あ る こ と を も示 した 。 言 の 葉 で は 未知 語 の 処 理 を未 だ 組 み 込 ん で い な い 。従 っ て、 辞 書 に 記 載 され て い な い単 語 に っ い て は、 何 らか の 発 見 法 を適 用 して 切 れ 目や 品詞 を推 定 す る機 構 を今 後 組 み込 む 必 要 が あ る。 ま た 、6.で も述べ た様 に、 単 一 化 規 則 を 記 述 す る 方 法 につ い て も拡 張 して行 く必 要 が あ る。 言 の 葉 は何 か 特 定 の 文 法 を仮 定 し、 そ れ に 基 づ い て 文 を解 析 す る もの で は な い 。 そ う で は な く、 単 一 化 文 法 に よ る一 定 の書 き方 に従 う限 り、 い ろ い ろ な文 法 を 記 述 す る こ とが 出 来 る点 に大 きな 特 徴 が あ る。 言 い 換 え れ ば本 論 文 で は、 い ろ い ろ な文 法 を記 述 す るた め の 、 単 一 化 文 法 に よ る記 述 法 とそ の処 理 系 を提 案 して い るの で あ る。 これ に よ って 、 今 後 各 種 の 文 法 を記 述 す る こ とが 比 較 的 容 易 に行 な え、 そ れ に 基づ いて 各 種 の 対 話 シ ス テム な どを実 験 的 に構 築 す る こ とが で き る。 そ う し た実 験 を通 して 言 の 葉 を改 良 す る と,ともに 、 い ろ い ろ な 意 味 処 理 シ ス テ ム を構 築 す る た め に あ る程 度 共 通 に 使 え る部 分 を オ ブ ジ ェ ク トの ク ラ ス群 と して 見 い だ して行 きた い 。 引 用 文 献 (D野 村 浩 郷:"自 然 言 語 処 理 の 基 礎 技 術",電 子 情 報 通 信 学 会 編(1988) (2)野 口 正 一 監 修,牧 野 武 則 著:"自 然 言 語 処 理",オ ー ム 社(1991) (3)田 中 穂 積:"自 然 言 語 解 析 の 基 礎",産 業 図 書(1989) (4)田 中 穂 積,辻 井Jil頁一 共 編:"自 然 言 語 理 解",オ ー ム 社(1988) (5)BresnanJ.,ed.:"TheMentalRepresentationofGrammaticalRelations".TheMITPress (igs2> (6)チ ョ ム ス キ ー 著 、 安 井 稔 訳:"文 法 理 論 の 諸 相",研 究 社(ig70) (7)黒 川 利 明 監 修,東 条 敏 著:"自 然 言 語 処 理 入 門",近 代 科 学 社(1988) (8)渕 一 博 監 修,古 川 康 一,溝 口 文 雄 共 編:"自 然 言 語 の 基 礎 理 論",共 立 出 版(1986) (9)シ ャ ン ク/リ ー ズ ベ ッ ク 編 石 崎 俊 監 訳:"自 然 言 語 理 解 入 門",総 研 出 版('1.) (10)郡 司 隆 男 著:"自 然 言 語 の 文 法 理 論",産 業 図 書(1987)

参照

関連したドキュメント

In addition, we extend the methods and present new similar results for integral equations and Volterra- Stieltjes integral equations, a framework whose benefits include the

The solution to this problem consists of using an integer number, called control, to encode variable renamings. In a grammar computation, each non-terminal is coupled with an integer

To measure vulnerability we have some parameters that are toughness, binding number, vertex integrity, and scattering number [5].. The problem “given a graph G , decide whether

解析の教科書にある Lagrange の未定乗数法の証明では,

しかし,物質報酬群と言語報酬群に分けてみると,言語報酬群については,言語報酬を与

Amount of Remuneration, etc. The Company does not pay to Directors who concurrently serve as Executive Officer the remuneration paid to Directors. Therefore, “Number of Persons”

From February 1 to 4, SOIS hosted over 49 students from 4 different schools for the annual, 2018 AISA Math Mania Competition and Leadership Conference.. Students from

本センターは、日本財団のご支援で設置され、手話言語学の研究と、手話の普及・啓