• 検索結果がありません。

日 本 語 は 分 か ち 書 き さ れ な い 言 語 で あ り 、 コ ー パ ス で 扱 う に は 難 し い 言 語 で あ る 。 分 か ち 書 き に よ っ て 行 え る こ と を ま と め る と 以 下 の よ う に な る 。

1 ) コ ー パ ス 中 の 語 の 集 計

130 2 ) 語 の 検 索

3 ) 検 索 語 の 共 起 語 の 集 計

4 ) 検 索 語 の 活 用 さ れ た 形 の 抽 出

分 か ち 書 き を す る に は ど の 大 き さ で 語 を 区 切 る か が 次 の 問 題 と な る 。 日 本 語 の 語 の 単 位 は 、 機 械 処 理 の 観 点 か ら の も の と 日 本 語 文 法 研 究 の 観 点 か ら の も の が あ る 。 そ れ ら を ま と め て い く つ か の 実 例 を 示 し た も の が 以 下 の 表 で あ る 。

4-6 機 械 処 理 と 文 法 研 究 と の 語 の 単 位 の 比 較 ( 表 4-1再 掲 )

短 単 位 長 単 位 学 校 文 法 仁 田 ( 1997) 庵( 2012)

私 が 私 |が 私 |が 私 |が 私 が 私 |が

教 師 だ 教 師 |だ 教 師 |だ 教 師 |だ 教 師 だ 教 師 |だ お 母 さ ん お |母 |さ ん お 母 さ ん お 母 さ ん お 母 さ ん お 母 さ ん 食 事 す る 食 事 |す る 食 事 す る 食 事 す る 食 事 す る 食 事 す る 綺 麗 な 綺 麗 |な 綺 麗 |な 綺 麗 な 綺 麗 な 綺 麗 な

走 っ て い る 走 っ |て |い る 走 っ |て い る 走 っ |て |い る 走 っ て い る

走 っ て い

語 の 単 位 は 大 き く 分 け る と 短 い 単 位 と 長 い 単 位 に 分 か れ る 。 そ れ ぞ れ の 利 点 と 欠 点 を ま と め た も の が 以 下 の 表 で あ る 。

4-7 短 い 単 位 と 長 い 単 位 の 利 点 と 欠 点 ( 表4-2再 掲 )

短 い 単 位 長 い 単 位

利 点 ・ 文 法 成 分 で の 検 索 が 行 え る

・後 接 す る 助 動 詞 や 補 助 動 詞 も 込 み の 大 き さ で 検 索 さ れ る

・語 の 集 計 で は 本 体 語 の 数 で 集 計 さ れ る

欠 点

・ 複 数 に 分 割 さ れ た 語 は 検 索 し に く い

・ 語 の 集 計 の 際 に 分 割 が 細 か す ぎ る

・ 文 法 成 分 で の 検 索 が 行 え な い

131

本 節 で は こ れ ら の 単 位 を 有 効 に 活 用 す る た め に 以 下 の こ と を 提 案 し た 。

1 ) 各 単 位 を 併 設 し て 使 用 者 が 選 べ る よ う に す る

2 )単 位 を 作 成 す る ル ー ル を 使 用 者 が 微 調 整 し 、独 自 ル ー ル に よ る 単 位 を 作 成 で き る よ う に す る

3 ) 短 い 単 位 の 欠 点 を 補 う た め に 柔 軟 検 索 を 使 え る よ う に す る 4 ) 長 い 単 位 の 欠 点 を 補 う た め に 構 成 形 態 素 を 使 え る よ う に す る

以 上 に よ っ て こ れ ま で 日 本 語 コ ー パ ス の 利 用 で な か な か 扱 え な か っ た 詳 細 な 語 の 単 位 を 規 定 で き 、 真 に 日 本 語 の 特 性 に 合 わ せ た 研 究 が 行 え る よ う に な る 。 情 報 を コ ー パ ス デ ー タ 内 に 保 持 さ せ る た め に は デ ー タ 構 造 が 重 要 と な る 。

4-8 形 式 の 観 点 と 内 容 の 観 点 か ら の タ グ の 対 応

形 式 の 観 点 内 容 の 観 点

言 語 デ ー タ 外 の 情 報

行 レ ベ ル

フ ァ イ ル タ グ 出 典 情 報 の タ グ 属 性 タ グ

行 タ グ 言 語 デ ー タ 内

の 情 報

語 レ ベ ル

形 態 素 解 析 タ グ 語 彙 形 態 素 及 び 品 詞 情 報 の タ グ オ リ ジ ナ ル タ グ 分 析 用 情 報 の タ グ

こ の 仕 組 み で は タ グ は 形 式 の 観 点 か ら 分 類 さ れ 、 ま ず 「 行 レ ベ ル の タ グ 」 と

「 語 レ ベ ル の タ グ 」に 分 か れ 、行 レ ベ ル の タ グ は さ ら に「 フ ァ イ ル タ グ 」「 属 性 タ グ 」「 行 タ グ 」 に 分 か れ る 。 語 レ ベ ル の タ グ は 「 形 態 素 解 析 タ グ 」「 オ リ ジ ナ ル タ グ 」 に 分 か れ る 。 こ の 構 築 シ ス テ ム で 作 成 さ れ た コ ー パ ス か ら 見 て も 、 理 論 上 こ の タ グ の 仕 組 み で あ ら ゆ る 情 報 が コ ー パ ス へ 付 与 で き る で あ ろ う 。 本 節 で 考 察 し た 、 形 式 の 観 点 か ら 見 た 行 レ ベ ル の タ グ の 3 種 類 と 語 レ ベ ル の タ グ の 2 種 類 は 、 第 3 章 で 示 し た 、 出 典 情 報 の タ グ 、 語 彙 形 態 素 及 び 品 詞 情 報 の タ グ 、 分 析 用 情 報 の タ グ に 対 応 す る と こ ろ が 多 い 。 こ れ ら は 内 容 の 観 点 か ら

132

見 た タ グ で あ る 。 た だ し 、 第 3 章 で 考 察 し た タ グ は 文 字 列 コ ー パ ス へ の も の で あ り 、 基 本 的 に 出 典 情 報 の タ グ と 分 析 用 情 報 の タ グ の み が 扱 え 、 語 彙 形 態 素 及 び 品 詞 情 報 の タ グ は 特 殊 な 状 況 下 で の み 扱 え た の に 対 し て 、 本 章 で の も の は 全 て の タ グ が 同 一 の 基 準 上 で 扱 え る と こ ろ に 強 み が あ る 。

4.3 検 索

関連したドキュメント