多言語対応コンコーダンサー『HASHI』 : 日本語と
日本語教育と社会言語学の研究を中心に
著者
田中 良
学位名
博士(言語コミュニケーション文化)
学位授与機関
関西学院大学
学位授与番号
34504甲第569号
URL
http://hdl.handle.net/10236/00025149
関 西 学 院 大 学 大 学 院
言 語 コ ミ ュ ニ ケ ー シ ョ ン 文 化 研 究 科
博 士 学 位 論 文
多 言 語 対 応 コ ン コ ー ダ ン サ ー 『
HASHI』
―日 本 語 と 日 本 語教 育 と 社 会 言 語学 の 研 究 を 中 心に ―
田 中 良
2015 年 3 月
i
博士学位 論文
多言語対 応コ ンコー ダンサー 『
HASHI』
― 日本語 と日 本語教 育と 社会 言語 学 の研 究を中心 に ―
田中 良
論文審査 員
主 査 :
副 査 :
副 査 :
副 査 :ii 謝 辞 本 論 文 の 執 筆 に あ た っ て は 、 多 く の 方 々 の お 世 話 に な り ま し た 。 こ こ に 記 し て 御 礼 を 申 し 上 げ ま す 。 ま ず 、 指 導 教 官 で あ る 于 康 教 授 に は 、 つ ね に 厳 し く も 暖 か い 丁 寧 な ご 指 導 を い た だ き 、 数 え き れ な い ほ ど た い へ ん 貴 重 な ご 意 見 を 賜 り ま し た 。 先 生 か ら は 研 究 の 方 法 論 や 提 示 の 仕 方 の み な ら ず 、 研 究 に 対 す る 姿 勢 や 人 間 性 な ど に つ い て も い ろ い ろ と ご 教 示 い た だ き 、 こ れ か ら の 研 究 生 活 や 人 生 に お け る 貴 重 な 財 産 と な り ま し た 。 こ の 場 を 借 り て 、 心 よ り 感 謝 を 申 し 上 げ ま す 。 副 指 導 教 官 の 神 崎 高 明 教 授 、 梅 咲 敦 子 教 授 、 森 本 郁 代 教 授 へ も 厚 く 御 礼 を 申 し 上 げ ま す 。 毎 月 一 回 の 文 化 セ ミ ナ ー で は 、 い つ も ご 丁 寧 に 指 導 し て く だ さ り 具 体 的 で 重 要 な ご 意 見 や コ メ ン ト を い た だ き ま し た 。こ こ に 改 め て 心 よ り 御 礼 を 申 し 上 げ ま す 。 次 に 、 博 士 論 文 の 審 査 に 際 し て 、 于 康 教 授 、 神 崎 高 明 教 授 、 梅 咲 敦 子 教 授 、 同 志 社 女 子 大 学 の 村 木 新 次 郎 教 授 に は た い へ ん 貴 重 な コ メ ン ト を た く さ ん い た だ き ま し た 。 ま た 、 中 国 人 民 大 学 の 張 威 教 授 、 北 京 第 二 外 国 語 学 院 の 王 怡 准 教 授 、 福 建 師 範 大 学 の 林 璋 教 授 、 湖 南 大 学 の 張 佩 霞 教 授 の 諸 先 生 方 か ら ご 指 導 い た だ き 、 有 意 義 な コ メ ン ト な ど を い た だ き ま し た 。 こ こ に て 諸 先 生 方 に も 心 よ り 感 謝 を 申 し 上 げ ま す 。 さ ら に 、 関 西 学 院 大 学 言 語 コ ミ ュ ニ ケ ー シ ョ ン 文 化 研 究 科 于 康 ゼ ミ の 苞 山 武 義 氏 、 向 坂 卓 也 氏 、 林 春 氏 、 朴 麗 華 氏 、 高 山 弘 子 氏 、 呉 芝 蒸 氏 等 の 方 々 よ り 貴 重 な ご 助 言 を い た だ き ま し た 。 英 文 要 旨 の 作 成 、 添 削 に 際 し て は 、 金 澤 佑 氏 、 奥 園 優 氏 に 多 大 な ご 協 力 を い た だ き ま し た 。 多 く の 方 々 の ご 教 示 と ご 支 援 が あ っ た か ら こ そ 、 こ の 論 文 を 仕 上 げ る こ と が で き ま し た 。 改 め て 心 よ り 御 礼 を 申 し 上 げ ま す 。 ま た 、 経 済 的 に 援 助 し て く だ さ っ た 関 西 学 院 大 学 大 学 院 に 深 く 御 礼 を 申 し 上 げ ま す 。 多 く の 貴 重 な ご 意 見 や 知 見 を 与 え て く だ さ っ た 友 人 の 皆 様 に も 、 感 謝 い た し ま す 。
iii
最 後 に 、 長 年 側 で 見 守 り 、 辛 坊 強 く 支 え 続 け て く れ た 家 族 に は 何 よ り も 深 く 感 謝 を 述 べ た い と 思 い ま す 。
こ こ に 御 礼 を 申 し 上 げ ら れ な か っ た 方 々 も 含 め 、 多 く の 方 々 の お 世 話 に な り ま し た 。 重 ね て 、 感 謝 の 御 礼 を 申 し 上 げ ま す 。
iv
著 作 権 お よ び 使 用 許 諾
本 研 究 で 提 示 す る コ ン コ ー ダ ン サ ー『ToriBASHI』、『SaiBASHI』、『HASHI』 の 著 作 権 は 田 中 良 に 帰 属 す る 。 本 ソ フ ト に 関 し 、 著 作 権 者 の 許 可 な く 無 断 で 複 製 、 譲 渡 、 転 売 、 改 変 、 お よ び 目 的 外 の 使 用 を す る こ と を 禁 ず る 。 本 ソ フ ト の 使 用 に よ っ て 生 じ る あ ら ゆ る 直 接 的 、 間 接 的 損 害 お よ び 不 具 合 に 関 し て は 、 著 作 権 者 は 一 切 の 責 任 を 負 わ な い も の と す る 。 ま た 、 無 断 で の 改 変 、 複 製 さ れ た ソ フ ト の 使 用 に よ っ て 生 じ た い か な る 、 直 接 的 、 間 接 的 損 害 お よ び 不 具 合 に 関 し て 、 著 作 権 者 は 一 切 の 責 任 を 負 わ な い も の と す る 。
v
ABSTRACT
HASHI, a new multilingual concordancer:
From the perspective of studies on Japanese, Japanese pedagogy,
and sociolinguistics.
by
Ryo Tanaka
The present study is an attempt to solve problems of existing
corpora
and
concordancers,
especially
in
areas
where
improvements are necessary for better linguistic research and
linguistic pedagogical practices. The research methodology
commonly applied in such fields of research as Japanese syntax,
Japanese pedagogy, and sociolinguistics includes analysis of
collected examples. The present survey reveals that corporal
methods have the potential to be utilized at the stages other than
that of collecting examples.
The major problem in collecting examples is that it is difficult to
extract data of sentence patterns such as “動詞 ても 動詞 ても”
and “ ~ が ~ に 動 詞 . ” It has become customary to classify
collected examples nonmechanically without the aid of corporal
method. In other words, corporal method to analyze data using tag
is not utilized fully albeit much __ demand. This implies the
necessity of an improved corporal method which adopts more
convenient and adjusted system than current tagging system. It is
vi
also desirable for a new corporal system to be capable of various
corporal analyses such as the one which incorporates numerical
survey and statistical data of lexical frequency and strength of
syntagmatic co-occurrence. Another demand is for the system to
extract frequently used data of sentence patterns automatically, its
numerical solution is __ yet to be invented.
Meanwhile, it is also necessary to develop a system which is
capable of deeper analyses based on individual study fields and
perspectives. For example, the unit of word differs across
theoretical viewpoints. In other words, different theories of
grammar and mechanical processing segments sentences into
words differently. The new methodological system needs to be able
to function based on such various definitions of units at each
researcher’s command. By the same token, more sophisticated
features attributed to linguistic data as follows should be able to
input efficiently into corpora with less expertise in programming:
semantic usage of particles, classification within verbs,
pedagogical classification of Japanese sentence pattern, error
information and its taxonomy, the presence/absence of utterance
right, the presence/absence of nod assent, and the direction of the
speaker’s gaze.
To sum up the above, the current corporal methodology needs _
the following new features:
(1). Universal and convenient system to collect target examples.
(2). Efficient tagging system that allow the information to be
tagged from any research perspectives.
vii
numerical analysis.
(4). Flexibility to produce data according to diverse research
perspectives and interests.
(5). Integrated system with all the processes generally used in
linguistic research.
This study tried to inspect these issues, successfully making
and presenting the following new concordancers: “ToriBASHI,”
“SaiBASHI,” and “HASHI,” which incorporated the features listed
above in the following manner: number 1, number 2, and number
3-4 respectively.
In chapter 1, the problems of the current concordancer are
manifested by inspecting existing linguistic analysis software.
In chapter 2, the solution about collecting complex examples
such as extraction of sentence patterns are introduced (which
corresponds to the feature number 1; on data retrieval). For
instance, when collecting sentence pattern of “[verb] temo [verb]
temo” as is seen in “tabetemo tabetemo” or “hashittemo
yukkuritoaruitemo,” past concordancers functioned only by formal
and complicated retrieval cues or descriptive script specifying
grammatical and case information of each words one by one
sequentially, only to retrieve imperfect and merely approximate
results. This problem was overcome by making it possible to
retrieve with the proximal cue which is similar in form with the
simpler formula “動詞 ても~動詞 ても.”
In chapter 3, improved system of tagging collected examples is
stated (which corresponds to the feature number 2 above). The
dominant tagging method, in which keyboard is used, had a
viii
problem regarding data reliability due to the inefficiency and
error-prone nature of the input _by human hands. This problem
was solved by preparing pre-fabricated tagging list and easy
selective tagging system. It also became possible for users to set up
tagging standards freely according to their interests. When tagging
a word in an identical manner across the sentences, mechanical
tagging and automatic retrieval and re-aggregation are
implemented.
In chapter 4, the features number 3 and 4 are considered and
incorporated. The numerical methods of collecting and analyzing
data are undercultivated both in corpora as a whole and in
individual words. As to holistic corporal level, “N-mgram,” which is
N-gram with specified number of slots, is introduced; enabling
retrieving of such expression as “よう な ◯ が し た.” N-mgram
collects expressions partly identical with each other, making the
most of the advantage of N-gram to be able to collect expressions
automatically. As to lexical level, “POPAK” was developed, which
is capable of both processing KWIC, collection of examples of
designated word, and Picture, numerical detecting system of lexical
tendency. Owing to this, such facts became evident as verb “なる”
is most often used in the sentence pattern “の ○ が ○ に なっ
た
.”
As for lexical units, which work as the fundamental elements of a
corpus, user flexibility was pursued. A user can select desirable
definitions of units of both Japanese research and mechanical
processing. Moreover, original unit can be created according to the
researchers’ needs. Based on the system, simultaneous tagging
became implementable from even more diverse perspectives.
ix
Tagging became more robust universally by implementing various
systems such as selection from lists, automatic discrimination of
tags, and tagging identical features consecutively. Also, further
functions including tagging information about speakers or
composers and correspondence with vocal data are mounted,
allowing the making of corpora possible in any field of study.
In the final chapter, the issues _pursued in this study and their
respective solutions are summarized, followed by presentation of
possible implications to linguistic research, along with statement
on limitations of this study and outlook for the further study.
This study is significant in making advanced corporal operation
accessible to wider population of linguistic researchers and
language teachers who may have less expertise. Furthermore, it
became feasible to make a specialized corpus according to the users ’
academic fields and perspectives.
x 目 次 論 文 審 査 員 ... i 謝 辞 ... ii 著 作 権 お よ び 使 用 許 諾 ... iv 英 文 要 旨... v 第 1 章 コ ー パ ス 利 用 研 究 の 問 題 点 と 先 行 研 究 ... 1 1.1 言語研究におけるコーパス利用の現状 ... 1 1.1.1 日本語学の場合 ... 2 1.1.2 社会言語学の場合 ... 5 1.1.3 日本語教育学の場合 ... 8 1.1.4 小結 ... 10 1.2 先行ソフトの現状... 11 1.2.1 用例の検索 ... 12 1.2.2 用例へのタグ付与と利用 ... 13 1.2.3 計量的分析処理 ... 15 1.2.4 コーパス自体の形式と作成 ... 15 1.2.4.1 日本語における語の単位 ... 15 1.2.4.2 独自の視点からのコーパスの作成 ... 16 1.2.5 先行ソフトの目的 ... 17 1.2.6 小結... 18 1.3 コーパス利用技術開発研究の現状 ... 18 1.4 研究課題と研究目的および研究意義... 19 1.5 用語の定義 ... 20 1.6 論文構成 ... 22 第 2 章 柔 軟 で 詳 細 な 用 例 検 索 ― 『ToriBASHI』― ... 24 2.1 用例の収集の基本と先行ソフトでの実現性 ... 24 2.2 用例検索ソフト『ToriBASHI』での用例収集 ... 32
xi 2.3 『ToriBASHI』での用例編集 ... 35 2.4 さまざまな用例での検証 ... 38 2.4.1 「NP に NP が+(いる/ある)」の検証 ... 39 2.4.2 「NP を+VP(れた/られた) NP」の検証 ... 47 2.4.3 「NP(は/が)+NP を+VP(れる/られる)」の検証 ... 50 2.5 第2章まとめ ... 53 第 3 章 用 例 分 析 の た め の タ グ 付 与 ― 『SaiBASHI』― ... 55 3.1 データの特徴や規則性 ... 55 3.2 タグとその種類 ... 60 3.3 タグの役割 ... 65 3.3.1 タグの意義 ... 65 3.3.2 タグによる検索と集計 ... 66 3.3.3 二次タグの役割 ... 67 3.4 既存の方法でのタグ付与 ... 69 3.4.1 出典情報のタグ ... 69 3.4.2 語彙形態素及び品詞情報のタグ ... 72 3.4.3 分析用情報のタグ ... 74 3.4.3.1 手作業によるタグ付与 ... 74 3.4.3.2 テキストエディタによるタグ付与 ... 75 3.4.3.3 『MS-Excel』によるタグ付与 ... 77 3.4.3.4 専用ソフトによるタグ付与... 82 3.4.4 小結... 86 3.5 自在なタグ付与機能及び高度な検索機能付きソフト『SaiBASHI』 . 88 3.5.1 必要箇所への効果的なタグ付与 ... 88 3.5.2 タグリストによるタグ付与 ... 91 3.5.3 自動判別でのタグ付与 ... 94 3.5.4 分析用情報のタグの検索と集計 ... 97 3.5.4.1 二次タグとしての分析用情報のタグの特性への対応 ... 97
xii 3.5.4.2 分析用情報のタグでの検索・集計 ... 98 3.5.5 小結... 100 3.6 第3章まとめ ... 100 第 4 章 多 機 能 型 コ ン コ ー ダ ン サ ー―『HASHI』― ... 104 4.1 本章の概要 ... 104 4.1.1 データの土台 ... 104 4.1.2 検索... 104 4.1.3 計量的分析手法 ... 105 4.1.4 タグ付与とコーパス作成 ... 105 4.2 データの土台 ... 105 4.2.1 日本語での語の単位 ... 105 4.2.1.1 語の単位の規定の必要性 ... 106 4.2.1.2 既存の語の単位 ... 109 4.2.1.2.1 機械処理の観点からの語の単位 ... 109 4.2.1.2.2 文法研究の観点からの語の単位 ... 113 4.2.1.2.3 語の単位ごとの特徴 ... 116 4.2.1.3 語の各単位の設定と利用 ... 120 4.2.1.3.1 単位ごとの欠点の解決 ... 120 4.2.1.3.2 語の各単位の併設 ... 123 4.2.2 データの構造 ... 124 4.2.2.1 行レベルのデータと語レベルのデータ ... 124 4.2.2.2 多層構造データ ... 125 4.2.2.3 本データ構造で記録できる情報と対応できる研究分野 ... 126 4.2.3 小結... 129 4.3 検索 ... 132 4.3.1 詳細検索 ... 132 4.3.2 行レベルのタグの組み合わせ検索 ... 133 4.3.3 詳細検索の検索例 ... 133
xiii 4.3.4 小結... 135 4.4 計量的分析手法 ... 135 4.4.1 計量的分析手法と意義と既存の手法 ... 135 4.4.2 計量的手法による文型の抽出 ... 139 4.4.2.1 コーパス全体で多く使用される文型の抽出 ... 139 4.4.2.2 対象となる語を中心とした文型の抽出 ... 143 4.4.2.2.1 既存の手法 ... 144 4.4.2.2.1.1 コロケーションや構文の抽出処理 ... 144 4.4.2.2.1.2 KWIC ... 146 4.4.2.2.1.3 Picture ... 148 4.4.2.2.1.4 既存の手法のまとめ ... 150 4.4.2.2.2 POPAK による文型の検出 ... 151 4.4.2.2.2.1 POPAK ... 151 4.4.2.2.2.2 最低合算値 ... 153 4.4.2.2.2.3 集計値 ... 156 4.4.2.2.2.4 KWIC 表示への切り替え ... 157 4.4.2.2.2.5 POPAK の使用手順例 ... 158 4.4.2.2.2.6 POPAK のまとめと有効分野 ... 160 4.4.3 小結... 161 4.5 タグ付与による研究視点の利用とコーパス作成 ... 162 4.5.1 タグによる情報の付与 ... 162 4.5.2 『SaiBASHI』でのタグ付与方法と問題点 ... 162 4.5.3 既存のタグ付与ソフト ... 163 4.5.4 研究分野ごとのタグ付与とコーパス構築 ... 164 4.5.4.1 日本語研究分野でのコーパス構築 ... 164 4.5.4.1.1 コーパス中の語とタグの構造 ... 165 4.5.4.1.2 リストからの入力 ... 166 4.5.4.1.3 集中的タグ付与 ... 167
xiv 4.5.4.1.4 自動でのタグ付与 ... 168 4.5.4.2 日本語教育分野でのコーパス構築 ... 168 4.5.4.3 社会言語学分野でのコーパス構築 ... 170 4.5.4.3.1 行タグの付与 ... 171 4.5.4.3.2 同一タグの連続入力 ... 172 4.5.4.3.3 音声との連動 ... 172 4.5.4.4 コーパスの構築 ... 173 4.5.5 タグの検索 ... 174 4.5.6 作成したデータの外部への保存 ... 175 4.5.7 小結... 176 4.6 多言語への対応 ... 177 4.6.1 多言語化 ... 177 4.6.2 英語およびヨーロッパ言語への対応 ... 177 4.6.3 中国語への対応 ... 178 4.6.4 韓国語への対応 ... 178 4.6.5 小結... 179 4.7 第4章まとめ ... 179 第 5 章 結 論 ... 184 参 考 文 献... 188
1 第 1 章 コ ー パ ス 利 用 研 究 の 問 題 点 と 先 行 研 究 1.1 言語研究におけるコーパス利用の現状 現 在 、 言 語 研 究 に お い て 大 規 模 デ ー タ の 量 的 分 析 の ア プ ロ ー チ は 急 速 に 広 ま っ て い る 。 つ ま り 、 こ れ は 実 際 に 使 用 さ れ た 言 語 デ ー タ の 大 規 模 な 集 積 で あ る コ ー パ ス の 普 及 を 意 味 す る 。国 立 国 語 研 究 所 の『 日 本 語 話 し 言 葉 コ ー パ ス 』『 現 代 日 本 語 書 き 言 葉 均 衡 コ ー パ ス(BCCWJ)』を筆頭に、名古屋大学の『名大会 話 コ ー パ ス 』、東 京 外 国 語 大 学 の『BTSJ による日本語話し言葉コーパス』など 多 数 の コ ー パ ス が 作 成 さ れ 続 け て い る 。 同 様 に 、 イ ン タ ー ネ ッ ト 上 で 誰 で も ダ ウ ン ロ ー ド で き る 青 空 文 庫 に は 著 作 権 の 切 れ た 小 説 を 始 め と し た 文 書 が 大 量 に 保 存 さ れ て い る 。 こ れ ら も 重 要 な 言 語 研 究 の 材 料 と い え る 。 他 に も ま と ま っ た 言 語 デ ー タ と し て 各 新 聞 社 か ら 一 年 分 ご と に デ ジ タ ル デ ー タ 化 し た 過 去 の 新 聞 記 事 を 購 入 す る こ と が で き る 。 こ れ ら も 実 質 的 な コ ー パ ス と み な す と 、 有 償 無 償 、 大 小 合 わ せ て 十 分 な 数 と 内 容 の コ ー パ ス が 整 備 さ れ つ つ あ る と い え る 。 さ ら に 、 コ ー パ ス は 大 規 模 な プ ロ ジ ェ ク ト に よ っ て 作 成 さ れ る も の 以 外 に も 、 各 研 究 者 個 人 が そ の 研 究 目 的 の た め に 個 々 に デ ー タ を 集 め て 作 成 す る よ う な 、 短 期 間 で 作 成 す る も の や 小 規 模 な も の も あ る 。 こ の よ う に コ ー パ ス は ま す ま す 多 様 化 し て お り 、 言 語 研 究 の 多 く の 分 野 で 非 常 に 効 果 的 に 扱 え る も の で あ り 、 そ の 使 用 領 域 は さ ら に 広 が っ て い く も の と 思 わ れ る 。 こ れ ら コ ー パ ス は 、 あ く ま で も 言 語 資 源 の 蓄 積 で あ る 以 上 、 い わ ゆ る 「 コ ー パ ス 言 語 学 」 の ア プ ロ ー チ の み な ら ず 、 従 来 の 日 本 語 学 、 日 本 語 教 育 学 、 社 会 言 語 学 な ど の 各 研 究 分 野 が 対 象 と し て き た 言 語 の 実 例 デ ー タ と な ん ら 変 わ る こ と は な い 。 つ ま り 、 コ ー パ ス と は コ ー パ ス 研 究 の た め だ け に 存 在 す る の で は な く 、 実 例 を 元 に 行 わ れ る あ ら ゆ る 研 究 分 野 で 対 象 と な り え る 貴 重 な 言 語 デ ー タ で あ る 。 本 章 で は 、 こ れ ら コ ー パ ス が 実 際 に ど の 程 度 利 用 さ れ て い る か の 現 状 を 、 日 本 語 を 対 象 と し た 研 究 分 野 別 に 見 て い く 。
2 1.1.1 日本語学の場合 日 本 語 学 分 野 に お い て の 調 査 は 『 日 本 語 文 法 』2007 年から 2014 年の論文、 研 究 ノ ー ト を 対 象 に 行 っ た 。 該 当 時 期 の 論 文 の う ち 、 書 評 、 レ ビ ュ ー 、 展 望 、 理 論 言 語 学 的 研 究 、 教 科 書 分 析 、 外 国 語 研 究 、 音 声 研 究 の 論 文 の も の は 省 き 、 最 新 の も の か ら 100 本分を調べた。 表 1-1 『 日 本 語 文 法 』 に お け る コ ー パ ス 利 用 数 論 文 100 コ ー パ ス 使 用 31 タ グ 付 与 2 既 存 タ グ 付 与 ソ フ ト 使 用 0 独 自 書 式 に よ る 書 き 起 こ し 4 『 日 本 語 文 法 』 で は 、 文 法 の 研 究 が 主 で あ る た め 用 例 が 必 要 で あ る 。 そ の た め 、 用 例 を 収 集 す る 目 的 と し て コ ー パ ス や そ れ に 近 い 独 自 作 成 の デ ー タ の 使 用 が 4 割 弱 の 研 究 で 利 用 さ れ て い る 。 コ ー パ ス か ら 収 集 さ れ た 用 例 は 、 そ の 後 、 構 文 や 用 法 、 機 能 な ど に よ っ て 分 類 さ れ 、 そ の 分 類 ご と に ま と め て 傾 向 な ど を 分 析 す る と い う 手 法 が ほ と ん ど の 論 文 で 行 わ れ て い た 。 こ の う ち 、 コ ー パ ス を 利 用 し た 文 法 研 究 に お い て 現 在 最 も 一 般 的 な 手 順 を 踏 ん で い る と 考 え ら れ る 研 究 の 例 と し て 清 水(2010)を挙げる。その手順とは以 下 の 一 連 の も の で あ る 1 ) な ん ら か の 機 械 的 な 検 索 方 式 を 用 い コ ー パ ス か ら 用 例 を 収 集 す る 。 2 ) 収 集 し た 用 例 を 目 視 で 選 別 す る 。 3 ) 該 当 す る 用 例 を 全 て パ タ ー ン に 分 け 規 則 性 や 傾 向 性 を 発 見 す る 。 主 な 研 究 内 容 は 以 下 の と お り で あ る 。
3 テ ー マ :「「A テモ B テモ」文の分析」 デ ー タ :『CD-毎日新聞 1991 ~ 1999 年度版』、『BCCWJ1 領域内公開デー タ (2009 年度版)』、検索エンジン Google、から収集 内 容 :「A テモ B テモ」文の A と B に現れる動詞の共起パターンの調査 手 順 : 1 )「 動 詞 の 連 用 形 + テ モ ( デ モ )」 を 2 回 含 む 文 を 機 械 的 に 抽 出 す る 。 (「 東 京 へ 行 っ て も 大 阪 へ 行 っ て も 」の よ う な 文 が あ る た め 、2 つ の「 テ モ 」 の 間 に 1 ~ 5 つ の 形 態 素 が 入 る も の ま で が 検 索 の 対 象 と な る 。)2 2 ) 該 当 し な い も の を 目 視 で 取 り 除 く 。 3 ) 抽 出 し た 2850 例を、A と B が異なるものと同じものとに分け る。前 者 が 「 選 択 並 列 用 法 」、 後 者 が 「 反 復 用 法 」 と な る 。 結 果 : < 選 択 並 列 用 法 > 抱 い て も ミ ル ク を 飲 ま せ て も 泣 き や み ま せ ん 。 < 反 復 用 法 > 5 歳 の 娘 は 食 べ て も 食 べ て も 太 ら な い 。 選 択 並 列 用 法 は 、 2 つ の 「 テ モ 」 と 主 節 と の 関 係 で 4 つ に 分 類 さ れ る 。 1 )「A テモ」=逆条件、「 B テモ」=逆条件 抱 い て も ミ ル ク を 飲 ま せ て も 泣 き や み ま せ ん 。 2 )「A テモ」=並列、「 B テモ」=逆条件 勝 っ て も 負 け て も 悔 い の な い 試 合 を 通 し て ( 後 省 略 ) 3 )「A テモ」=並列、「 B テモ」=並列 血 糖 値 は 上 が り す ぎ て も 下 が り す ぎ て も 困 る ( 後 省 略 ) 4 )「A テモ」=逆条件、「 B テモ」=並列 数 学 な ん て や っ て も や ん な く て も 出 来 な い し ( 後 省 略 ) 反 復 用 法 は 、 分 類 を し て い な い 。「A テモ B テモ」節には進展性の意味を 持 つ 動 詞 が 現 れ る 、た だ し 主 節 に 動 作・状 態 が 続 い た 場 合「 当 然 現 れ る は 1 国 立 国 語 研 究 所 に よ る 『 現 代 日 本 語 書 き 言 葉 均 衡 コ ー パ ス 』 の こ と 。 2 こ こ で の 検 索 は 一 般 的 な 研 究 よ り も や や 高 度 な 方 法 を 用 い て い る と 考 え ら れ る 。
4 ず の 事 態 が 変 わ ら ず 続 い て い る 」と い う 事 態 の 継 続 を 表 す 表 現 が 現 れ る こ と が 明 ら か に な っ た 、 と 述 べ て い る 。 当 該 研 究 で は 、 用 例 の 収 集 に 関 し て は コ ー パ ス を 使 う こ と で 、 大 量 の デ ー タ か ら 極 め て 効 率 よ く 高 精 度 に 行 え て い る も の と 考 え ら れ る 。 そ の 後 、 多 く の 研 究 と 同 様 に 、 そ の 収 集 し た 結 果 を 分 類 し て い る 。 分 類 の 際 の 具 体 的 な 作 業 方 法 が 明 記 さ れ て い な い が 、 そ れ 以 外 の 方 法 が 詳 細 に 記 載 さ れ て い る こ と か ら 、 特 別 な 処 理 方 式 は 取 っ て い な い と 思 わ れ る 。 つ ま り 、 収 集 し た 用 例 を 全 て 紙 に 印 刷 し 、 ペ ン な ど で マ ー ク を 付 け て い く 、 も し く は 『 メ モ 帳 』 や 『 秀 丸 』 の よ う な テ キ ス ト エ デ ィ タ 上 で パ タ ー ン 情 報 を 記 載 し て い く 、 ま た は 『Microsoft Excel(以下、MS-Excel)』のような一般用途のソフトによって同様に情報を記 載 す る 方 式 な ど を 行 っ た と 考 え ら れ る 。 こ の 、 分 類 に よ る 分 析 で は 、「 タ グ3」 を 用 い れ ば 効 果 的 に 分 析 を 行 う こ と が で き る よ う に な る で あ ろ う 。こ こ で は 、「 選 択 並 列 用 法 」「 反 復 用 法 」「 並 列 」「 逆 条 件 」 な ど の 分 類 名 が タ グ と な る 。 収 集 し た 用 例 へ タ グ を 付 与 す る こ と で 、 こ れ を 元 に 用 例 を さ ら に 絞 り 、 よ り 詳 細 な 結 果 を 得 る こ と が で き る よ う に な る 。 ま た タ グ に よ り 集 計 を 行 う こ と で 、 分 類 ご と の 使 用 数 を 瞬 時 に 知 る こ と が で き る 。 ま た そ の 結 果 を 条 件 ご と に 切 り 替 え な が ら 見 比 べ る こ と で 、 そ の 場 で の 新 た な 発 見 に 合 わ せ て 柔 軟 に 用 例 の 傾 向 に 迫 る こ と が で き る 。 収 集 し た 用 例 に 対 し て 研 究 者 自 身 が タ グ 付 与 を 行 っ て い た 研 究 は 中 俣(2010) と 丸 山(2008)の2つのみであった。ただし、2つの研究とも、使用コーパス に 関 し て 極 め て 詳 し い 記 述 が な さ れ て お り 、 コ ー パ ス に 長 け た 研 究 者 で あ る こ と が 伺 え る 。 つ ま り タ グ 付 与 を 行 う 研 究 者 は 、 コ ー パ ス や そ の 利 用 技 術 に 関 し て か な り 詳 し い も の の み で あ る 可 能 性 が 高 い と い え る 。 し か し 、 そ の タ グ を 付 与 し て い た 研 究 者 で も 既 存 の タ グ 付 与 ソ フ ト は 使 用 せ ず 、 独 自 の 方 式 で 行 っ て い た 。 論 文 中 に 明 記 は さ れ て い な い た め 実 際 の 方 法 は 不 明 だ が 、 お そ ら く 手 作 3 形 態 素 解 析 ソ フ ト な ど の タ ガ ー に よ っ て 付 与 さ れ る 語 の 基 本 形 情 報 や 品 詞 情 報 も 本 稿 で は 同 様 に タ グ と し て 扱 う 。 ま た 研 究 に よ っ て は 「 ア ノ テ ー シ ョ ン 」 と 表 現 し て い る も の も あ る が 、 同 様 の も の と し て 扱 う 。
5 業 で 行 っ た と 思 わ れ る 。 こ の よ う に 、 用 例 の 分 類 な ど 実 質 的 に タ グ 付 与 と 同 等 の 作 業 を 行 っ て い て も タ グ 自 体 は 利 用 し て い な い か 、 も し く は コ ー パ ス 利 用 に 長 け て い て 、 タ グ 付 与 を 行 っ て い る 研 究 者 で あ っ て も 実 際 に 既 存 の タ グ 付 与 ソ フ ト は 使 用 し て い な い の が 現 状 で あ る 。 日 本 語 学 の 分 野 の 特 徴 は 次 の よ う に な る 。 用 例 の 検 索 は 4 割 弱 が コ ー パ ス や そ れ に 近 い デ ー タ か ら 行 い 、 既 存 の 検 索 方 式 を 用 い て い る 。 た だ し 、 複 雑 な 文 型4な ど の 場 合 、特 殊 な 方 式 を 用 い て 収 集 し て い る 。収 集 し た 用 例 は 分 類 し て 傾 向 性 や 特 徴 を 分 析 し て い る 。 た だ し 、 タ グ な ど を 用 い ず に 目 視 や 簡 易 的 な 方 式 で 行 っ て い る 。 1.1.2 社会言語学の場合 社 会 言 語 学 分 野 に お い て の 調 査 は『 社 会 言 語 科 学 』2007 年から 2014 年の研 究 論 文 、 資 料 、 シ ョ ー ト ノ ー ト を 対 象 に 行 っ た 。 こ の う ち 、 書 評 、 展 望 、 実 地 調 査 の も の は 省 き 、 最 新 の も の か ら 100 本分を調べた。 表1-2 『 社 会 言 語 科 学 』 に お け る コ ー パ ス 利 用 数 論 文 100 コ ー パ ス 使 用 8 タ グ 付 与 6 既 存 タ グ 付 与 ソ フ ト 使 用 1 独 自 書 式 に よ る 書 き 起 こ し 56 『 社 会 言 語 科 学 』 で は 、 分 析 用 の 用 例 の 収 集 に 関 し て 既 存 の 一 般 公 開 さ れ て い る コ ー パ ス の 利 用 は そ れ ほ ど な か っ た 。 こ の 分 野 の 研 究 で は 談 話 分 析 や 会 話 分 析 が 多 く 、 書 き 言 葉 で は な く 話 し 言 葉 が 研 究 対 象 に な る こ と が 多 い 。 ま た そ の 話 し 言 葉 で も 自 由 会 話 だ け で な く 、「 助 言 場 面 」「 3 人 で の 同 時 会 話 」 な ど 特 4 日 本 語 教 育 で 用 い る 教 育 用 の 日 本 語 表 現 の み な ら ず 、日 本 語 記 述 文 法 研 究 会(2008)で は 、「 ク ラ ス 全 員 が 鈴 木 を 天 才 と 思 っ て い る 。」「 机 の 上 に は 辞 書 が あ る 」( 日 本 語 記 述 文 法 研 究 会 2008: 143) な ど を 構 文 と 呼 ぶ が 、 本 研 究 で は こ れ ら も 同 様 に 文 型 と 呼 ぶ 。
6 殊 な 条 件 付 け を 行 っ た 発 話 デ ー タ も 対 象 と な る 。 こ の た め 、 言 語 デ ー タ を 用 い た 研 究 の ほ と ん ど が 研 究 者 自 ら 発 話 を 録 音 し 文 字 化 し た も の を 分 析 し て い る 。 用 例 の 収 集 に 関 し て 、特 定 表 現 を 検 索 す る と い う よ り 、発 話 が 重 な っ た 箇 所 、 勧 誘 が 行 わ れ た 箇 所 な ど 特 定 の 場 面 の 例 を 抽 出 し て 分 析 す る も の が 多 か っ た 。 論 文 中 に 明 記 さ れ た も の か ら 見 る と 、タ グ 付 与 に 関 し て は や や 行 わ れ て い る 。 ま た 、 文 字 化 の 際 に 発 話 内 容 以 外 の さ ま ざ ま な 情 報 を 書 き 加 え て い る 研 究 が 多 い 。 こ れ は 既 存 の コ ー パ ス 自 体 を 使 用 せ ず 、 独 自 デ ー タ を 文 字 化 し て コ ー パ ス と 同 等 に 使 用 し て い る 研 究 が 極 め て 多 い た め で あ ろ う 。 図1-1 名 塩 ・ 水 島 ( 2011) で の ト ラ ン ス ク リ プ ト 図 1-1 に見られるように、 01,02 など発話の番号、 D:,E:など発話者の記号、 hhh で示された笑い 声 、 [ で 示された 同時発 話箇所、 ( )で 示され た非言語行 動 や 注 釈 、な ど さ ま ざ ま な 情 報 が 発 話 デ ー タ 中 に 書 き 込 ま れ て い る 。こ れ ら は 、 意 味 合 い と し て は タ グ と 同 等 と 考 え ら れ る 。
7 図1-2 坊 農 ( 2011) で の ト ラ ン ス ク リ プ ト 情 報 の 付 与 の 形 式 と し て は 、図 1-2 は手話を記録したコーパスの例であるが、 RH で示された右手の動き、LH で示された左手の動き、日本語に置き換えたと き の 言 葉 、 が そ れ ぞ れ 別 々 に 全 3 層 で 記 録 さ れ て い る 。 こ の よ う に 同 時 に 起 こ る 多 様 な 種 類 の 情 報 を 記 録 す る た め の 工 夫 や ニ ー ズ が 存 在 す る こ と も 分 か る 。 し か し こ れ ら の 研 究 で も 文 字 化 や タ グ 付 与 を 、 テ キ ス ト フ ァ イ ル や 『Microsoft Word』上で行っているため、付与した情報がほとんど目視だけ で し か 利 用 さ れ て い な い 。 つ ま り 、 ほ と ん ど の 研 究 者 が 実 際 に タ グ 付 与 と 同 じ く ら い の 労 力 を か け て 豊 富 な 情 報 を 付 与 し て い る の で あ る が 、 そ れ ら の 情 報 は 目 視 以 外 で は ほ ぼ 活 用 で き て い な い と い え る 。 社 会 言 語 学 分 野 で の 特 徴 は 次 の よ う に な る 。 分 析 元 の デ ー タ で あ る コ ー パ ス 自 体 を 自 作 し て い る こ と が 非 常 に 多 い 。 ま た そ の 際 に 研 究 目 的 ご と に 情 報 を 付 与 し て い る 。 付 与 さ れ る 情 報 は 実 質 的 に タ グ と 同 等 で あ る 。 タ グ 付 与 に 関 し て は 、 収 集 し た 用 例 の 分 類 の タ グ よ り も コ ー パ ス 全 体 へ の タ グ で あ り 、 種 別 も 多 様 で 、 さ ら に 多 種 類 の タ グ の 同 時 付 与 な ど の 試 み も 見 ら れ た 。 こ の よ う に タ グ の 利 用 や ニ ー ズ は 極 め て 高 い と 思 わ れ る 。
8 分 析 項 目 と な る 用 例 の 収 集 は 、 特 定 の 語 な ど の 言 語 形 式 で は な い た め 、 コ ー パ ス か ら の 検 索 な ど は 行 わ ず 、 目 的 表 現 や 箇 所 を 目 視 で 探 し 当 て て 収 集 し て い る 。 用 例 の 収 集 後 に は あ ら か じ め 付 与 し た タ グ を 目 視 す る こ と に よ り 、 傾 向 性 を さ ぐ っ て い る 。 付 与 し た タ グ は コ ー パ ス の 利 点 を 発 揮 せ ず 、 ほ ぼ 目 視 に よ っ て 使 用 さ れ る 。 1.1.3 日本語教育学の場合 日 本 語 非 母 語 話 者 に 対 す る 日 本 語 教 育 学 分 野 に お い て の 調 査 は『 日 本 語 教 育 』 2005 年から 2014 年の論文、調査報告、研究ノート を対象に行った。該当時期 の う ち 、 書 評 、 レ ビ ュ ー 、 展 望 、 教 科 書 分 析 、 意 識 調 査 、 外 国 語 研 究 、 新 テ ス ト の 提 示 、 コ ー ス 設 計 の 提 示 、 各 国 の 日 本 語 教 育 事 情 、 授 業 分 析 、 コ ー パ ス や 利 用 技 術 自 体 の 提 示 の 論 文 の も の は 省 き 、 最 新 の も の か ら 100 本 分を 調 べ た 。 表 1-3 『 日 本 語 教 育 』 に お け る コ ー パ ス 利 用 数 論 文 100 コ ー パ ス 使 用 23 タ グ 付 与 3 既 存 タ グ 付 与 ソ フ ト 使 用 0 独 自 書 式 に よ る 書 き 起 こ し 21 こ こ で は コ ー パ ス 自 体 の 利 用 数 が 日 本 語 学 よ り は や や 少 な い 。 こ れ は 、 研 究 に 当 た り 独 自 の デ ー タ を 取 る こ と が 多 い た め で あ る 。 そ の た め 、 独 自 ル ー ル に よ り デ ー タ を 文 字 化 し た 研 究 が ほ ぼ 同 数 存 在 す る 。 劉 (2012)では、BCCWJ から用例を収集し、動作主認識の副詞的成分 ごと に 、そ れ ぞ れ の 語 に 共 起 す る 代 表 的 な 述 語 動 詞 を 分 析 し て い る 。こ こ で は〈 快 〉 の 感 情 ・ 感 覚 を 表 す 形 容 詞 連 用 形 が 動 作 主 認 識 の 副 詞 的 成 分 と し て 用 い ら れ や す い こ と 、 そ の 理 由 は 語 用 論 的 理 由 に よ る も の で あ る こ と を 解 明 し て い る 。 ま た 、曹 ・ 仁 科(2006)では、中国人日本語学習者の作文から、形容詞・形容動
9 詞 の 共 起 関 係 の 学 習 状 況 を 、 誤 用 例 を 元 に 研 究 し て い る 。 中 国 の 大 学 の 日 本 語 科 の 学 生 の 作 文 な ど 計 2477 文から抽出したフレーズを正用と誤用に分け、独 自 の 共 起 用 法 提 示 ツ ー ル に よ っ て 名 詞 と 形 容 詞 お よ び 形 容 動 詞 の 共 起 妥 当 性 を 判 断 、 最 後 に 共 起 表 現 を 量 的 及 び 質 的 に 分 析 す る こ と で 、 学 習 者 の 共 起 表 現 の 習 得 状 況 を 観 察 し て い る 。 誤 用 に 対 し て は 、 さ ら に 、A 共起、B 語選択、C 共 起 + 語 選 択 、D 文法関係、の4つに分類している。また、ここでは具体的方法 は 明 記 し て い な い が 名 詞 や 形 容 詞 な ど の 品 詞 情 報 を 利 用 し て い る こ と か ら 、 作 文 コ ー パ ス に 対 し て 、 な ん ら か の 形 態 素 解 析 ソ フ ト に よ っ て 品 詞 タ グ を 自 動 付 与 し て い る こ と が 考 え ら れ る 。ほ か に も 、今 井(2010)では間接受身に関する 文 法 的 研 究 を 行 っ て い て 、船 戸(2012)では終助詞の「ね」の分析を行 ってい る 。 独 自 の 研 究 視 点 か ら の タ グ 付 与 に 関 し て 見 る と 、 関 崎 (2013)などが BTSJ に 基 づ く 形 で の タ グ 付 与 を 行 っ て い る 。 し か し 、 具 体 的 な タ グ 付 与 に 専 用 ソ フ ト を 使 用 し た か ど う か に は 触 れ て い な い 。 ほ か で は 、 船 戸 (2012)で は 、「 コ ー デ ィ ン グ 」 と い う 名 前 な が ら タ グ 付 与 を 行 っ て い る な ど が あ る が 、 こ れ ら も 手 作 業 で あ る 。 ほ か に 、 デ ー タ を 計 量 的 に 分 析 す る 手 法 も 使 わ れ て い る 。 李 (2011) で は 、 大 規 模 テ ス ト 作 成 の た め 、 コ ー パ ス 利 用 に よ る 主 成 分 分 析 の 方 式 が 提 案 さ れ て い る が5、こ れ は 実 際 の 研 究 と い う よ り も 新 し い 手 法 の 紹 介 と い う 意 味 合 い の も の で あ る 。山 本(2011)では、国会議論における論点の抽出を行っている。「 国 会 会 議 録 検 索 シ ス テ ム 」 で 第 1 回 (1947 年)、から第 176 回(2010 年)まで の 会 議 録 か ら 「 日 本 語 教 育 」 と い う 語 を 含 む 発 言 を 全 て 抽 出 し 、『KH Coder6』 に よ っ て 、「 日 本 語 教 育 」と 他 の 名 詞 と の 共 起 ネ ッ ト ワ ー ク を 作 成 し 、当 該 語 が ど の よ う な 名 詞 と 強 く 結 び つ い て 表 現 さ れ て い る か を 調 査 し て い る 。 以 上 見 た よ う に 、 日 本 語 教 育 学 の 分 野 の 特 徴 は 次 の と お り で あ る 。 日 本 語 教 育 学 独 自 と い え る 誤 用 の 研 究 以 外 に も 、 日 本 語 学 で の 文 法 研 究 的 な 研 究 や 社 会 5 石 川(2008)で は 、語 の 単 純 頻 度 や 共 起 頻 度 、ま た は そ れ を 示 す 表 だ け で な く 数 学 的 統 計 手 法 を 含 め 、「 言 語 の 計 量 」 と 述 べ て い る 。 6 立 命 館 大 学 樋 口 耕 一 氏 に よ る テ キ ス ト マ イ ニ ン グ 用 ソ フ ト で 、擬 似 的 に 日 本 語 コ ン コ ー ダ ン サ ー と し て 扱 わ れ る こ と も あ る 。
10 言 語 学 的 な 研 究 も 含 ん で い て 、 コ ー パ ス 利 用 の 現 状 か ら 見 る と そ の 2 つ の 分 野 の 中 間 的 な 傾 向 が あ る と い え る 。 ま た 、 コ ー パ ス を 利 用 す る 場 合 は 高 度 な 統 計 処 理 の み を 行 う か 、 用 例 収 集 の み を 行 い 分 類 を す る と い う 手 法 に 分 か れ る 。 統 計 処 理 で は 、 主 成 分 分 析 な ど の 高 度 な も の を 用 い 、 そ の 結 果 を 図 で 確 認 す る な ど が 行 わ れ て い て 、 そ れ と は 別 に 質 的 な 考 察 な ど も 行 わ れ て い る 。 タ グ に 関 し て は 用 例 の 分 類 に は 用 い ら れ ず 、 コ ー パ ス 全 体 に 対 し 品 詞 情 報 の 自 動 付 与 を 行 う こ と は あ る 。 た だ し 正 用 、 誤 用 に 関 し て の 情 報 や 、 誤 用 の 種 別 に 関 し て は デ ー タ 中 へ の 付 与 は せ ず 、 分 類 作 業 の み を し て い る 。 独 自 に 作 成 し た デ ー タ を 扱 う 場 合 、 文 字 化 デ ー タ に タ グ を 付 与 す る が そ れ は 手 作 業 で 行 う た め 、 そ の 後 の 機 械 検 索 は ほ ぼ 行 わ れ な い 。 日 本 語 教 育 学 の 分 野 で は コ ー パ ス を さ ま ざ ま な 方 法 を 用 い て 利 用 し て い る こ と が 分 か る 。 1.1.4 小結 こ れ ま で 集 計 し て き た 各 分 野 の コ ー パ ス 利 用 状 況 を ま と め る と 以 下 の と お り と な る 。 そ れ ぞ れ の 分 野 の 特 性 が こ の 表 に 現 れ て い る と い え よ う 。 表1-4 日 本 語 学 、 社 会 言 語 学 、 日 本 語 教 育 学 の 各 分 野 に お け る コ ー パ ス 利 用 数 日 本 語 文 法 社 会 言 語 科 学 日 本 語 教 育 論 文 100 100 100 コ ー パ ス 使 用 31 8 23 タ グ 付 与 2 6 3 既 存 タ グ 付 与 ソ フ ト 使 用 0 1 0 独 自 書 式 に よ る 書 き 起 こ し 4 56 21 用 例 の 検 索 は 分 野 に よ る が 比 較 的 利 用 さ れ て い る 。 た だ し 、 高 度 な 文 型 な ど は 既 存 の 検 索 方 式 で は 行 わ れ て い な い 。 用 例 の 分 析 の た め の タ グ 付 与 は ほ ぼ 行 わ れ て い な い 。 社 会 言 語 学 や 日 本 語 教 育 学 で は 独 自 の デ ー タ を 作 成 す る こ と も
11 多 く 、 そ の 際 に は ほ ぼ タ グ と 同 等 の も の が 利 用 さ れ る が 、 手 作 業 や 目 視 の も の と 大 差 な い 方 式 の 物 が 使 用 さ れ て い る 。 日 本 語 教 育 学 で は 統 計 処 理 な ど の 計 量 的 な 分 析 手 法 が 利 用 さ れ は じ め て い る 。 ま た 日 本 語 教 育 学 で は コ ー パ ス 全 体 へ の タ グ と し て 品 詞 な ど の 情 報 を 付 与 し て 利 用 す る こ と も あ る と い う 現 状 が 明 ら か に な っ た 。 1.2 先行ソフトの現状 一 般 的 な 言 語 研 究7の 手 順 と し て 、用 例 の 収 集 、用 例 の 分 析 と が あ る 。こ れ ら が コ ー パ ス に よ り ど の 程 度 行 え る か を 先 行 ソ フ ト の 調 査 を も と に 考 察 す る 。 ま た 、 各 研 究 者 の 持 つ 研 究 の 立 場 や 興 味 に 対 し て ど れ だ け 先 行 ソ フ ト が 叶 え ら れ る か も 同 時 に 考 察 す る 。 コ ー パ ス か ら の 機 械 的 な 用 例 の 抽 出 や 計 量 的 に 分 析 を 行 う ソ フ ト ウ ェ ア の こ と を コ ン コ ー ダ ン サ ー と 呼 ぶ 。 コ ー パ ス を 扱 う 際 に は 実 際 に は こ の コ ン コ ー ダ ン サ ー を 通 し て 扱 う こ と が 一 般 的 で あ ろ う8。 い く つ か の コ ー パ ス で は 、 専 用 の コ ン コ ー ダ ン サ ー が 付 随 し 、 そ れ を 通 し て の み 扱 え る 。 オ ン ラ イ ン 上 で 扱 え る コ ー パ ス が 典 型 的 な 例 で あ る 。 し か し 、 も し そ れ ら の コ ン コ ー ダ ン サ ー が 非 常 に 優 れ た も の で あ っ た と し て も 、 そ れ を 使 っ て 他 の コ ー パ ス や 、 自 ら が 作 成 し た コ ー パ ス を 分 析 す る こ と は で き ず 、 同 様 の 方 式 、 基 準 で 複 数 の コ ー パ ス の 比 較 が で き な い た め 、 そ の 分 析 手 段 の 応 用 、 再 利 用 性 は 低 い と い え る 。 そ こ で 、 さ ま ざ ま な 領 域 で 利 用 さ れ る た め に は 、 特 殊 な タ グ 情 報 が 全 く 付 与 さ れ て い な い プ レ ー ン テ キ ス ト を 対 象 に 扱 え る 、 も し く は 、 簡 単 に デ ー タ 形 式 を 対 応 さ せ ら れ る コ ン コ ー ダ ン サ ー が 必 要 で あ る 。 本 研 究 で 比 較 す る 先 行 コ ン コ ー ダ ン サ ー は 、 こ の よ う な ス タ ン ド ア ロ ー ン で 扱 え 、 プ レ ー ン テ キ ス ト を 分 析 で き る も の が 対 象 と な る 。 7 コ ー パ ス を 使 用 す る こ と を 絶 対 と し な い 、日 本 語 学 、日 本 語 教 育 学 、社 会 言 語 学 な ど の 分 野 で の 研 究 で 、 比 較 的 多 く 用 い ら れ る 研 究 内 容 を 指 す 。
8 た だ し 、unix の sh コ マ ン ド や Perl、 Ruby な ど の ス ク リ プ ト 言 語 の ワ ン ラ イ ナ ー で 、 対 話 的 に 扱 う 方 法 も あ る が 、極 め て 高 度 な た め 一 般 の 言 語 研 究 者 に は 非 常 に 敷 居 が 高 く 現 実 的 で は な い 。
12
最 近 の 一 般 的 な コ ー パ ス 利 用 研 究 の 入 門 書 と い え る 、石 川(2012)では日本 語 分 析 が 可 能 な コ ン コ ー ダ ン サ ー と し て『Himawari』、『AntConc』、『KH Coder』 の 3 つ が 提 示 さ れ て い る 。そ こ で は 、『Himawari』は単機能コンコーダンサー、 『AntConc』は多機能コンコーダンサー、『KH Coder』は多機能コンコーダン サ ー と さ れ て い る 。 本 研 究 で は 先 行 す る 日 本 語 コ ン コ ー ダ ン サ ー と し て こ の 3 つ を 取 り 上 げ る 。 実 際 に 日 本 語 を 分 析 し よ う と す る 際 に は こ の 3 つ は 大 い に 使 わ れ て い る ソ フ ト で あ り 、 現 状 の 日 本 語 分 析 現 場 を 反 映 し て い る と 思 わ れ る 。 1.2.1 用例の検索 用 例 の 収 集 の た め に は 、 用 例 の 検 索 を 行 う 必 要 が あ る 。 検 索 す る 語 句 は 、 単 独 の 語 の み を 指 定 し て 検 索 す る こ と が 基 本 と な る 。 こ れ は 最 も 基 本 的 な 方 法 で あ る た め 、 ど の コ ン コ ー ダ ン サ ー で も 行 え る 。 さ ら に 『KH Coder』 で は以 前 か ら 、『Himawari』に関しては ver.1.5 から語の全活用形の検索も行える。つ ま り 、「 行 く 」と い う 語 を 検 索 す る 場 合 に は 、「 行 か( な い )」「 行 き( ま す )」「 行 け( ば )」な ど の す べ て の 形 が 抽 出 で き る の で あ る 。ま た 同 様 に 、「 名 詞 」や「 形 容 詞 」 な ど の 品 詞 を 指 定 し て 検 索 す る こ と も で き る 。 こ れ は 既 に 一 般 的 な 方 式 に な っ て い る と 考 え ら れ る 。 複 数 の 語 か ら な る 表 現 を 検 索 す る 場 合 、『Himawari』、『AntConc』ではその ま ま 検 索 し た い 表 現 を 記 述 す る こ と で 検 索 で き る 。 ま た 『KH Coder』 で は検 索 す る 語 を 1 つ ず つ の 位 置 を 個 別 に 指 定 す る こ と で 検 索 可 能 と な る 。 1.1.1 で見た清水( 2010)では「動詞の連用形+テモ(デモ)」を2回含む文 を 抽 出 し て い る 。 こ の よ う な 文 型 も 収 集 す る 必 要 性 が あ る 。 こ れ は 「 東 京 へ 行 っ て も 大 阪 へ 行 っ て も 」 の よ う に 、 こ の 文 型 の 間 に い く つ か の 語 が 入 る 可 能 性 が あ る 複 雑 な も の で あ る 。 こ れ を 『Himawari』、『 AntConc』 で 検 索 す る た め に は 、正 規 表 現9を 使 う 必 要 が あ る が 非 常 に 複 雑 な 書 式 に な る た め 使 用 者 の 負 担 が 強 い 。『KH Coder』では文型の中に使用される語を分割して、その並びの位 置 ご と に 指 定 す る が 、 こ れ も 擬 似 的 に し か 行 え な い 。 さ ら に そ の ど ち ら の 検 索 9 文 字 列 を 一 定 の ル ー ル に 置 き 換 え た も の で あ る 。
13 方 法 を 用 い て も 収 集 で き る 用 例 は 不 完 全 な も の と な る 。 こ の た め 、 文 型 を 完 全 に 収 集 で き る 検 索 方 式 は い ま だ 存 在 し な い 。 1.2.2 用例へのタグ付与と利用 用 例 を 収 集 し た あ と は 分 析 を 行 う が 、 用 例 の 分 類 か ら 行 う 方 法 が あ る 。 コ ー パ ス を 用 い て デ ー タ を 分 類 し 、 そ れ を 利 用 し て 分 析 す る た め に は タ グ 付 与 が 必 要 で あ る 。 既 存 の タ グ 付 与 ソ フ ト と し て は 、 既 に 『BTSJ 文字化・集計システ ム セ ッ ト10』『 S S T 書 き 起 こ し 支 援 ツ ー ル11』 や 『KH Coder』な ど少 数な が ら 存 在 す る12。し か し 、1.1 の調査でも分かるように、実際にはこれらのタグ付 与 ソ フ ト は 、 少 な く と も 日 本 語 研 究 の 世 界 に お い て は ほ ぼ 利 用 さ れ て い な い 。 『BTSJ 文字化・集計システムセット』では、付与できるタグが決まっていて 汎 用 性 が 少 な い う え に 作 業 が 面 倒 で あ り 、『 S S T 書 き 起 こ し 支 援 ツ ー ル 』で は 覚 え な け れ ば い け な い タ グ 形 式 が 多 く 非 常 に 煩 雑 で あ る 。 付 与 し た タ グ を 利 用 す る に は コ ン コ ー ダ ン サ ー が 必 要 で あ る 。『Himawari』 で は 、 本 文 内 に 文 字 列 と し て 直 接 書 き 込 む こ と で 、 疑 似 的 な タ グ と す る こ と が で き る13。 図 1-3 『 Himawari』 で の 本 文 内 タ グ 図 1-3 は、コーパスデータの本文内に「(・・・・・)」の形式でタグを付与 10 東 京 外 国 語 大 学 宇 佐 美 ま ゆ み 氏 に よ る 発 話 コ ー パ ス 作 成 形 式 の 作 成 ソ フ ト で あ る 。 11 情 報 通 信 研 究 機 構 に よ る 。タ イ ト ル の 全 角 英 数 に 関 し て は 、発 行 元 の と お り 用 い て い る 。 12 国 立 国 語 研 究 所 の 『 Himawari ver.1.5』 で は 、 用 例 へ の タ グ 付 与 が 行 え る が 、 2014 年 12 月 20 日 公 開 の た め 、 こ れ ま で の 研 究 に は 反 映 さ れ て い な い 。 13 『 Himawari ver1.5』 か ら は 検 索 結 果 に 対 し 本 文 外 へ タ グ 付 与 で き る よ う に な っ た が 、 こ こ で は こ れ ま で の 方 式 と し て 示 す 。
14 し た も の14で あ る 。 こ の 形 式 は 仕 組 み が 単 純 で あ り 作 成 を 非 常 に 簡 易 に 行 え る と い う メ リ ッ ト が あ る が 、 文 内 容 に そ の ま ま タ グ が 現 れ る の で 取 り 扱 い が 不 便 で あ る 。 『AntConc』ではタグ情報を扱うことはできるが、『Himawari』の例と同様 に 本 文 に 直 に 付 け た も の を 扱 う 。 図 1-4 『 AntConc』 で の 本 文 内 タ グ な お 『AntConc』では、設定によってタグ部の表示は消せるため、タグで検 索 を 行 い つ つ 本 文 の み を 表 示 さ せ る な ど 見 や す い 形 式 に で き る15、 た だ し 、 タ グ 付 与 結 果 に 対 す る 高 度 な 統 計 処 理 な ど は ほ ぼ 行 え な い 。 『KH Coder』では、タグ情報は「 <H1>・・・・</H1>」のように元のテキ ス ト 自 体 へ 、 規 定 ル ー ル に 基 づ い た 追 記 を す る こ と で 行 え る 。 し か し 、 元 デ ー タ へ の 書 式 の 直 接 の 記 入 は 一 般 使 用 者 に と っ て は ハ ー ド ル が 高 い と 思 わ れ る 。 ま た 、こ れ は タ イ ト ル や 筆 者 、発 話 者 の 情 報 な ど の 言 語 外 の 情 報 し か 扱 え な い 。 こ の よ う に 用 例 分 析 の た め の 分 類 処 理 で あ る タ グ 付 与 は 現 状 で は ほ ぼ 行 え な い 。 付 与 し た タ グ の 利 用 は 『AntConc』が最も有効であるが、それでも高度で 複 雑 な も の と い え る 。 14 こ の コ ー パ ス は 関 西 学 院 大 学 の 于 康 氏 の 作 成 し た『 中 国 語 母 語 話 者 の 日 本 語 誤 用 コ ー パ ス Ver. 7』 で あ る 。 15 実 際 に は 「Tag Settings」 で 利 用 で き る よ う に な る が 、 タ グ を 使 用 す る に は 高 度 に 正 規 表 現 を 工 夫 す る 必 要 が あ る た め 、 本 研 究 で は 立 ち 入 ら な い 。 ま た 、 そ の 際 も Collocates で は そ の 結 果 は 使 用 で き な い 。
15 1.2.3 計量的分析処理
現 在 コ ー パ ス を 利 用 し た 研 究 で 最 も 一 般 的 に 行 わ れ て い る 分 析 手 法 が 計 量 的 な 見 地 か ら 言 語 を 分 析 す る 方 法 で あ ろ う 。 こ れ は 、 コ ー パ ス の 大 き な 利 点 で あ る 、 研 究 者 の 思 い 込 み を 排 除 し た 言 語 の 真 に 一 般 的 な 傾 向 性 を 見 つ け ら れ る も の で あ る 。現 状 で は『AntConc』と『KH Coder』で使用でき、特に『KH Coder』 は こ れ に 特 化 し て 作 成 さ れ て い る た め 、非 常 に 高 度 な 数 学 的 統 計 処 理 が 行 え る 。 語 の 振 る 舞 い を 明 ら か に す る 処 理 で は 、 単 独 の 語 の 傾 向 性 、 あ る 語 と 周 囲 の 語 と の 関 係 性 、 複 数 の 語 の 連 鎖 に よ っ て 作 ら れ る 表 現 な ど が 分 か る 。 し か し さ ら に 発 展 さ せ た 、語 が 使 用 さ れ る 際 の 文 型 の 算 出 は 行 え な い 。「 か け る 」 や 「 と ぶ 」 な ど 、 主 と し て 含 む 語 は 決 ま っ て い る が 、 そ れ ら の 語 が ど の よ う な 文 型 の 中 で 使 用 さ れ て い る か は 不 明 な 場 合 で あ る 。 こ れ を 叶 え る 効 果 的 な 手 法 は 、 現 在 は ま だ 存 在 し な い 。 1.2.4 コーパス自体の形式と作成 コ ー パ ス で 各 研 究 者 の 研 究 興 味 や 視 点 に 深 く 根 付 い た 研 究 を す る た め に は 、 コ ー パ ス 自 体 を 研 究 者 の 立 場 や 興 味 を 反 映 し た も の に す る 必 要 が あ る 。 日 本 語 で は 、 語 を ど の よ う に 区 切 る か は 研 究 者 の 立 場 に よ っ て 違 い 、 ま た ど の 分 野 で あ っ た と し て も 各 研 究 視 点 か ら の 分 析 も 必 要 と な る 。 1.2.4.1 日本語における語の単位 日 本 語 は 分 か ち 書 き が さ れ て い な い 言 語 で あ り 、 語 の 認 定 が 明 確 で は な い 言 語 で あ る 。 こ の 「 語 」 を ど の よ う に 規 定 す る か 研 究 者 ご と に 説 が 分 か れ る 。 ま た 語 の 単 位 も 言 語 学 の 立 場 か ら の も の と 自 然 言 語 処 理 的 立 場 か ら の も の で 、 そ れ ぞ れ 複 数 存 在 す る 。 言 語 学 的 な も の で は 代 表 的 で あ る と 思 わ れ る も の が 3 つ 存 在 す る 。学 校 文 法 で の 単 位 、仁 田(1997)の単位、庵(2012)の単位である。 学 校 文 法 で の 「 語 」 は 特 に 短 い も の で 、 形 態 素 と し て 区 切 ら れ た も の と 近 い 区 切 り 方 と い え る 。 仁 田 (1997) の提 唱 す る単位 は い わ ゆ る附 属 語 を、「 語 と し て 認 定 さ れ 、 語 の 地 位 を 与 え ら れ て い た 助 詞 や 助 動 詞 を 、 語 と は 認 め ず 、 語 の
16 内 部 構 成 要 素 と し て 位 置 づ け る( 仁 田 1997:202-203)」としている。つまり、 名 詞 に 後 接 す る 格 助 詞 、 係 助 詞 も 含 め て 、 ま た 動 詞 に 後 接 す る 助 動 詞 、 補 助 動 詞 も 含 め て 1 つ の 語 と す る も の で あ る 。同 様 に 接 頭 辞 、接 尾 辞 も 単 独 で は「 語 」 と は 見 な さ な い 。 ま た 、 仁 田 の 単 位 に 近 い が 、 名 詞 に 続 く 格 助 詞 、 係 助 詞 は 別 語 と す る 庵(2012)の単位がある。他に、自然言語 処理的な立場から見ると日 本 語 の 単 位 は 主 に 2 つ の 単 位 が あ る 。ま ず 、「 短 単 位 」で あ る 。こ れ は 語 と し て は 最 も 短 い 分 け 方 に な る 。 次 に 、 そ れ を 元 に 一 定 の ル ー ル に 基 づ い て 長 い 単 位 に 結 合 し て 作 成 し た も の が 長 単 位 で あ る 。 こ れ は 、 主 に 名 詞 の 前 後 の 接 辞 を 名 詞 へ 連 結 し て 作 ら れ る 単 位 で あ り 、 動 詞 や 形 容 詞 な ど に 後 接 す る 助 動 詞 や 補 助 動 詞 は 本 体 部 へ は 結 合 さ れ な い と い う 特 徴 を 持 つ 。 各 単 位 そ れ ぞ れ に 長 短 が あ る 。現 行 の コ ン コ ー ダ ン サ ー に お い て 、「 複 数 の 語 の 単 位 を 選 択 し て 使 う 」 と い う 発 想 の 元 に 作 ら れ て い る も の に 国 立 国 語 研 究 所 の 『 現 代 日 本 語 書 き 言 葉 均 衡 コ ー パ ス 』 を 扱 え る 『 中 納 言 』 が あ る 。 こ れ は 国 立 国 語 研 究 所 が 提 示 す る 短 単 位 と 長 単 位 の 2 つ の 単 位 に 加 え 文 字 列 と し て の 検 索 が 行 え る 。し か し こ れ は Web コーパス専用ツールであり、各自が独自に持っ て い る コ ー パ ス や テ キ ス ト デ ー タ は 扱 え な い 。 ま た 、 言 語 学 的 な 立 場 か ら の 代 表 的 な 単 位 で あ る 仁 田(1997)や庵(2012)で提示された単位では語の検索や 集 計 が で き な い 。 1.2.4.2 独自の視点からのコーパスの作成 さ ま ざ ま な 研 究 分 野 で は 、 そ れ ぞ れ の 研 究 の 興 味 や 視 点 が あ る 。 日 本 語 学 の 分 野 で は 、 格 助 詞 の 意 味 用 法 、 動 詞 の 分 類 な ど 、 日 本 語 教 育 学 の 分 野 で は 、 日 本 語 教 育 用 文 型 、 誤 用 の 有 無 と 種 別 、 社 会 言 語 学 の 分 野 で は 、 発 話 権 の 有 無 、 相 づ ち の 有 無 、 視 線 の 向 き 、 手 の 動 き 、 音 声 的 な 強 弱 や 高 低 、 な ど 多 岐 に わ た る 。 そ れ ら の 視 点 か ら デ ー タ を 分 析 す る た め に は 、 デ ー タ で あ る コ ー パ ス に そ れ ら の 情 報 が 含 ま れ て い な け れ ば な ら な い 。 し か し こ れ ら の す べ て を 備 え た コ ー パ ス は 存 在 し な い た め 、 研 究 者 自 身 が 付 与 す る 必 要 が あ る 。 現 状 の コ ン コ ー ダ ン サ ー で は コ ー パ ス 自 体 を 作 る と い う レ ベ ル の 作 業 を 行 え
17 る も の は 存 在 し な い 。専 用 ソ フ ト と し て 、『BTSJ 文字化・集計システムセット』 な ど が あ る が 、 談 話 分 析 に 特 化 し た コ ー パ ス の 作 成 の た め の も の で あ り 汎 用 性 に は 乏 し い 。 ま た 作 成 さ れ た コ ー パ ス は 語 の 頻 度 の 集 計 な ど を 行 え な い 形 式 の も の と な り 、 コ ー パ ス と し て の 有 用 性 の 一 部 し か 発 揮 で き な い も の で あ る 。 ま た 独 自 に 付 与 さ れ た タ グ を 効 果 的 に 扱 え る コ ン コ ー ダ ン サ ー も 存 在 し な い 。 1.2.5 先行ソフトの目的 『Himawari』 は 用 例 抽 出 の み を 行 う 単 機 能 ソ フ ト で あ る た め 、 用 例 の 収 集 は 行 え る が 基 本 的 に 分 析 工 程 で は 扱 え な い 。 『AntConc』は英語を目的としたソフトであり日本語の特性に考慮して作ら れ た も の で は な い た め 、日 本 語 を 対 象 と し た 研 究 に は 効 率 的 に 対 応 が で き な い 。 『KH Coder』 は この 中 で最 も 日本 語 の分析 に 向い て いる と 思われ る 。し か し 詳 し く 見 て い く と 、 助 詞 、 助 動 詞 な ど の 機 能 語 が 分 析 対 象 か ら 外 れ る よ う に 設 計 さ れ て い る 点 や 、 語 を 基 本 形 で し か 扱 え ず 、 活 用 さ れ た 形 で は 扱 い づ ら い 点 な ど 、 言 語 分 析 用 ソ フ ト と 見 な す に は 多 少 の 食 い 違 い が 見 ら れ る 。 こ れ に 関 し て 、 樋 口 (2013)では『KH Coder』の作成目的を「計量テキスト分析を実 現 す る た め に 製 作 し た ソ フ ト ウ ェ ア ( 樋 口 2013:2)」と し てい る。 ま た、 こ の「 計 量 テ キ ス ト 分 析 」を「 質 的 デ ー タ に あ る 種 の 数 値 化 操 作 を 加 え る こ と で 、 計 量 的 に 分 析 す る こ と 」 と し 、 そ の デ ー タ に 関 し て は 「 社 会 調 査 に よ っ て 得 ら れ る デ ー タ に は 、 大 き く 分 け て 量 的 デ ー タ と 質 的 デ ー タ の 2 種 類 が あ る 。 こ の う ち 質 的 デ ー タ と は 、数 値 の 形 に な っ て い な い デ ー タ 全 般 で あ り 、例 え ば 新 聞・ 雑 誌 記 事 、 ア ン ケ ー ト に よ る 自 由 記 述 、 イ ン タ ビ ュ ー の ト ラ ン ス ク リ プ ト な ど が あ る 。」 と し て い る 。 要 す る に 、 こ の 『KH Coder』は一般的な言語研究の対 象 で あ る 、特 定 表 現 の 追 及 や 分 析 で は な く 、「 言 語 で 書 か れ た デ ー タ 全 体 の 性 質 」 の 分 析 を 目 的 と す る も の で 、 そ の 主 な 対 象 分 野 は 社 会 学 で あ る と し て い る 。 分 析 元 の デ ー タ そ の も の の 性 質 を 知 る こ と を 目 的 に 作 成 さ れ た も の で あ る た め 、 名 詞 な ど 内 容 語 の 扱 い に 特 に 気 を 配 ら れ て い て 、 助 詞 、 助 動 詞 な ど は 基 本 的 に 考 慮 に 入 れ ら れ て い な い の も 作 成 目 的 か ら し て 当 然 の こ と で あ る 。
18 こ の よ う に 、 現 状 で は 、 日 本 語 を 主 に 扱 え る 言 語 分 析 を 目 的 と し た ソ フ ト は 存 在 し な い と い え る 。 1.2.6 小結 以 上 見 て き た よ う に 現 状 で は 、 コ ー パ ス を 利 用 し て 一 般 的 な 言 語 研 究 を 行 う 場 合 に は 、 用 例 の 検 索 、 用 例 の 分 類 の た め の タ グ 付 与 、 用 例 の 分 析 の た め の 計 量 的 分 析 処 理 、研 究 の 立 場 に 深 く 対 応 す る た め の コ ー パ ス 作 成 の 各 点 に 関 し て 、 ま だ ま だ 不 十 分 で あ る と 考 え ら れ る 。 ま た 、 先 行 す る ソ フ ト と し て は 、 『Himawari』『AntConc』『 KH Coder』 の3つ が 主な もの とし て存在 す るが 、 そ の 機 能 、 作 成 目 的 か ら し て 真 の 意 味 で の 日 本 語 用 コ ン コ ー ダ ン サ ー は い ま だ 存 在 し な い と い え る 。 1.3 コーパス利用技術開発研究の現状 コ ー パ ス を 扱 う 際 に は 、 コ ー パ ス を 分 析 す る ソ フ ト が 必 要 で あ る 。 し か し 、 実 際 の 現 行 す る 言 語 分 析 ソ フ ト ウ ェ ア を 見 る と 、 言 語 研 究 の 現 場 の 求 め る も の と 言 語 分 析 ソ フ ト の 開 発 者 が 取 り 組 ん で い る 課 題 の 間 に は 溝 が あ る と い え る 。 そ れ を 1 つ 1 つ 丁 寧 に 埋 め る 必 要 が あ る と 考 え ら れ る 。 前 節 で 見 た よ う に 、 機 械 に よ る 言 語 分 析 に 関 し 、 現 場 で は 細 か い ニ ー ズ が 数 多 く あ る が 、 自 然 言 語 処 理 な ど の 開 発 側 で は 、 そ れ ら に 目 が 向 け ら れ ず に 残 さ れ た ま ま さ ら に 高 度 な 課 題 に 取 り 組 ん で い る の が 現 状 で あ る 。 自 然 言 語 処 理 学 会 で の 研 究 テ ー マ を 、学 会 HP から引用すると 以下のとおりに設定されている。 自 然 言 語 処 理 研 究 会 (NL) で の 研 究 会 で 取 り 扱 う 分 野 言 語 理 論 、 言 語 行 動 、 言 語 資 料 ・ 統 計 、 言 語 デ ー タ ベ ー ス 、 辞 書 、 文 法 、 形 態 素 解 析 、 統 語 解 析 、 意 味 解 析 、 文 脈 解 析 、 対 話 、 談 話 理 解 、 文 生 成 、 音 声 、 言 語 知 識 表 現 ・ 獲 得 、 機 械 翻 訳 、 情 報 検 索 ・ 抽 出 、 文 書 処 理 ・ 要 約 、 自 然 言 語 ソ フ ト ウ ェ ア 、 そ の 他 言 語 解 析 の 応 用 、 等 (http://www.nl-ipsj.or.jp/#area)
19 こ こ で は 、 統 計 解 析 や 意 味 解 析 、 文 脈 解 析 な ど 、 非 常 に 有 用 性 の 高 い 課 題 が 多 く 設 定 さ れ て い る 。 こ れ ら は 確 実 に 必 要 な 課 題 で あ り 、 高 精 度 に 実 現 さ れ る こ と で 言 語 分 析 は 飛 躍 的 に 高 ま る と い え る も の ば か り で あ る 。 し か し 、 言 語 分 析 で の 現 場 の ニ ー ズ は そ れ に 比 べ る と 、 具 体 的 で あ り 見 方 に よ っ て は 遥 か に 低 次 元 の も の で あ る が 、 し か し よ り 必 要 性 の あ る も の ば か り で あ る 。 そ れ ら の 、 置 き 去 り に さ れ た 問 題 の 解 決 こ そ が 先 決 で あ る 。 基 礎 的 な 部 分 で そ れ ら の ニ ー ズ を 解 決 す る こ と で 、 現 行 す る 言 語 処 理 機 能 が 遥 か に 実 際 の 言 語 現 象 に 即 し た も の と な り え る 。 こ の よ う に 、 言 語 研 究 の 現 場 に お い て 求 め ら れ る ニ ー ズ は 、 開 発 者 の 側 の 興 味 と 一 致 し な く 、 顧 み ら れ な い こ と も 多 い 。 1.4 研究課題と研究目的および研究意義 こ れ ま で 見 て き た よ う に 、 一 般 的 な 言 語 研 究 の 手 順 に お い て 、 ま だ ま だ 手 作 業 で 各 工 程 が 行 わ れ て い る こ と が 多 い と い う 現 状 が あ る 。 手 作 業 に は 3 点 の 問 題 が あ る 。 ま ず 、 作 業 効 率 が 著 し く 低 い た め 、 研 究 に 時 間 が か か る と い う 点 で あ る 。 次 に 、 作 業 ミ ス が 発 生 し や す く 、 そ れ に よ っ て 導 き 出 さ れ た 結 果 の 精 度 に は 疑 問 が 残 る と い う 点 で あ る 。 さ ら に 分 析 の た め の 分 類 結 果 の 集 計 な ど の 際 に 膨 大 な 時 間 を 要 す る た め 、あ ら か じ め 予 測 さ れ る 結 果 だ け を 求 め が ち に な り 、 研 究 に 先 入 観 が 含 ま れ や す い と い う 点 で あ る 。 こ の よ う に 効 率 、 精 度 、 先 入 観 の 点 か ら も 手 作 業 で の 分 析 に は 問 題 が あ る と 考 え ら れ る 。 こ れ を 解 決 す る の は 、 デ ー タ に は コ ー パ ス を 用 い 、 用 例 の 収 集 や 分 析 に は コ ン コ ー ダ ン サ ー を 用 い る と い う こ と で あ る 。 こ れ に よ り 、 上 記 の 3 点 は 根 本 的 に 解 決 さ れ る と 思 わ れ る 。 既 存 の コ ン コ ー ダ ン サ ー は そ れ ぞ れ 非 常 に 価 値 が あ り 、 優 れ た も の で あ る 。 し か し 、 い く つ か の 点 に お い て 、 い ま だ 不 十 分 な 点 も 多 々 あ る 。 本 章 で は 、 先 行 す る コ ン コ ー ダ ン サ ー の 考 察 を 通 し て 、 言 語 研 究 に 求 め ら れ る に も 関 わ ら ず 実 現 が さ れ て い な い 以 下 の 研 究 課 題 を 見 出 し た 。