• 検索結果がありません。

多言語対応コンコーダンサー『HASHI』 : 日本語と日本語教育と社会言語学の研究を中心に

N/A
N/A
Protected

Academic year: 2021

シェア "多言語対応コンコーダンサー『HASHI』 : 日本語と日本語教育と社会言語学の研究を中心に"

Copied!
212
0
0

読み込み中.... (全文を見る)

全文

(1)

多言語対応コンコーダンサー『HASHI』 : 日本語と

日本語教育と社会言語学の研究を中心に

著者

田中 良

学位名

博士(言語コミュニケーション文化)

学位授与機関

関西学院大学

学位授与番号

34504甲第569号

URL

http://hdl.handle.net/10236/00025149

(2)

関 西 学 院 大 学 大 学 院

言 語 コ ミ ュ ニ ケ ー シ ョ ン 文 化 研 究 科

博 士 学 位 論 文

多 言 語 対 応 コ ン コ ー ダ ン サ ー 『

HASHI』

―日 本 語 と 日 本 語教 育 と 社 会 言 語学 の 研 究 を 中 心に ―

田 中 良

2015 年 3 月

(3)

i

博士学位 論文

多言語対 応コ ンコー ダンサー 『

HASHI』

― 日本語 と日 本語教 育と 社会 言語 学 の研 究を中心 に ―

田中 良

論文審査 員

主 査 :

副 査 :

副 査 :

副 査 :

(4)

ii 謝 辞 本 論 文 の 執 筆 に あ た っ て は 、 多 く の 方 々 の お 世 話 に な り ま し た 。 こ こ に 記 し て 御 礼 を 申 し 上 げ ま す 。 ま ず 、 指 導 教 官 で あ る 于 康 教 授 に は 、 つ ね に 厳 し く も 暖 か い 丁 寧 な ご 指 導 を い た だ き 、 数 え き れ な い ほ ど た い へ ん 貴 重 な ご 意 見 を 賜 り ま し た 。 先 生 か ら は 研 究 の 方 法 論 や 提 示 の 仕 方 の み な ら ず 、 研 究 に 対 す る 姿 勢 や 人 間 性 な ど に つ い て も い ろ い ろ と ご 教 示 い た だ き 、 こ れ か ら の 研 究 生 活 や 人 生 に お け る 貴 重 な 財 産 と な り ま し た 。 こ の 場 を 借 り て 、 心 よ り 感 謝 を 申 し 上 げ ま す 。 副 指 導 教 官 の 神 崎 高 明 教 授 、 梅 咲 敦 子 教 授 、 森 本 郁 代 教 授 へ も 厚 く 御 礼 を 申 し 上 げ ま す 。 毎 月 一 回 の 文 化 セ ミ ナ ー で は 、 い つ も ご 丁 寧 に 指 導 し て く だ さ り 具 体 的 で 重 要 な ご 意 見 や コ メ ン ト を い た だ き ま し た 。こ こ に 改 め て 心 よ り 御 礼 を 申 し 上 げ ま す 。 次 に 、 博 士 論 文 の 審 査 に 際 し て 、 于 康 教 授 、 神 崎 高 明 教 授 、 梅 咲 敦 子 教 授 、 同 志 社 女 子 大 学 の 村 木 新 次 郎 教 授 に は た い へ ん 貴 重 な コ メ ン ト を た く さ ん い た だ き ま し た 。 ま た 、 中 国 人 民 大 学 の 張 威 教 授 、 北 京 第 二 外 国 語 学 院 の 王 怡 准 教 授 、 福 建 師 範 大 学 の 林 璋 教 授 、 湖 南 大 学 の 張 佩 霞 教 授 の 諸 先 生 方 か ら ご 指 導 い た だ き 、 有 意 義 な コ メ ン ト な ど を い た だ き ま し た 。 こ こ に て 諸 先 生 方 に も 心 よ り 感 謝 を 申 し 上 げ ま す 。 さ ら に 、 関 西 学 院 大 学 言 語 コ ミ ュ ニ ケ ー シ ョ ン 文 化 研 究 科 于 康 ゼ ミ の 苞 山 武 義 氏 、 向 坂 卓 也 氏 、 林 春 氏 、 朴 麗 華 氏 、 高 山 弘 子 氏 、 呉 芝 蒸 氏 等 の 方 々 よ り 貴 重 な ご 助 言 を い た だ き ま し た 。 英 文 要 旨 の 作 成 、 添 削 に 際 し て は 、 金 澤 佑 氏 、 奥 園 優 氏 に 多 大 な ご 協 力 を い た だ き ま し た 。 多 く の 方 々 の ご 教 示 と ご 支 援 が あ っ た か ら こ そ 、 こ の 論 文 を 仕 上 げ る こ と が で き ま し た 。 改 め て 心 よ り 御 礼 を 申 し 上 げ ま す 。 ま た 、 経 済 的 に 援 助 し て く だ さ っ た 関 西 学 院 大 学 大 学 院 に 深 く 御 礼 を 申 し 上 げ ま す 。 多 く の 貴 重 な ご 意 見 や 知 見 を 与 え て く だ さ っ た 友 人 の 皆 様 に も 、 感 謝 い た し ま す 。

(5)

iii

最 後 に 、 長 年 側 で 見 守 り 、 辛 坊 強 く 支 え 続 け て く れ た 家 族 に は 何 よ り も 深 く 感 謝 を 述 べ た い と 思 い ま す 。

こ こ に 御 礼 を 申 し 上 げ ら れ な か っ た 方 々 も 含 め 、 多 く の 方 々 の お 世 話 に な り ま し た 。 重 ね て 、 感 謝 の 御 礼 を 申 し 上 げ ま す 。

(6)

iv

著 作 権 お よ び 使 用 許 諾

本 研 究 で 提 示 す る コ ン コ ー ダ ン サ ー『ToriBASHI』、『SaiBASHI』、『HASHI』 の 著 作 権 は 田 中 良 に 帰 属 す る 。 本 ソ フ ト に 関 し 、 著 作 権 者 の 許 可 な く 無 断 で 複 製 、 譲 渡 、 転 売 、 改 変 、 お よ び 目 的 外 の 使 用 を す る こ と を 禁 ず る 。 本 ソ フ ト の 使 用 に よ っ て 生 じ る あ ら ゆ る 直 接 的 、 間 接 的 損 害 お よ び 不 具 合 に 関 し て は 、 著 作 権 者 は 一 切 の 責 任 を 負 わ な い も の と す る 。 ま た 、 無 断 で の 改 変 、 複 製 さ れ た ソ フ ト の 使 用 に よ っ て 生 じ た い か な る 、 直 接 的 、 間 接 的 損 害 お よ び 不 具 合 に 関 し て 、 著 作 権 者 は 一 切 の 責 任 を 負 わ な い も の と す る 。

(7)

v

ABSTRACT

HASHI, a new multilingual concordancer:

From the perspective of studies on Japanese, Japanese pedagogy,

and sociolinguistics.

by

Ryo Tanaka

The present study is an attempt to solve problems of existing

corpora

and

concordancers,

especially

in

areas

where

improvements are necessary for better linguistic research and

linguistic pedagogical practices. The research methodology

commonly applied in such fields of research as Japanese syntax,

Japanese pedagogy, and sociolinguistics includes analysis of

collected examples. The present survey reveals that corporal

methods have the potential to be utilized at the stages other than

that of collecting examples.

The major problem in collecting examples is that it is difficult to

extract data of sentence patterns such as “動詞 ても 動詞 ても”

and “ ~ が ~ に 動 詞 . ” It has become customary to classify

collected examples nonmechanically without the aid of corporal

method. In other words, corporal method to analyze data using tag

is not utilized fully albeit much __ demand. This implies the

necessity of an improved corporal method which adopts more

convenient and adjusted system than current tagging system. It is

(8)

vi

also desirable for a new corporal system to be capable of various

corporal analyses such as the one which incorporates numerical

survey and statistical data of lexical frequency and strength of

syntagmatic co-occurrence. Another demand is for the system to

extract frequently used data of sentence patterns automatically, its

numerical solution is __ yet to be invented.

Meanwhile, it is also necessary to develop a system which is

capable of deeper analyses based on individual study fields and

perspectives. For example, the unit of word differs across

theoretical viewpoints. In other words, different theories of

grammar and mechanical processing segments sentences into

words differently. The new methodological system needs to be able

to function based on such various definitions of units at each

researcher’s command. By the same token, more sophisticated

features attributed to linguistic data as follows should be able to

input efficiently into corpora with less expertise in programming:

semantic usage of particles, classification within verbs,

pedagogical classification of Japanese sentence pattern, error

information and its taxonomy, the presence/absence of utterance

right, the presence/absence of nod assent, and the direction of the

speaker’s gaze.

To sum up the above, the current corporal methodology needs _

the following new features:

(1). Universal and convenient system to collect target examples.

(2). Efficient tagging system that allow the information to be

tagged from any research perspectives.

(9)

vii

numerical analysis.

(4). Flexibility to produce data according to diverse research

perspectives and interests.

(5). Integrated system with all the processes generally used in

linguistic research.

This study tried to inspect these issues, successfully making

and presenting the following new concordancers: “ToriBASHI,”

“SaiBASHI,” and “HASHI,” which incorporated the features listed

above in the following manner: number 1, number 2, and number

3-4 respectively.

In chapter 1, the problems of the current concordancer are

manifested by inspecting existing linguistic analysis software.

In chapter 2, the solution about collecting complex examples

such as extraction of sentence patterns are introduced (which

corresponds to the feature number 1; on data retrieval). For

instance, when collecting sentence pattern of “[verb] temo [verb]

temo” as is seen in “tabetemo tabetemo” or “hashittemo

yukkuritoaruitemo,” past concordancers functioned only by formal

and complicated retrieval cues or descriptive script specifying

grammatical and case information of each words one by one

sequentially, only to retrieve imperfect and merely approximate

results. This problem was overcome by making it possible to

retrieve with the proximal cue which is similar in form with the

simpler formula “動詞 ても~動詞 ても.”

In chapter 3, improved system of tagging collected examples is

stated (which corresponds to the feature number 2 above). The

dominant tagging method, in which keyboard is used, had a

(10)

viii

problem regarding data reliability due to the inefficiency and

error-prone nature of the input _by human hands. This problem

was solved by preparing pre-fabricated tagging list and easy

selective tagging system. It also became possible for users to set up

tagging standards freely according to their interests. When tagging

a word in an identical manner across the sentences, mechanical

tagging and automatic retrieval and re-aggregation are

implemented.

In chapter 4, the features number 3 and 4 are considered and

incorporated. The numerical methods of collecting and analyzing

data are undercultivated both in corpora as a whole and in

individual words. As to holistic corporal level, “N-mgram,” which is

N-gram with specified number of slots, is introduced; enabling

retrieving of such expression as “よう な ◯ が し た.” N-mgram

collects expressions partly identical with each other, making the

most of the advantage of N-gram to be able to collect expressions

automatically. As to lexical level, “POPAK” was developed, which

is capable of both processing KWIC, collection of examples of

designated word, and Picture, numerical detecting system of lexical

tendency. Owing to this, such facts became evident as verb “なる”

is most often used in the sentence pattern “の ○ が ○ に なっ

.”

As for lexical units, which work as the fundamental elements of a

corpus, user flexibility was pursued. A user can select desirable

definitions of units of both Japanese research and mechanical

processing. Moreover, original unit can be created according to the

researchers’ needs. Based on the system, simultaneous tagging

became implementable from even more diverse perspectives.

(11)

ix

Tagging became more robust universally by implementing various

systems such as selection from lists, automatic discrimination of

tags, and tagging identical features consecutively. Also, further

functions including tagging information about speakers or

composers and correspondence with vocal data are mounted,

allowing the making of corpora possible in any field of study.

In the final chapter, the issues _pursued in this study and their

respective solutions are summarized, followed by presentation of

possible implications to linguistic research, along with statement

on limitations of this study and outlook for the further study.

This study is significant in making advanced corporal operation

accessible to wider population of linguistic researchers and

language teachers who may have less expertise. Furthermore, it

became feasible to make a specialized corpus according to the users ’

academic fields and perspectives.

(12)

x 目 次 論 文 審 査 員 ... i 謝 辞 ... ii 著 作 権 お よ び 使 用 許 諾 ... iv 英 文 要 旨... v 第 1 章 コ ー パ ス 利 用 研 究 の 問 題 点 と 先 行 研 究 ... 1 1.1 言語研究におけるコーパス利用の現状 ... 1 1.1.1 日本語学の場合 ... 2 1.1.2 社会言語学の場合 ... 5 1.1.3 日本語教育学の場合 ... 8 1.1.4 小結 ... 10 1.2 先行ソフトの現状... 11 1.2.1 用例の検索 ... 12 1.2.2 用例へのタグ付与と利用 ... 13 1.2.3 計量的分析処理 ... 15 1.2.4 コーパス自体の形式と作成 ... 15 1.2.4.1 日本語における語の単位 ... 15 1.2.4.2 独自の視点からのコーパスの作成 ... 16 1.2.5 先行ソフトの目的 ... 17 1.2.6 小結... 18 1.3 コーパス利用技術開発研究の現状 ... 18 1.4 研究課題と研究目的および研究意義... 19 1.5 用語の定義 ... 20 1.6 論文構成 ... 22 第 2 章 柔 軟 で 詳 細 な 用 例 検 索 ― 『ToriBASHI』― ... 24 2.1 用例の収集の基本と先行ソフトでの実現性 ... 24 2.2 用例検索ソフト『ToriBASHI』での用例収集 ... 32

(13)

xi 2.3 『ToriBASHI』での用例編集 ... 35 2.4 さまざまな用例での検証 ... 38 2.4.1 「NP に NP が+(いる/ある)」の検証 ... 39 2.4.2 「NP を+VP(れた/られた) NP」の検証 ... 47 2.4.3 「NP(は/が)+NP を+VP(れる/られる)」の検証 ... 50 2.5 第2章まとめ ... 53 第 3 章 用 例 分 析 の た め の タ グ 付 与 ― 『SaiBASHI』― ... 55 3.1 データの特徴や規則性 ... 55 3.2 タグとその種類 ... 60 3.3 タグの役割 ... 65 3.3.1 タグの意義 ... 65 3.3.2 タグによる検索と集計 ... 66 3.3.3 二次タグの役割 ... 67 3.4 既存の方法でのタグ付与 ... 69 3.4.1 出典情報のタグ ... 69 3.4.2 語彙形態素及び品詞情報のタグ ... 72 3.4.3 分析用情報のタグ ... 74 3.4.3.1 手作業によるタグ付与 ... 74 3.4.3.2 テキストエディタによるタグ付与 ... 75 3.4.3.3 『MS-Excel』によるタグ付与 ... 77 3.4.3.4 専用ソフトによるタグ付与... 82 3.4.4 小結... 86 3.5 自在なタグ付与機能及び高度な検索機能付きソフト『SaiBASHI』 . 88 3.5.1 必要箇所への効果的なタグ付与 ... 88 3.5.2 タグリストによるタグ付与 ... 91 3.5.3 自動判別でのタグ付与 ... 94 3.5.4 分析用情報のタグの検索と集計 ... 97 3.5.4.1 二次タグとしての分析用情報のタグの特性への対応 ... 97

(14)

xii 3.5.4.2 分析用情報のタグでの検索・集計 ... 98 3.5.5 小結... 100 3.6 第3章まとめ ... 100 第 4 章 多 機 能 型 コ ン コ ー ダ ン サ ー―『HASHI』― ... 104 4.1 本章の概要 ... 104 4.1.1 データの土台 ... 104 4.1.2 検索... 104 4.1.3 計量的分析手法 ... 105 4.1.4 タグ付与とコーパス作成 ... 105 4.2 データの土台 ... 105 4.2.1 日本語での語の単位 ... 105 4.2.1.1 語の単位の規定の必要性 ... 106 4.2.1.2 既存の語の単位 ... 109 4.2.1.2.1 機械処理の観点からの語の単位 ... 109 4.2.1.2.2 文法研究の観点からの語の単位 ... 113 4.2.1.2.3 語の単位ごとの特徴 ... 116 4.2.1.3 語の各単位の設定と利用 ... 120 4.2.1.3.1 単位ごとの欠点の解決 ... 120 4.2.1.3.2 語の各単位の併設 ... 123 4.2.2 データの構造 ... 124 4.2.2.1 行レベルのデータと語レベルのデータ ... 124 4.2.2.2 多層構造データ ... 125 4.2.2.3 本データ構造で記録できる情報と対応できる研究分野 ... 126 4.2.3 小結... 129 4.3 検索 ... 132 4.3.1 詳細検索 ... 132 4.3.2 行レベルのタグの組み合わせ検索 ... 133 4.3.3 詳細検索の検索例 ... 133

(15)

xiii 4.3.4 小結... 135 4.4 計量的分析手法 ... 135 4.4.1 計量的分析手法と意義と既存の手法 ... 135 4.4.2 計量的手法による文型の抽出 ... 139 4.4.2.1 コーパス全体で多く使用される文型の抽出 ... 139 4.4.2.2 対象となる語を中心とした文型の抽出 ... 143 4.4.2.2.1 既存の手法 ... 144 4.4.2.2.1.1 コロケーションや構文の抽出処理 ... 144 4.4.2.2.1.2 KWIC ... 146 4.4.2.2.1.3 Picture ... 148 4.4.2.2.1.4 既存の手法のまとめ ... 150 4.4.2.2.2 POPAK による文型の検出 ... 151 4.4.2.2.2.1 POPAK ... 151 4.4.2.2.2.2 最低合算値 ... 153 4.4.2.2.2.3 集計値 ... 156 4.4.2.2.2.4 KWIC 表示への切り替え ... 157 4.4.2.2.2.5 POPAK の使用手順例 ... 158 4.4.2.2.2.6 POPAK のまとめと有効分野 ... 160 4.4.3 小結... 161 4.5 タグ付与による研究視点の利用とコーパス作成 ... 162 4.5.1 タグによる情報の付与 ... 162 4.5.2 『SaiBASHI』でのタグ付与方法と問題点 ... 162 4.5.3 既存のタグ付与ソフト ... 163 4.5.4 研究分野ごとのタグ付与とコーパス構築 ... 164 4.5.4.1 日本語研究分野でのコーパス構築 ... 164 4.5.4.1.1 コーパス中の語とタグの構造 ... 165 4.5.4.1.2 リストからの入力 ... 166 4.5.4.1.3 集中的タグ付与 ... 167

(16)

xiv 4.5.4.1.4 自動でのタグ付与 ... 168 4.5.4.2 日本語教育分野でのコーパス構築 ... 168 4.5.4.3 社会言語学分野でのコーパス構築 ... 170 4.5.4.3.1 行タグの付与 ... 171 4.5.4.3.2 同一タグの連続入力 ... 172 4.5.4.3.3 音声との連動 ... 172 4.5.4.4 コーパスの構築 ... 173 4.5.5 タグの検索 ... 174 4.5.6 作成したデータの外部への保存 ... 175 4.5.7 小結... 176 4.6 多言語への対応 ... 177 4.6.1 多言語化 ... 177 4.6.2 英語およびヨーロッパ言語への対応 ... 177 4.6.3 中国語への対応 ... 178 4.6.4 韓国語への対応 ... 178 4.6.5 小結... 179 4.7 第4章まとめ ... 179 第 5 章 結 論 ... 184 参 考 文 献... 188

(17)

1 第 1 章 コ ー パ ス 利 用 研 究 の 問 題 点 と 先 行 研 究 1.1 言語研究におけるコーパス利用の現状 現 在 、 言 語 研 究 に お い て 大 規 模 デ ー タ の 量 的 分 析 の ア プ ロ ー チ は 急 速 に 広 ま っ て い る 。 つ ま り 、 こ れ は 実 際 に 使 用 さ れ た 言 語 デ ー タ の 大 規 模 な 集 積 で あ る コ ー パ ス の 普 及 を 意 味 す る 。国 立 国 語 研 究 所 の『 日 本 語 話 し 言 葉 コ ー パ ス 』『 現 代 日 本 語 書 き 言 葉 均 衡 コ ー パ ス(BCCWJ)』を筆頭に、名古屋大学の『名大会 話 コ ー パ ス 』、東 京 外 国 語 大 学 の『BTSJ による日本語話し言葉コーパス』など 多 数 の コ ー パ ス が 作 成 さ れ 続 け て い る 。 同 様 に 、 イ ン タ ー ネ ッ ト 上 で 誰 で も ダ ウ ン ロ ー ド で き る 青 空 文 庫 に は 著 作 権 の 切 れ た 小 説 を 始 め と し た 文 書 が 大 量 に 保 存 さ れ て い る 。 こ れ ら も 重 要 な 言 語 研 究 の 材 料 と い え る 。 他 に も ま と ま っ た 言 語 デ ー タ と し て 各 新 聞 社 か ら 一 年 分 ご と に デ ジ タ ル デ ー タ 化 し た 過 去 の 新 聞 記 事 を 購 入 す る こ と が で き る 。 こ れ ら も 実 質 的 な コ ー パ ス と み な す と 、 有 償 無 償 、 大 小 合 わ せ て 十 分 な 数 と 内 容 の コ ー パ ス が 整 備 さ れ つ つ あ る と い え る 。 さ ら に 、 コ ー パ ス は 大 規 模 な プ ロ ジ ェ ク ト に よ っ て 作 成 さ れ る も の 以 外 に も 、 各 研 究 者 個 人 が そ の 研 究 目 的 の た め に 個 々 に デ ー タ を 集 め て 作 成 す る よ う な 、 短 期 間 で 作 成 す る も の や 小 規 模 な も の も あ る 。 こ の よ う に コ ー パ ス は ま す ま す 多 様 化 し て お り 、 言 語 研 究 の 多 く の 分 野 で 非 常 に 効 果 的 に 扱 え る も の で あ り 、 そ の 使 用 領 域 は さ ら に 広 が っ て い く も の と 思 わ れ る 。 こ れ ら コ ー パ ス は 、 あ く ま で も 言 語 資 源 の 蓄 積 で あ る 以 上 、 い わ ゆ る 「 コ ー パ ス 言 語 学 」 の ア プ ロ ー チ の み な ら ず 、 従 来 の 日 本 語 学 、 日 本 語 教 育 学 、 社 会 言 語 学 な ど の 各 研 究 分 野 が 対 象 と し て き た 言 語 の 実 例 デ ー タ と な ん ら 変 わ る こ と は な い 。 つ ま り 、 コ ー パ ス と は コ ー パ ス 研 究 の た め だ け に 存 在 す る の で は な く 、 実 例 を 元 に 行 わ れ る あ ら ゆ る 研 究 分 野 で 対 象 と な り え る 貴 重 な 言 語 デ ー タ で あ る 。 本 章 で は 、 こ れ ら コ ー パ ス が 実 際 に ど の 程 度 利 用 さ れ て い る か の 現 状 を 、 日 本 語 を 対 象 と し た 研 究 分 野 別 に 見 て い く 。

(18)

2 1.1.1 日本語学の場合 日 本 語 学 分 野 に お い て の 調 査 は 『 日 本 語 文 法 』2007 年から 2014 年の論文、 研 究 ノ ー ト を 対 象 に 行 っ た 。 該 当 時 期 の 論 文 の う ち 、 書 評 、 レ ビ ュ ー 、 展 望 、 理 論 言 語 学 的 研 究 、 教 科 書 分 析 、 外 国 語 研 究 、 音 声 研 究 の 論 文 の も の は 省 き 、 最 新 の も の か ら 100 本分を調べた。 表 1-1 『 日 本 語 文 法 』 に お け る コ ー パ ス 利 用 数 論 文 100 コ ー パ ス 使 用 31 タ グ 付 与 2 既 存 タ グ 付 与 ソ フ ト 使 用 0 独 自 書 式 に よ る 書 き 起 こ し 4 『 日 本 語 文 法 』 で は 、 文 法 の 研 究 が 主 で あ る た め 用 例 が 必 要 で あ る 。 そ の た め 、 用 例 を 収 集 す る 目 的 と し て コ ー パ ス や そ れ に 近 い 独 自 作 成 の デ ー タ の 使 用 が 4 割 弱 の 研 究 で 利 用 さ れ て い る 。 コ ー パ ス か ら 収 集 さ れ た 用 例 は 、 そ の 後 、 構 文 や 用 法 、 機 能 な ど に よ っ て 分 類 さ れ 、 そ の 分 類 ご と に ま と め て 傾 向 な ど を 分 析 す る と い う 手 法 が ほ と ん ど の 論 文 で 行 わ れ て い た 。 こ の う ち 、 コ ー パ ス を 利 用 し た 文 法 研 究 に お い て 現 在 最 も 一 般 的 な 手 順 を 踏 ん で い る と 考 え ら れ る 研 究 の 例 と し て 清 水(2010)を挙げる。その手順とは以 下 の 一 連 の も の で あ る 1 ) な ん ら か の 機 械 的 な 検 索 方 式 を 用 い コ ー パ ス か ら 用 例 を 収 集 す る 。 2 ) 収 集 し た 用 例 を 目 視 で 選 別 す る 。 3 ) 該 当 す る 用 例 を 全 て パ タ ー ン に 分 け 規 則 性 や 傾 向 性 を 発 見 す る 。 主 な 研 究 内 容 は 以 下 の と お り で あ る 。

(19)

3 テ ー マ :「「A テモ B テモ」文の分析」 デ ー タ :『CD-毎日新聞 1991 ~ 1999 年度版』、『BCCWJ1 領域内公開デー タ (2009 年度版)』、検索エンジン Google、から収集 内 容 :「A テモ B テモ」文の A と B に現れる動詞の共起パターンの調査 手 順 : 1 )「 動 詞 の 連 用 形 + テ モ ( デ モ )」 を 2 回 含 む 文 を 機 械 的 に 抽 出 す る 。 (「 東 京 へ 行 っ て も 大 阪 へ 行 っ て も 」の よ う な 文 が あ る た め 、2 つ の「 テ モ 」 の 間 に 1 ~ 5 つ の 形 態 素 が 入 る も の ま で が 検 索 の 対 象 と な る 。)2 2 ) 該 当 し な い も の を 目 視 で 取 り 除 く 。 3 ) 抽 出 し た 2850 例を、A と B が異なるものと同じものとに分け る。前 者 が 「 選 択 並 列 用 法 」、 後 者 が 「 反 復 用 法 」 と な る 。 結 果 : < 選 択 並 列 用 法 > 抱 い て も ミ ル ク を 飲 ま せ て も 泣 き や み ま せ ん 。 < 反 復 用 法 > 5 歳 の 娘 は 食 べ て も 食 べ て も 太 ら な い 。 選 択 並 列 用 法 は 、 2 つ の 「 テ モ 」 と 主 節 と の 関 係 で 4 つ に 分 類 さ れ る 。 1 )「A テモ」=逆条件、「 B テモ」=逆条件 抱 い て も ミ ル ク を 飲 ま せ て も 泣 き や み ま せ ん 。 2 )「A テモ」=並列、「 B テモ」=逆条件 勝 っ て も 負 け て も 悔 い の な い 試 合 を 通 し て ( 後 省 略 ) 3 )「A テモ」=並列、「 B テモ」=並列 血 糖 値 は 上 が り す ぎ て も 下 が り す ぎ て も 困 る ( 後 省 略 ) 4 )「A テモ」=逆条件、「 B テモ」=並列 数 学 な ん て や っ て も や ん な く て も 出 来 な い し ( 後 省 略 ) 反 復 用 法 は 、 分 類 を し て い な い 。「A テモ B テモ」節には進展性の意味を 持 つ 動 詞 が 現 れ る 、た だ し 主 節 に 動 作・状 態 が 続 い た 場 合「 当 然 現 れ る は 1 国 立 国 語 研 究 所 に よ る 『 現 代 日 本 語 書 き 言 葉 均 衡 コ ー パ ス 』 の こ と 。 2 こ こ で の 検 索 は 一 般 的 な 研 究 よ り も や や 高 度 な 方 法 を 用 い て い る と 考 え ら れ る 。

(20)

4 ず の 事 態 が 変 わ ら ず 続 い て い る 」と い う 事 態 の 継 続 を 表 す 表 現 が 現 れ る こ と が 明 ら か に な っ た 、 と 述 べ て い る 。 当 該 研 究 で は 、 用 例 の 収 集 に 関 し て は コ ー パ ス を 使 う こ と で 、 大 量 の デ ー タ か ら 極 め て 効 率 よ く 高 精 度 に 行 え て い る も の と 考 え ら れ る 。 そ の 後 、 多 く の 研 究 と 同 様 に 、 そ の 収 集 し た 結 果 を 分 類 し て い る 。 分 類 の 際 の 具 体 的 な 作 業 方 法 が 明 記 さ れ て い な い が 、 そ れ 以 外 の 方 法 が 詳 細 に 記 載 さ れ て い る こ と か ら 、 特 別 な 処 理 方 式 は 取 っ て い な い と 思 わ れ る 。 つ ま り 、 収 集 し た 用 例 を 全 て 紙 に 印 刷 し 、 ペ ン な ど で マ ー ク を 付 け て い く 、 も し く は 『 メ モ 帳 』 や 『 秀 丸 』 の よ う な テ キ ス ト エ デ ィ タ 上 で パ タ ー ン 情 報 を 記 載 し て い く 、 ま た は 『Microsoft Excel(以下、MS-Excel)』のような一般用途のソフトによって同様に情報を記 載 す る 方 式 な ど を 行 っ た と 考 え ら れ る 。 こ の 、 分 類 に よ る 分 析 で は 、「 タ グ3」 を 用 い れ ば 効 果 的 に 分 析 を 行 う こ と が で き る よ う に な る で あ ろ う 。こ こ で は 、「 選 択 並 列 用 法 」「 反 復 用 法 」「 並 列 」「 逆 条 件 」 な ど の 分 類 名 が タ グ と な る 。 収 集 し た 用 例 へ タ グ を 付 与 す る こ と で 、 こ れ を 元 に 用 例 を さ ら に 絞 り 、 よ り 詳 細 な 結 果 を 得 る こ と が で き る よ う に な る 。 ま た タ グ に よ り 集 計 を 行 う こ と で 、 分 類 ご と の 使 用 数 を 瞬 時 に 知 る こ と が で き る 。 ま た そ の 結 果 を 条 件 ご と に 切 り 替 え な が ら 見 比 べ る こ と で 、 そ の 場 で の 新 た な 発 見 に 合 わ せ て 柔 軟 に 用 例 の 傾 向 に 迫 る こ と が で き る 。 収 集 し た 用 例 に 対 し て 研 究 者 自 身 が タ グ 付 与 を 行 っ て い た 研 究 は 中 俣(2010) と 丸 山(2008)の2つのみであった。ただし、2つの研究とも、使用コーパス に 関 し て 極 め て 詳 し い 記 述 が な さ れ て お り 、 コ ー パ ス に 長 け た 研 究 者 で あ る こ と が 伺 え る 。 つ ま り タ グ 付 与 を 行 う 研 究 者 は 、 コ ー パ ス や そ の 利 用 技 術 に 関 し て か な り 詳 し い も の の み で あ る 可 能 性 が 高 い と い え る 。 し か し 、 そ の タ グ を 付 与 し て い た 研 究 者 で も 既 存 の タ グ 付 与 ソ フ ト は 使 用 せ ず 、 独 自 の 方 式 で 行 っ て い た 。 論 文 中 に 明 記 は さ れ て い な い た め 実 際 の 方 法 は 不 明 だ が 、 お そ ら く 手 作 3 形 態 素 解 析 ソ フ ト な ど の タ ガ ー に よ っ て 付 与 さ れ る 語 の 基 本 形 情 報 や 品 詞 情 報 も 本 稿 で は 同 様 に タ グ と し て 扱 う 。 ま た 研 究 に よ っ て は 「 ア ノ テ ー シ ョ ン 」 と 表 現 し て い る も の も あ る が 、 同 様 の も の と し て 扱 う 。

(21)

5 業 で 行 っ た と 思 わ れ る 。 こ の よ う に 、 用 例 の 分 類 な ど 実 質 的 に タ グ 付 与 と 同 等 の 作 業 を 行 っ て い て も タ グ 自 体 は 利 用 し て い な い か 、 も し く は コ ー パ ス 利 用 に 長 け て い て 、 タ グ 付 与 を 行 っ て い る 研 究 者 で あ っ て も 実 際 に 既 存 の タ グ 付 与 ソ フ ト は 使 用 し て い な い の が 現 状 で あ る 。 日 本 語 学 の 分 野 の 特 徴 は 次 の よ う に な る 。 用 例 の 検 索 は 4 割 弱 が コ ー パ ス や そ れ に 近 い デ ー タ か ら 行 い 、 既 存 の 検 索 方 式 を 用 い て い る 。 た だ し 、 複 雑 な 文 型4な ど の 場 合 、特 殊 な 方 式 を 用 い て 収 集 し て い る 。収 集 し た 用 例 は 分 類 し て 傾 向 性 や 特 徴 を 分 析 し て い る 。 た だ し 、 タ グ な ど を 用 い ず に 目 視 や 簡 易 的 な 方 式 で 行 っ て い る 。 1.1.2 社会言語学の場合 社 会 言 語 学 分 野 に お い て の 調 査 は『 社 会 言 語 科 学 』2007 年から 2014 年の研 究 論 文 、 資 料 、 シ ョ ー ト ノ ー ト を 対 象 に 行 っ た 。 こ の う ち 、 書 評 、 展 望 、 実 地 調 査 の も の は 省 き 、 最 新 の も の か ら 100 本分を調べた。 表1-2 『 社 会 言 語 科 学 』 に お け る コ ー パ ス 利 用 数 論 文 100 コ ー パ ス 使 用 8 タ グ 付 与 6 既 存 タ グ 付 与 ソ フ ト 使 用 1 独 自 書 式 に よ る 書 き 起 こ し 56 『 社 会 言 語 科 学 』 で は 、 分 析 用 の 用 例 の 収 集 に 関 し て 既 存 の 一 般 公 開 さ れ て い る コ ー パ ス の 利 用 は そ れ ほ ど な か っ た 。 こ の 分 野 の 研 究 で は 談 話 分 析 や 会 話 分 析 が 多 く 、 書 き 言 葉 で は な く 話 し 言 葉 が 研 究 対 象 に な る こ と が 多 い 。 ま た そ の 話 し 言 葉 で も 自 由 会 話 だ け で な く 、「 助 言 場 面 」「 3 人 で の 同 時 会 話 」 な ど 特 4 日 本 語 教 育 で 用 い る 教 育 用 の 日 本 語 表 現 の み な ら ず 、日 本 語 記 述 文 法 研 究 会(2008)で は 、「 ク ラ ス 全 員 が 鈴 木 を 天 才 と 思 っ て い る 。」「 机 の 上 に は 辞 書 が あ る 」( 日 本 語 記 述 文 法 研 究 会 2008: 143) な ど を 構 文 と 呼 ぶ が 、 本 研 究 で は こ れ ら も 同 様 に 文 型 と 呼 ぶ 。

(22)

6 殊 な 条 件 付 け を 行 っ た 発 話 デ ー タ も 対 象 と な る 。 こ の た め 、 言 語 デ ー タ を 用 い た 研 究 の ほ と ん ど が 研 究 者 自 ら 発 話 を 録 音 し 文 字 化 し た も の を 分 析 し て い る 。 用 例 の 収 集 に 関 し て 、特 定 表 現 を 検 索 す る と い う よ り 、発 話 が 重 な っ た 箇 所 、 勧 誘 が 行 わ れ た 箇 所 な ど 特 定 の 場 面 の 例 を 抽 出 し て 分 析 す る も の が 多 か っ た 。 論 文 中 に 明 記 さ れ た も の か ら 見 る と 、タ グ 付 与 に 関 し て は や や 行 わ れ て い る 。 ま た 、 文 字 化 の 際 に 発 話 内 容 以 外 の さ ま ざ ま な 情 報 を 書 き 加 え て い る 研 究 が 多 い 。 こ れ は 既 存 の コ ー パ ス 自 体 を 使 用 せ ず 、 独 自 デ ー タ を 文 字 化 し て コ ー パ ス と 同 等 に 使 用 し て い る 研 究 が 極 め て 多 い た め で あ ろ う 。 図1-1 名 塩 ・ 水 島 ( 2011) で の ト ラ ン ス ク リ プ ト 図 1-1 に見られるように、 01,02 など発話の番号、 D:,E:など発話者の記号、 hhh で示された笑い 声 、 [ で 示された 同時発 話箇所、 ( )で 示され た非言語行 動 や 注 釈 、な ど さ ま ざ ま な 情 報 が 発 話 デ ー タ 中 に 書 き 込 ま れ て い る 。こ れ ら は 、 意 味 合 い と し て は タ グ と 同 等 と 考 え ら れ る 。

(23)

7 図1-2 坊 農 ( 2011) で の ト ラ ン ス ク リ プ ト 情 報 の 付 与 の 形 式 と し て は 、図 1-2 は手話を記録したコーパスの例であるが、 RH で示された右手の動き、LH で示された左手の動き、日本語に置き換えたと き の 言 葉 、 が そ れ ぞ れ 別 々 に 全 3 層 で 記 録 さ れ て い る 。 こ の よ う に 同 時 に 起 こ る 多 様 な 種 類 の 情 報 を 記 録 す る た め の 工 夫 や ニ ー ズ が 存 在 す る こ と も 分 か る 。 し か し こ れ ら の 研 究 で も 文 字 化 や タ グ 付 与 を 、 テ キ ス ト フ ァ イ ル や 『Microsoft Word』上で行っているため、付与した情報がほとんど目視だけ で し か 利 用 さ れ て い な い 。 つ ま り 、 ほ と ん ど の 研 究 者 が 実 際 に タ グ 付 与 と 同 じ く ら い の 労 力 を か け て 豊 富 な 情 報 を 付 与 し て い る の で あ る が 、 そ れ ら の 情 報 は 目 視 以 外 で は ほ ぼ 活 用 で き て い な い と い え る 。 社 会 言 語 学 分 野 で の 特 徴 は 次 の よ う に な る 。 分 析 元 の デ ー タ で あ る コ ー パ ス 自 体 を 自 作 し て い る こ と が 非 常 に 多 い 。 ま た そ の 際 に 研 究 目 的 ご と に 情 報 を 付 与 し て い る 。 付 与 さ れ る 情 報 は 実 質 的 に タ グ と 同 等 で あ る 。 タ グ 付 与 に 関 し て は 、 収 集 し た 用 例 の 分 類 の タ グ よ り も コ ー パ ス 全 体 へ の タ グ で あ り 、 種 別 も 多 様 で 、 さ ら に 多 種 類 の タ グ の 同 時 付 与 な ど の 試 み も 見 ら れ た 。 こ の よ う に タ グ の 利 用 や ニ ー ズ は 極 め て 高 い と 思 わ れ る 。

(24)

8 分 析 項 目 と な る 用 例 の 収 集 は 、 特 定 の 語 な ど の 言 語 形 式 で は な い た め 、 コ ー パ ス か ら の 検 索 な ど は 行 わ ず 、 目 的 表 現 や 箇 所 を 目 視 で 探 し 当 て て 収 集 し て い る 。 用 例 の 収 集 後 に は あ ら か じ め 付 与 し た タ グ を 目 視 す る こ と に よ り 、 傾 向 性 を さ ぐ っ て い る 。 付 与 し た タ グ は コ ー パ ス の 利 点 を 発 揮 せ ず 、 ほ ぼ 目 視 に よ っ て 使 用 さ れ る 。 1.1.3 日本語教育学の場合 日 本 語 非 母 語 話 者 に 対 す る 日 本 語 教 育 学 分 野 に お い て の 調 査 は『 日 本 語 教 育 』 2005 年から 2014 年の論文、調査報告、研究ノート を対象に行った。該当時期 の う ち 、 書 評 、 レ ビ ュ ー 、 展 望 、 教 科 書 分 析 、 意 識 調 査 、 外 国 語 研 究 、 新 テ ス ト の 提 示 、 コ ー ス 設 計 の 提 示 、 各 国 の 日 本 語 教 育 事 情 、 授 業 分 析 、 コ ー パ ス や 利 用 技 術 自 体 の 提 示 の 論 文 の も の は 省 き 、 最 新 の も の か ら 100 本 分を 調 べ た 。 表 1-3 『 日 本 語 教 育 』 に お け る コ ー パ ス 利 用 数 論 文 100 コ ー パ ス 使 用 23 タ グ 付 与 3 既 存 タ グ 付 与 ソ フ ト 使 用 0 独 自 書 式 に よ る 書 き 起 こ し 21 こ こ で は コ ー パ ス 自 体 の 利 用 数 が 日 本 語 学 よ り は や や 少 な い 。 こ れ は 、 研 究 に 当 た り 独 自 の デ ー タ を 取 る こ と が 多 い た め で あ る 。 そ の た め 、 独 自 ル ー ル に よ り デ ー タ を 文 字 化 し た 研 究 が ほ ぼ 同 数 存 在 す る 。 劉 (2012)では、BCCWJ から用例を収集し、動作主認識の副詞的成分 ごと に 、そ れ ぞ れ の 語 に 共 起 す る 代 表 的 な 述 語 動 詞 を 分 析 し て い る 。こ こ で は〈 快 〉 の 感 情 ・ 感 覚 を 表 す 形 容 詞 連 用 形 が 動 作 主 認 識 の 副 詞 的 成 分 と し て 用 い ら れ や す い こ と 、 そ の 理 由 は 語 用 論 的 理 由 に よ る も の で あ る こ と を 解 明 し て い る 。 ま た 、曹 ・ 仁 科(2006)では、中国人日本語学習者の作文から、形容詞・形容動

(25)

9 詞 の 共 起 関 係 の 学 習 状 況 を 、 誤 用 例 を 元 に 研 究 し て い る 。 中 国 の 大 学 の 日 本 語 科 の 学 生 の 作 文 な ど 計 2477 文から抽出したフレーズを正用と誤用に分け、独 自 の 共 起 用 法 提 示 ツ ー ル に よ っ て 名 詞 と 形 容 詞 お よ び 形 容 動 詞 の 共 起 妥 当 性 を 判 断 、 最 後 に 共 起 表 現 を 量 的 及 び 質 的 に 分 析 す る こ と で 、 学 習 者 の 共 起 表 現 の 習 得 状 況 を 観 察 し て い る 。 誤 用 に 対 し て は 、 さ ら に 、A 共起、B 語選択、C 共 起 + 語 選 択 、D 文法関係、の4つに分類している。また、ここでは具体的方法 は 明 記 し て い な い が 名 詞 や 形 容 詞 な ど の 品 詞 情 報 を 利 用 し て い る こ と か ら 、 作 文 コ ー パ ス に 対 し て 、 な ん ら か の 形 態 素 解 析 ソ フ ト に よ っ て 品 詞 タ グ を 自 動 付 与 し て い る こ と が 考 え ら れ る 。ほ か に も 、今 井(2010)では間接受身に関する 文 法 的 研 究 を 行 っ て い て 、船 戸(2012)では終助詞の「ね」の分析を行 ってい る 。 独 自 の 研 究 視 点 か ら の タ グ 付 与 に 関 し て 見 る と 、 関 崎 (2013)などが BTSJ に 基 づ く 形 で の タ グ 付 与 を 行 っ て い る 。 し か し 、 具 体 的 な タ グ 付 与 に 専 用 ソ フ ト を 使 用 し た か ど う か に は 触 れ て い な い 。 ほ か で は 、 船 戸 (2012)で は 、「 コ ー デ ィ ン グ 」 と い う 名 前 な が ら タ グ 付 与 を 行 っ て い る な ど が あ る が 、 こ れ ら も 手 作 業 で あ る 。 ほ か に 、 デ ー タ を 計 量 的 に 分 析 す る 手 法 も 使 わ れ て い る 。 李 (2011) で は 、 大 規 模 テ ス ト 作 成 の た め 、 コ ー パ ス 利 用 に よ る 主 成 分 分 析 の 方 式 が 提 案 さ れ て い る が5、こ れ は 実 際 の 研 究 と い う よ り も 新 し い 手 法 の 紹 介 と い う 意 味 合 い の も の で あ る 。山 本(2011)では、国会議論における論点の抽出を行っている。「 国 会 会 議 録 検 索 シ ス テ ム 」 で 第 1 回 (1947 年)、から第 176 回(2010 年)まで の 会 議 録 か ら 「 日 本 語 教 育 」 と い う 語 を 含 む 発 言 を 全 て 抽 出 し 、『KH Coder6 に よ っ て 、「 日 本 語 教 育 」と 他 の 名 詞 と の 共 起 ネ ッ ト ワ ー ク を 作 成 し 、当 該 語 が ど の よ う な 名 詞 と 強 く 結 び つ い て 表 現 さ れ て い る か を 調 査 し て い る 。 以 上 見 た よ う に 、 日 本 語 教 育 学 の 分 野 の 特 徴 は 次 の と お り で あ る 。 日 本 語 教 育 学 独 自 と い え る 誤 用 の 研 究 以 外 に も 、 日 本 語 学 で の 文 法 研 究 的 な 研 究 や 社 会 5 石 川(2008)で は 、語 の 単 純 頻 度 や 共 起 頻 度 、ま た は そ れ を 示 す 表 だ け で な く 数 学 的 統 計 手 法 を 含 め 、「 言 語 の 計 量 」 と 述 べ て い る 。 6 立 命 館 大 学 樋 口 耕 一 氏 に よ る テ キ ス ト マ イ ニ ン グ 用 ソ フ ト で 、擬 似 的 に 日 本 語 コ ン コ ー ダ ン サ ー と し て 扱 わ れ る こ と も あ る 。

(26)

10 言 語 学 的 な 研 究 も 含 ん で い て 、 コ ー パ ス 利 用 の 現 状 か ら 見 る と そ の 2 つ の 分 野 の 中 間 的 な 傾 向 が あ る と い え る 。 ま た 、 コ ー パ ス を 利 用 す る 場 合 は 高 度 な 統 計 処 理 の み を 行 う か 、 用 例 収 集 の み を 行 い 分 類 を す る と い う 手 法 に 分 か れ る 。 統 計 処 理 で は 、 主 成 分 分 析 な ど の 高 度 な も の を 用 い 、 そ の 結 果 を 図 で 確 認 す る な ど が 行 わ れ て い て 、 そ れ と は 別 に 質 的 な 考 察 な ど も 行 わ れ て い る 。 タ グ に 関 し て は 用 例 の 分 類 に は 用 い ら れ ず 、 コ ー パ ス 全 体 に 対 し 品 詞 情 報 の 自 動 付 与 を 行 う こ と は あ る 。 た だ し 正 用 、 誤 用 に 関 し て の 情 報 や 、 誤 用 の 種 別 に 関 し て は デ ー タ 中 へ の 付 与 は せ ず 、 分 類 作 業 の み を し て い る 。 独 自 に 作 成 し た デ ー タ を 扱 う 場 合 、 文 字 化 デ ー タ に タ グ を 付 与 す る が そ れ は 手 作 業 で 行 う た め 、 そ の 後 の 機 械 検 索 は ほ ぼ 行 わ れ な い 。 日 本 語 教 育 学 の 分 野 で は コ ー パ ス を さ ま ざ ま な 方 法 を 用 い て 利 用 し て い る こ と が 分 か る 。 1.1.4 小結 こ れ ま で 集 計 し て き た 各 分 野 の コ ー パ ス 利 用 状 況 を ま と め る と 以 下 の と お り と な る 。 そ れ ぞ れ の 分 野 の 特 性 が こ の 表 に 現 れ て い る と い え よ う 。 表1-4 日 本 語 学 、 社 会 言 語 学 、 日 本 語 教 育 学 の 各 分 野 に お け る コ ー パ ス 利 用 数 日 本 語 文 法 社 会 言 語 科 学 日 本 語 教 育 論 文 100 100 100 コ ー パ ス 使 用 31 8 23 タ グ 付 与 2 6 3 既 存 タ グ 付 与 ソ フ ト 使 用 0 1 0 独 自 書 式 に よ る 書 き 起 こ し 4 56 21 用 例 の 検 索 は 分 野 に よ る が 比 較 的 利 用 さ れ て い る 。 た だ し 、 高 度 な 文 型 な ど は 既 存 の 検 索 方 式 で は 行 わ れ て い な い 。 用 例 の 分 析 の た め の タ グ 付 与 は ほ ぼ 行 わ れ て い な い 。 社 会 言 語 学 や 日 本 語 教 育 学 で は 独 自 の デ ー タ を 作 成 す る こ と も

(27)

11 多 く 、 そ の 際 に は ほ ぼ タ グ と 同 等 の も の が 利 用 さ れ る が 、 手 作 業 や 目 視 の も の と 大 差 な い 方 式 の 物 が 使 用 さ れ て い る 。 日 本 語 教 育 学 で は 統 計 処 理 な ど の 計 量 的 な 分 析 手 法 が 利 用 さ れ は じ め て い る 。 ま た 日 本 語 教 育 学 で は コ ー パ ス 全 体 へ の タ グ と し て 品 詞 な ど の 情 報 を 付 与 し て 利 用 す る こ と も あ る と い う 現 状 が 明 ら か に な っ た 。 1.2 先行ソフトの現状 一 般 的 な 言 語 研 究7の 手 順 と し て 、用 例 の 収 集 、用 例 の 分 析 と が あ る 。こ れ ら が コ ー パ ス に よ り ど の 程 度 行 え る か を 先 行 ソ フ ト の 調 査 を も と に 考 察 す る 。 ま た 、 各 研 究 者 の 持 つ 研 究 の 立 場 や 興 味 に 対 し て ど れ だ け 先 行 ソ フ ト が 叶 え ら れ る か も 同 時 に 考 察 す る 。 コ ー パ ス か ら の 機 械 的 な 用 例 の 抽 出 や 計 量 的 に 分 析 を 行 う ソ フ ト ウ ェ ア の こ と を コ ン コ ー ダ ン サ ー と 呼 ぶ 。 コ ー パ ス を 扱 う 際 に は 実 際 に は こ の コ ン コ ー ダ ン サ ー を 通 し て 扱 う こ と が 一 般 的 で あ ろ う8 い く つ か の コ ー パ ス で は 、 専 用 の コ ン コ ー ダ ン サ ー が 付 随 し 、 そ れ を 通 し て の み 扱 え る 。 オ ン ラ イ ン 上 で 扱 え る コ ー パ ス が 典 型 的 な 例 で あ る 。 し か し 、 も し そ れ ら の コ ン コ ー ダ ン サ ー が 非 常 に 優 れ た も の で あ っ た と し て も 、 そ れ を 使 っ て 他 の コ ー パ ス や 、 自 ら が 作 成 し た コ ー パ ス を 分 析 す る こ と は で き ず 、 同 様 の 方 式 、 基 準 で 複 数 の コ ー パ ス の 比 較 が で き な い た め 、 そ の 分 析 手 段 の 応 用 、 再 利 用 性 は 低 い と い え る 。 そ こ で 、 さ ま ざ ま な 領 域 で 利 用 さ れ る た め に は 、 特 殊 な タ グ 情 報 が 全 く 付 与 さ れ て い な い プ レ ー ン テ キ ス ト を 対 象 に 扱 え る 、 も し く は 、 簡 単 に デ ー タ 形 式 を 対 応 さ せ ら れ る コ ン コ ー ダ ン サ ー が 必 要 で あ る 。 本 研 究 で 比 較 す る 先 行 コ ン コ ー ダ ン サ ー は 、 こ の よ う な ス タ ン ド ア ロ ー ン で 扱 え 、 プ レ ー ン テ キ ス ト を 分 析 で き る も の が 対 象 と な る 。 7 コ ー パ ス を 使 用 す る こ と を 絶 対 と し な い 、日 本 語 学 、日 本 語 教 育 学 、社 会 言 語 学 な ど の 分 野 で の 研 究 で 、 比 較 的 多 く 用 い ら れ る 研 究 内 容 を 指 す 。

8 た だ し 、unix の sh コ マ ン ド や Perl、 Ruby な ど の ス ク リ プ ト 言 語 の ワ ン ラ イ ナ ー で 、 対 話 的 に 扱 う 方 法 も あ る が 、極 め て 高 度 な た め 一 般 の 言 語 研 究 者 に は 非 常 に 敷 居 が 高 く 現 実 的 で は な い 。

(28)

12

最 近 の 一 般 的 な コ ー パ ス 利 用 研 究 の 入 門 書 と い え る 、石 川(2012)では日本 語 分 析 が 可 能 な コ ン コ ー ダ ン サ ー と し て『Himawari』、『AntConc』、『KH Coder』 の 3 つ が 提 示 さ れ て い る 。そ こ で は 、『Himawari』は単機能コンコーダンサー、 『AntConc』は多機能コンコーダンサー、『KH Coder』は多機能コンコーダン サ ー と さ れ て い る 。 本 研 究 で は 先 行 す る 日 本 語 コ ン コ ー ダ ン サ ー と し て こ の 3 つ を 取 り 上 げ る 。 実 際 に 日 本 語 を 分 析 し よ う と す る 際 に は こ の 3 つ は 大 い に 使 わ れ て い る ソ フ ト で あ り 、 現 状 の 日 本 語 分 析 現 場 を 反 映 し て い る と 思 わ れ る 。 1.2.1 用例の検索 用 例 の 収 集 の た め に は 、 用 例 の 検 索 を 行 う 必 要 が あ る 。 検 索 す る 語 句 は 、 単 独 の 語 の み を 指 定 し て 検 索 す る こ と が 基 本 と な る 。 こ れ は 最 も 基 本 的 な 方 法 で あ る た め 、 ど の コ ン コ ー ダ ン サ ー で も 行 え る 。 さ ら に 『KH Coder』 で は以 前 か ら 、『Himawari』に関しては ver.1.5 から語の全活用形の検索も行える。つ ま り 、「 行 く 」と い う 語 を 検 索 す る 場 合 に は 、「 行 か( な い )」「 行 き( ま す )」「 行 け( ば )」な ど の す べ て の 形 が 抽 出 で き る の で あ る 。ま た 同 様 に 、「 名 詞 」や「 形 容 詞 」 な ど の 品 詞 を 指 定 し て 検 索 す る こ と も で き る 。 こ れ は 既 に 一 般 的 な 方 式 に な っ て い る と 考 え ら れ る 。 複 数 の 語 か ら な る 表 現 を 検 索 す る 場 合 、『Himawari』、『AntConc』ではその ま ま 検 索 し た い 表 現 を 記 述 す る こ と で 検 索 で き る 。 ま た 『KH Coder』 で は検 索 す る 語 を 1 つ ず つ の 位 置 を 個 別 に 指 定 す る こ と で 検 索 可 能 と な る 。 1.1.1 で見た清水( 2010)では「動詞の連用形+テモ(デモ)」を2回含む文 を 抽 出 し て い る 。 こ の よ う な 文 型 も 収 集 す る 必 要 性 が あ る 。 こ れ は 「 東 京 へ 行 っ て も 大 阪 へ 行 っ て も 」 の よ う に 、 こ の 文 型 の 間 に い く つ か の 語 が 入 る 可 能 性 が あ る 複 雑 な も の で あ る 。 こ れ を 『Himawari』、『 AntConc』 で 検 索 す る た め に は 、正 規 表 現9を 使 う 必 要 が あ る が 非 常 に 複 雑 な 書 式 に な る た め 使 用 者 の 負 担 が 強 い 。『KH Coder』では文型の中に使用される語を分割して、その並びの位 置 ご と に 指 定 す る が 、 こ れ も 擬 似 的 に し か 行 え な い 。 さ ら に そ の ど ち ら の 検 索 9 文 字 列 を 一 定 の ル ー ル に 置 き 換 え た も の で あ る 。

(29)

13 方 法 を 用 い て も 収 集 で き る 用 例 は 不 完 全 な も の と な る 。 こ の た め 、 文 型 を 完 全 に 収 集 で き る 検 索 方 式 は い ま だ 存 在 し な い 。 1.2.2 用例へのタグ付与と利用 用 例 を 収 集 し た あ と は 分 析 を 行 う が 、 用 例 の 分 類 か ら 行 う 方 法 が あ る 。 コ ー パ ス を 用 い て デ ー タ を 分 類 し 、 そ れ を 利 用 し て 分 析 す る た め に は タ グ 付 与 が 必 要 で あ る 。 既 存 の タ グ 付 与 ソ フ ト と し て は 、 既 に 『BTSJ 文字化・集計システ ム セ ッ ト10』『 S S T 書 き 起 こ し 支 援 ツ ー ル11』 や 『KH Coder』な ど少 数な が ら 存 在 す る12。し か し 、1.1 の調査でも分かるように、実際にはこれらのタグ付 与 ソ フ ト は 、 少 な く と も 日 本 語 研 究 の 世 界 に お い て は ほ ぼ 利 用 さ れ て い な い 。 『BTSJ 文字化・集計システムセット』では、付与できるタグが決まっていて 汎 用 性 が 少 な い う え に 作 業 が 面 倒 で あ り 、『 S S T 書 き 起 こ し 支 援 ツ ー ル 』で は 覚 え な け れ ば い け な い タ グ 形 式 が 多 く 非 常 に 煩 雑 で あ る 。 付 与 し た タ グ を 利 用 す る に は コ ン コ ー ダ ン サ ー が 必 要 で あ る 。『Himawari』 で は 、 本 文 内 に 文 字 列 と し て 直 接 書 き 込 む こ と で 、 疑 似 的 な タ グ と す る こ と が で き る13 図 1-3 『 Himawari』 で の 本 文 内 タ グ 図 1-3 は、コーパスデータの本文内に「(・・・・・)」の形式でタグを付与 10 東 京 外 国 語 大 学 宇 佐 美 ま ゆ み 氏 に よ る 発 話 コ ー パ ス 作 成 形 式 の 作 成 ソ フ ト で あ る 。 11 情 報 通 信 研 究 機 構 に よ る 。タ イ ト ル の 全 角 英 数 に 関 し て は 、発 行 元 の と お り 用 い て い る 。 12 国 立 国 語 研 究 所 の 『 Himawari ver.1.5』 で は 、 用 例 へ の タ グ 付 与 が 行 え る が 、 2014 年 12 月 20 日 公 開 の た め 、 こ れ ま で の 研 究 に は 反 映 さ れ て い な い 。 13 『 Himawari ver1.5』 か ら は 検 索 結 果 に 対 し 本 文 外 へ タ グ 付 与 で き る よ う に な っ た が 、 こ こ で は こ れ ま で の 方 式 と し て 示 す 。

(30)

14 し た も の14で あ る 。 こ の 形 式 は 仕 組 み が 単 純 で あ り 作 成 を 非 常 に 簡 易 に 行 え る と い う メ リ ッ ト が あ る が 、 文 内 容 に そ の ま ま タ グ が 現 れ る の で 取 り 扱 い が 不 便 で あ る 。 『AntConc』ではタグ情報を扱うことはできるが、『Himawari』の例と同様 に 本 文 に 直 に 付 け た も の を 扱 う 。 図 1-4 『 AntConc』 で の 本 文 内 タ グ な お 『AntConc』では、設定によってタグ部の表示は消せるため、タグで検 索 を 行 い つ つ 本 文 の み を 表 示 さ せ る な ど 見 や す い 形 式 に で き る15、 た だ し 、 タ グ 付 与 結 果 に 対 す る 高 度 な 統 計 処 理 な ど は ほ ぼ 行 え な い 。 『KH Coder』では、タグ情報は「 <H1>・・・・</H1>」のように元のテキ ス ト 自 体 へ 、 規 定 ル ー ル に 基 づ い た 追 記 を す る こ と で 行 え る 。 し か し 、 元 デ ー タ へ の 書 式 の 直 接 の 記 入 は 一 般 使 用 者 に と っ て は ハ ー ド ル が 高 い と 思 わ れ る 。 ま た 、こ れ は タ イ ト ル や 筆 者 、発 話 者 の 情 報 な ど の 言 語 外 の 情 報 し か 扱 え な い 。 こ の よ う に 用 例 分 析 の た め の 分 類 処 理 で あ る タ グ 付 与 は 現 状 で は ほ ぼ 行 え な い 。 付 与 し た タ グ の 利 用 は 『AntConc』が最も有効であるが、それでも高度で 複 雑 な も の と い え る 。 14 こ の コ ー パ ス は 関 西 学 院 大 学 の 于 康 氏 の 作 成 し た『 中 国 語 母 語 話 者 の 日 本 語 誤 用 コ ー パ ス Ver. 7』 で あ る 。 15 実 際 に は 「Tag Settings」 で 利 用 で き る よ う に な る が 、 タ グ を 使 用 す る に は 高 度 に 正 規 表 現 を 工 夫 す る 必 要 が あ る た め 、 本 研 究 で は 立 ち 入 ら な い 。 ま た 、 そ の 際 も Collocates で は そ の 結 果 は 使 用 で き な い 。

(31)

15 1.2.3 計量的分析処理

現 在 コ ー パ ス を 利 用 し た 研 究 で 最 も 一 般 的 に 行 わ れ て い る 分 析 手 法 が 計 量 的 な 見 地 か ら 言 語 を 分 析 す る 方 法 で あ ろ う 。 こ れ は 、 コ ー パ ス の 大 き な 利 点 で あ る 、 研 究 者 の 思 い 込 み を 排 除 し た 言 語 の 真 に 一 般 的 な 傾 向 性 を 見 つ け ら れ る も の で あ る 。現 状 で は『AntConc』と『KH Coder』で使用でき、特に『KH Coder』 は こ れ に 特 化 し て 作 成 さ れ て い る た め 、非 常 に 高 度 な 数 学 的 統 計 処 理 が 行 え る 。 語 の 振 る 舞 い を 明 ら か に す る 処 理 で は 、 単 独 の 語 の 傾 向 性 、 あ る 語 と 周 囲 の 語 と の 関 係 性 、 複 数 の 語 の 連 鎖 に よ っ て 作 ら れ る 表 現 な ど が 分 か る 。 し か し さ ら に 発 展 さ せ た 、語 が 使 用 さ れ る 際 の 文 型 の 算 出 は 行 え な い 。「 か け る 」 や 「 と ぶ 」 な ど 、 主 と し て 含 む 語 は 決 ま っ て い る が 、 そ れ ら の 語 が ど の よ う な 文 型 の 中 で 使 用 さ れ て い る か は 不 明 な 場 合 で あ る 。 こ れ を 叶 え る 効 果 的 な 手 法 は 、 現 在 は ま だ 存 在 し な い 。 1.2.4 コーパス自体の形式と作成 コ ー パ ス で 各 研 究 者 の 研 究 興 味 や 視 点 に 深 く 根 付 い た 研 究 を す る た め に は 、 コ ー パ ス 自 体 を 研 究 者 の 立 場 や 興 味 を 反 映 し た も の に す る 必 要 が あ る 。 日 本 語 で は 、 語 を ど の よ う に 区 切 る か は 研 究 者 の 立 場 に よ っ て 違 い 、 ま た ど の 分 野 で あ っ た と し て も 各 研 究 視 点 か ら の 分 析 も 必 要 と な る 。 1.2.4.1 日本語における語の単位 日 本 語 は 分 か ち 書 き が さ れ て い な い 言 語 で あ り 、 語 の 認 定 が 明 確 で は な い 言 語 で あ る 。 こ の 「 語 」 を ど の よ う に 規 定 す る か 研 究 者 ご と に 説 が 分 か れ る 。 ま た 語 の 単 位 も 言 語 学 の 立 場 か ら の も の と 自 然 言 語 処 理 的 立 場 か ら の も の で 、 そ れ ぞ れ 複 数 存 在 す る 。 言 語 学 的 な も の で は 代 表 的 で あ る と 思 わ れ る も の が 3 つ 存 在 す る 。学 校 文 法 で の 単 位 、仁 田(1997)の単位、庵(2012)の単位である。 学 校 文 法 で の 「 語 」 は 特 に 短 い も の で 、 形 態 素 と し て 区 切 ら れ た も の と 近 い 区 切 り 方 と い え る 。 仁 田 (1997) の提 唱 す る単位 は い わ ゆ る附 属 語 を、「 語 と し て 認 定 さ れ 、 語 の 地 位 を 与 え ら れ て い た 助 詞 や 助 動 詞 を 、 語 と は 認 め ず 、 語 の

(32)

16 内 部 構 成 要 素 と し て 位 置 づ け る( 仁 田 1997:202-203)」としている。つまり、 名 詞 に 後 接 す る 格 助 詞 、 係 助 詞 も 含 め て 、 ま た 動 詞 に 後 接 す る 助 動 詞 、 補 助 動 詞 も 含 め て 1 つ の 語 と す る も の で あ る 。同 様 に 接 頭 辞 、接 尾 辞 も 単 独 で は「 語 」 と は 見 な さ な い 。 ま た 、 仁 田 の 単 位 に 近 い が 、 名 詞 に 続 く 格 助 詞 、 係 助 詞 は 別 語 と す る 庵(2012)の単位がある。他に、自然言語 処理的な立場から見ると日 本 語 の 単 位 は 主 に 2 つ の 単 位 が あ る 。ま ず 、「 短 単 位 」で あ る 。こ れ は 語 と し て は 最 も 短 い 分 け 方 に な る 。 次 に 、 そ れ を 元 に 一 定 の ル ー ル に 基 づ い て 長 い 単 位 に 結 合 し て 作 成 し た も の が 長 単 位 で あ る 。 こ れ は 、 主 に 名 詞 の 前 後 の 接 辞 を 名 詞 へ 連 結 し て 作 ら れ る 単 位 で あ り 、 動 詞 や 形 容 詞 な ど に 後 接 す る 助 動 詞 や 補 助 動 詞 は 本 体 部 へ は 結 合 さ れ な い と い う 特 徴 を 持 つ 。 各 単 位 そ れ ぞ れ に 長 短 が あ る 。現 行 の コ ン コ ー ダ ン サ ー に お い て 、「 複 数 の 語 の 単 位 を 選 択 し て 使 う 」 と い う 発 想 の 元 に 作 ら れ て い る も の に 国 立 国 語 研 究 所 の 『 現 代 日 本 語 書 き 言 葉 均 衡 コ ー パ ス 』 を 扱 え る 『 中 納 言 』 が あ る 。 こ れ は 国 立 国 語 研 究 所 が 提 示 す る 短 単 位 と 長 単 位 の 2 つ の 単 位 に 加 え 文 字 列 と し て の 検 索 が 行 え る 。し か し こ れ は Web コーパス専用ツールであり、各自が独自に持っ て い る コ ー パ ス や テ キ ス ト デ ー タ は 扱 え な い 。 ま た 、 言 語 学 的 な 立 場 か ら の 代 表 的 な 単 位 で あ る 仁 田(1997)や庵(2012)で提示された単位では語の検索や 集 計 が で き な い 。 1.2.4.2 独自の視点からのコーパスの作成 さ ま ざ ま な 研 究 分 野 で は 、 そ れ ぞ れ の 研 究 の 興 味 や 視 点 が あ る 。 日 本 語 学 の 分 野 で は 、 格 助 詞 の 意 味 用 法 、 動 詞 の 分 類 な ど 、 日 本 語 教 育 学 の 分 野 で は 、 日 本 語 教 育 用 文 型 、 誤 用 の 有 無 と 種 別 、 社 会 言 語 学 の 分 野 で は 、 発 話 権 の 有 無 、 相 づ ち の 有 無 、 視 線 の 向 き 、 手 の 動 き 、 音 声 的 な 強 弱 や 高 低 、 な ど 多 岐 に わ た る 。 そ れ ら の 視 点 か ら デ ー タ を 分 析 す る た め に は 、 デ ー タ で あ る コ ー パ ス に そ れ ら の 情 報 が 含 ま れ て い な け れ ば な ら な い 。 し か し こ れ ら の す べ て を 備 え た コ ー パ ス は 存 在 し な い た め 、 研 究 者 自 身 が 付 与 す る 必 要 が あ る 。 現 状 の コ ン コ ー ダ ン サ ー で は コ ー パ ス 自 体 を 作 る と い う レ ベ ル の 作 業 を 行 え

(33)

17 る も の は 存 在 し な い 。専 用 ソ フ ト と し て 、『BTSJ 文字化・集計システムセット』 な ど が あ る が 、 談 話 分 析 に 特 化 し た コ ー パ ス の 作 成 の た め の も の で あ り 汎 用 性 に は 乏 し い 。 ま た 作 成 さ れ た コ ー パ ス は 語 の 頻 度 の 集 計 な ど を 行 え な い 形 式 の も の と な り 、 コ ー パ ス と し て の 有 用 性 の 一 部 し か 発 揮 で き な い も の で あ る 。 ま た 独 自 に 付 与 さ れ た タ グ を 効 果 的 に 扱 え る コ ン コ ー ダ ン サ ー も 存 在 し な い 。 1.2.5 先行ソフトの目的 『Himawari』 は 用 例 抽 出 の み を 行 う 単 機 能 ソ フ ト で あ る た め 、 用 例 の 収 集 は 行 え る が 基 本 的 に 分 析 工 程 で は 扱 え な い 。 『AntConc』は英語を目的としたソフトであり日本語の特性に考慮して作ら れ た も の で は な い た め 、日 本 語 を 対 象 と し た 研 究 に は 効 率 的 に 対 応 が で き な い 。 『KH Coder』 は この 中 で最 も 日本 語 の分析 に 向い て いる と 思われ る 。し か し 詳 し く 見 て い く と 、 助 詞 、 助 動 詞 な ど の 機 能 語 が 分 析 対 象 か ら 外 れ る よ う に 設 計 さ れ て い る 点 や 、 語 を 基 本 形 で し か 扱 え ず 、 活 用 さ れ た 形 で は 扱 い づ ら い 点 な ど 、 言 語 分 析 用 ソ フ ト と 見 な す に は 多 少 の 食 い 違 い が 見 ら れ る 。 こ れ に 関 し て 、 樋 口 (2013)では『KH Coder』の作成目的を「計量テキスト分析を実 現 す る た め に 製 作 し た ソ フ ト ウ ェ ア ( 樋 口 2013:2)」と し てい る。 ま た、 こ の「 計 量 テ キ ス ト 分 析 」を「 質 的 デ ー タ に あ る 種 の 数 値 化 操 作 を 加 え る こ と で 、 計 量 的 に 分 析 す る こ と 」 と し 、 そ の デ ー タ に 関 し て は 「 社 会 調 査 に よ っ て 得 ら れ る デ ー タ に は 、 大 き く 分 け て 量 的 デ ー タ と 質 的 デ ー タ の 2 種 類 が あ る 。 こ の う ち 質 的 デ ー タ と は 、数 値 の 形 に な っ て い な い デ ー タ 全 般 で あ り 、例 え ば 新 聞・ 雑 誌 記 事 、 ア ン ケ ー ト に よ る 自 由 記 述 、 イ ン タ ビ ュ ー の ト ラ ン ス ク リ プ ト な ど が あ る 。」 と し て い る 。 要 す る に 、 こ の 『KH Coder』は一般的な言語研究の対 象 で あ る 、特 定 表 現 の 追 及 や 分 析 で は な く 、「 言 語 で 書 か れ た デ ー タ 全 体 の 性 質 」 の 分 析 を 目 的 と す る も の で 、 そ の 主 な 対 象 分 野 は 社 会 学 で あ る と し て い る 。 分 析 元 の デ ー タ そ の も の の 性 質 を 知 る こ と を 目 的 に 作 成 さ れ た も の で あ る た め 、 名 詞 な ど 内 容 語 の 扱 い に 特 に 気 を 配 ら れ て い て 、 助 詞 、 助 動 詞 な ど は 基 本 的 に 考 慮 に 入 れ ら れ て い な い の も 作 成 目 的 か ら し て 当 然 の こ と で あ る 。

(34)

18 こ の よ う に 、 現 状 で は 、 日 本 語 を 主 に 扱 え る 言 語 分 析 を 目 的 と し た ソ フ ト は 存 在 し な い と い え る 。 1.2.6 小結 以 上 見 て き た よ う に 現 状 で は 、 コ ー パ ス を 利 用 し て 一 般 的 な 言 語 研 究 を 行 う 場 合 に は 、 用 例 の 検 索 、 用 例 の 分 類 の た め の タ グ 付 与 、 用 例 の 分 析 の た め の 計 量 的 分 析 処 理 、研 究 の 立 場 に 深 く 対 応 す る た め の コ ー パ ス 作 成 の 各 点 に 関 し て 、 ま だ ま だ 不 十 分 で あ る と 考 え ら れ る 。 ま た 、 先 行 す る ソ フ ト と し て は 、 『Himawari』『AntConc』『 KH Coder』 の3つ が 主な もの とし て存在 す るが 、 そ の 機 能 、 作 成 目 的 か ら し て 真 の 意 味 で の 日 本 語 用 コ ン コ ー ダ ン サ ー は い ま だ 存 在 し な い と い え る 。 1.3 コーパス利用技術開発研究の現状 コ ー パ ス を 扱 う 際 に は 、 コ ー パ ス を 分 析 す る ソ フ ト が 必 要 で あ る 。 し か し 、 実 際 の 現 行 す る 言 語 分 析 ソ フ ト ウ ェ ア を 見 る と 、 言 語 研 究 の 現 場 の 求 め る も の と 言 語 分 析 ソ フ ト の 開 発 者 が 取 り 組 ん で い る 課 題 の 間 に は 溝 が あ る と い え る 。 そ れ を 1 つ 1 つ 丁 寧 に 埋 め る 必 要 が あ る と 考 え ら れ る 。 前 節 で 見 た よ う に 、 機 械 に よ る 言 語 分 析 に 関 し 、 現 場 で は 細 か い ニ ー ズ が 数 多 く あ る が 、 自 然 言 語 処 理 な ど の 開 発 側 で は 、 そ れ ら に 目 が 向 け ら れ ず に 残 さ れ た ま ま さ ら に 高 度 な 課 題 に 取 り 組 ん で い る の が 現 状 で あ る 。 自 然 言 語 処 理 学 会 で の 研 究 テ ー マ を 、学 会 HP から引用すると 以下のとおりに設定されている。 自 然 言 語 処 理 研 究 会 (NL) で の 研 究 会 で 取 り 扱 う 分 野 言 語 理 論 、 言 語 行 動 、 言 語 資 料 ・ 統 計 、 言 語 デ ー タ ベ ー ス 、 辞 書 、 文 法 、 形 態 素 解 析 、 統 語 解 析 、 意 味 解 析 、 文 脈 解 析 、 対 話 、 談 話 理 解 、 文 生 成 、 音 声 、 言 語 知 識 表 現 ・ 獲 得 、 機 械 翻 訳 、 情 報 検 索 ・ 抽 出 、 文 書 処 理 ・ 要 約 、 自 然 言 語 ソ フ ト ウ ェ ア 、 そ の 他 言 語 解 析 の 応 用 、 等 (http://www.nl-ipsj.or.jp/#area)

(35)

19 こ こ で は 、 統 計 解 析 や 意 味 解 析 、 文 脈 解 析 な ど 、 非 常 に 有 用 性 の 高 い 課 題 が 多 く 設 定 さ れ て い る 。 こ れ ら は 確 実 に 必 要 な 課 題 で あ り 、 高 精 度 に 実 現 さ れ る こ と で 言 語 分 析 は 飛 躍 的 に 高 ま る と い え る も の ば か り で あ る 。 し か し 、 言 語 分 析 で の 現 場 の ニ ー ズ は そ れ に 比 べ る と 、 具 体 的 で あ り 見 方 に よ っ て は 遥 か に 低 次 元 の も の で あ る が 、 し か し よ り 必 要 性 の あ る も の ば か り で あ る 。 そ れ ら の 、 置 き 去 り に さ れ た 問 題 の 解 決 こ そ が 先 決 で あ る 。 基 礎 的 な 部 分 で そ れ ら の ニ ー ズ を 解 決 す る こ と で 、 現 行 す る 言 語 処 理 機 能 が 遥 か に 実 際 の 言 語 現 象 に 即 し た も の と な り え る 。 こ の よ う に 、 言 語 研 究 の 現 場 に お い て 求 め ら れ る ニ ー ズ は 、 開 発 者 の 側 の 興 味 と 一 致 し な く 、 顧 み ら れ な い こ と も 多 い 。 1.4 研究課題と研究目的および研究意義 こ れ ま で 見 て き た よ う に 、 一 般 的 な 言 語 研 究 の 手 順 に お い て 、 ま だ ま だ 手 作 業 で 各 工 程 が 行 わ れ て い る こ と が 多 い と い う 現 状 が あ る 。 手 作 業 に は 3 点 の 問 題 が あ る 。 ま ず 、 作 業 効 率 が 著 し く 低 い た め 、 研 究 に 時 間 が か か る と い う 点 で あ る 。 次 に 、 作 業 ミ ス が 発 生 し や す く 、 そ れ に よ っ て 導 き 出 さ れ た 結 果 の 精 度 に は 疑 問 が 残 る と い う 点 で あ る 。 さ ら に 分 析 の た め の 分 類 結 果 の 集 計 な ど の 際 に 膨 大 な 時 間 を 要 す る た め 、あ ら か じ め 予 測 さ れ る 結 果 だ け を 求 め が ち に な り 、 研 究 に 先 入 観 が 含 ま れ や す い と い う 点 で あ る 。 こ の よ う に 効 率 、 精 度 、 先 入 観 の 点 か ら も 手 作 業 で の 分 析 に は 問 題 が あ る と 考 え ら れ る 。 こ れ を 解 決 す る の は 、 デ ー タ に は コ ー パ ス を 用 い 、 用 例 の 収 集 や 分 析 に は コ ン コ ー ダ ン サ ー を 用 い る と い う こ と で あ る 。 こ れ に よ り 、 上 記 の 3 点 は 根 本 的 に 解 決 さ れ る と 思 わ れ る 。 既 存 の コ ン コ ー ダ ン サ ー は そ れ ぞ れ 非 常 に 価 値 が あ り 、 優 れ た も の で あ る 。 し か し 、 い く つ か の 点 に お い て 、 い ま だ 不 十 分 な 点 も 多 々 あ る 。 本 章 で は 、 先 行 す る コ ン コ ー ダ ン サ ー の 考 察 を 通 し て 、 言 語 研 究 に 求 め ら れ る に も 関 わ ら ず 実 現 が さ れ て い な い 以 下 の 研 究 課 題 を 見 出 し た 。

図 2-21  『 KH Coder』 で の 「 が ~ れ た 名 詞 」 の 検 索 条 件
図 3-14  BTSJ 入 力 支 援 ・ 集 計 ツ ー ル
図 4-17  Picture
図 4-21  POPAK で の 合 計 ソ ー ト 73

参照

関連したドキュメント

E poi nella lingua comune abbiamo tantissime parole che derivano dal latino che poi ritroviamo anche in inglese, in tedesco; “strada”, ad esempio, che è “via latidibus strata”

(1961) ‘Fundamental considerations in testing for English language proficiency of foreign students’ in Center for Applied Linguistics: Testing the English Proficiency of

日本語教育に携わる中で、日本語学習者(以下、学習者)から「 A と B

2011

早稲田大学 日本語教 育研究... 早稲田大学

高等教育機関の日本語教育に関しては、まず、その代表となる「ドイツ語圏大学日本語 教育研究会( Japanisch an Hochschulen :以下 JaH ) 」 2 を紹介する。

松本亀次郎が、最初に日本語教師として教壇に立ったのは、1903 年嘉納治五郎が院長を

友人同士による会話での CN と JP との「ダロウ」の使用状況を比較した結果、20 名の JP 全員が全部で 202 例の「ダロウ」文を使用しており、20 名の CN