日本語用例のデータ

第 2 章データ及び研究方法

2.1 データとその収集及び分析方法

2.1.1 日本語用例のデータ

ここでは，日本語用例のデータベースの内容と，その構築方法について説明する。

本論文の日本語のデータは，『ＣＤ－ＲＯＭ版新潮文庫の 100 冊』（新潮文庫）に含まれる作品のうち，昭和以降のものの中から，72作品²³を選び，これらの作品から実例を採取した。以下では，具体的な収集方法について説明する。

用例収集にあたって，佐野洋（著）『Windows PCによる日本語研究法―Perl, CLTOOL によるテキストデータ処理』の付属検索ソフトを使用し，動詞の語尾（ウ，ク，グ，ス，

ズ，ツ，ヌ，ル，ム，フ，ブ，タ，ダ，タイ，ナイ）で検索をした。「文脈と表示設定」

では，「キーワード整列」を「する」にし，「文脈整列」を「右側文脈」にした。更に，

「ファイル出力形式」は，検索の語尾で区切られたデータ得られるため，「タブ」を選択した。

次に，検索データを Excel 形式のファイルに出力し，作業しやすくするために，検索の語尾の前の文字列のうち，2文字を別の列にコピーした。そして，本論文の対象となる内容補充表現に該当しないものを手作業で取り除いた。まず，以下の図（5）や（6）において示されるように，修飾部述語の語尾前の文字列を別の列に写し，動詞以外のものを取り除いた。それから，図（7）のように，寺村秀夫（1993）の「外」と「内」の関係という分類を基に，データを「外」と「内」に分け，「外の関係」に該当するもののみを取り出した。

そして，最後に，図（8）のように，主名詞を別の列にコピーし，データを再確認しながら，

考察対象でないものが混在していた場合は取り除きつつ，次節で取り上げる「言語活動」

名詞，「思考・心理」名詞，「コトの名詞」という三つの意味的なタイプに名詞を分類した。

結果として採集できた用例の主名詞の異なり語数は921で，用例は延べ約1万例である。

23 作品のリストは巻末に挙げる。

65 図（5）

図（5）の選択範囲に見られるように，動詞と同じ「る」などの語尾で終わるが，動詞でない語類は手動で取り除いている。ここでは，「単なる」，「大なる」，「聖なる」などを取り除いた。

図（6）

図（6）も同様に，動詞と共通する「る」などの語尾で終わるが，動詞でない語類を取り除いている。画像内に現れている「あらゆる」の例は，すべて取り除いた。

図（7）

図（7）に見られるように，寺村（1993b）の「外」と「内」の関係という分類を基にデータを「外」と「内」に分けている。

図（8）

図（8）は，主名詞を別の列にコピーしたあとの，データの最終的な整形結果を示している。

収集できた名詞は端末に挙げる。

以上，日本語用例のデータベースの内訳及びその収集方法について簡潔に説明した。次に，ドイツ語用例のデータベースの内訳及びその収集方法と，得られたデータの分析方法について説明する。

ドキュメント内名詞の内容補充表現 (ページ 65-68)

第 2 章 データ及び研究方法

2.1 データとその収集及び分析方法

2.1.1 日本語用例のデータ

第 2 章データ及び研究方法