• 検索結果がありません。

第三章 研究方法

3.2 研究対象の定義、分類、選定

3.2.1 日本語の研究対象の抽出方法

まず、『現代日本語書き言葉均衡コーパス 中納言』を用い、日本語三次元形容詞「太・

細」、「厚・薄」、「大・小」が含まれる例文をそれぞれ抽出した。具体的には、UniDic46

46 UniDicとは「日本語テキストに形態論情報を付与するための電子化辞書」である。BCCWJの形態論

情報付与に使用しているUniDicでは、表記が異なっていても同じ語であれば一つの見出し語にまとめ

47

用い、前後文脈の語数を50に、検索対象(固定長・可変長)を「両方」に、共起条件の 範囲を「文境界をまたぐ」に設定して検索した(図3-2を参照)。

図3- 2UniDicを用いる検索47

三次元形容詞の「太」を例として、「キー」を「太い」と規定して検索する。検索結果 には「太い」として用いられるすべてのデータが含まれている。「太」の抽出例は図3-3 の通りである。

るという方針をとり、語を階層化した形で辞書登録しています。この階層の最上位を語彙素と呼び、

この語彙素の下に語形、さらに語形の下に書字形という階層が設けられている。「短単位検索」ではこ

UniDicの階層構造を利用した検索を行うことができます。例えば、検索条件で検索項目を「語彙素」

検索値を「矢張り」と指定することで、「やはり」「やっぱり」「やっぱ」「やっぱし」「矢張り」など、

「矢張り」という語彙素見出しを持つすべての語形、及びその語形見出しを持つ全ての書字形を網羅 的に検索することができます。」というように説明されている。

20141016日に

https://maro.ninjal.ac.jp/wiki/index.php?UniDic%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6(現代 日本語書き言葉均衡コーパス 中納言UniDicについて)にアクセスしたもの。

47 20141016日にhttps://chunagon.ninjal.ac.jp/searchアクセスしたもの。

48

図3- 3「太」の検索結果48

上述の方法に基づき、日本語三次元形容詞「太・細」、「厚・薄」、「大・小」の抽出例総 数を表3-1の通りにまとめる。ただし、日本語の抽出例では、「太さ」、「厚さ」、「大きさ」

という表現も含まれている。例えば、

サイン入り写真を入れるにはちょうどいい大きさ!

これらの表現は基準を表す語であり、言い換えれば、「太さ」は「太い」と「細い」の 両方、「厚さ」は「厚い」と「薄い」の両方、また、「大きさ」は「大きい」と「小さい」

の両方を含んでいる。そのため、これらの表現は次元形容詞の拡張的意味とは言えないた め、研究対象から除くことにした。なお、UniDicは、「表記が異なっていても同じ語であ る」ことを認定する場合に、本研究の研究対象として挙げられないものも含まれてくる。

例えば、以下の例である。

篤樹があたしを裏切り続けるのなら、あたしは篤樹と別れるつもりだ。

例文における「篤樹」は人名であり、文字の意味から見ると「厚い」を表すかもしれな いが、拡張的意味とは無関係であるため、本研究の研究対象ではないと認定した。

その結果、表3-1が示しているように、実際に分析する例文数は抽出例と異なる可能性 がある。

48 20141016日にhttps://chunagon.ninjal.ac.jp/searchアクセスしたもの。

49 表3- 1日本語各三次元形容詞の抽出例総数

研究対象 太 細 厚 薄 大 小

抽出例総数 2944 3738 3348 5453 37111 13114 実際に分析す

る例文数 2178 3703 2165 5304 30901 13107