第一章 序論
4. 調査の概要
4.3. 調査の手続き
本項では、前項で述べた調査の手続きについて記す。第一にKH Coderを用いての語彙を分 類および品詞別に分類する過程について、第二に語種別に分類する過程について、第三に難 易度別に分類する過程について、第四に高頻度語彙を抽出し、意味分野を特定する過程につ いて示す。
第一に、語彙分析プログラムKH Coderを用いて語彙を分類する過程と、それに伴って行わ れる品詞を分類する過程について以下に示す。
1) jEdit を使用して、ニュース原稿をKH Coderで使用可能なファイル形式である
Shift-JISに変換する。
2) KH Coderにより分析を行う。その際、辞書としてKH Coderに内蔵されている茶筌を
選択する。
3) KH Coderの解析をExcelで表示し、修正を加える。
4) 修正した分析データを「名詞」「動詞」「形容詞」「副詞」「連体詞」「接続詞」
「感動詞」21に分類する。
5) 得られた語彙を計量する。
なお、上記1) から3)では手作業により修正を加えている。そのため、表9に手作業で変更 をした内容を示す。
21 自立語の品詞分類は『日本語文法がわかる事典』(2005)に従った。
23 表 9 KH Coder 分析過程の手作業による置き換えの内容
手作業で行った内容 基準・手段・理由・注意事項 等 例
1) 波型「~」、マイナス「-」を削除 jEditで保存不可 「セブン-イレブン」→「セブンイレブン」
2) 「語の取捨選択」で抽出対象を指定 「非自立語」を除くすべてにチェック 「名詞」「その他」→抽出対象
「否定助動詞」→抽出非対象 予め把握できている固有名詞を「強制抽出語」に指定 NHK NEWS WEB EASYで色分けされた固有名詞 「いわき仲買組合」 「チャンウォン」
「複合語の検出」を行い、適宜「強制抽出語」に追加 基準は『明鏡国語辞典 第二版』22の見出し語の有無 「可能+性」 「民主+主義」
3) 強制抽出した「タグ」の語を該当箇所に分類 ニュース本文で確認 「いわき仲買組合」→組織名
「チャンウォン」→地名
「未知語」を該当箇所に分類 分割ミスは修正の上分類
「抽出語検索」「抽出結果のフレーズ・詳細確認」およびニュース 本文で確認
「フォロワー」→名詞
「汰」→「壮汰(人名)」
可能動詞が抽出された場合は、動詞原形にし合算 「抽出結果のフレーズ・詳細確認」で可能動詞であることを確認 「楽しめる」→「楽しむ」
送り仮名にゆれがある場合は、一方に合算 基本的に出現数が多いほうに合算 「終わる」と「終る」
「取り引き」と「取引」
表記のゆれがある場合は、一方に合算 固有名詞でないことを確認 「うなぎ」と「ウナギ」
「兄弟」と「きょうだい」
同音異字語は適宜一方に合算 辞書で一つの見出し語で扱われる場合1語と判断 固有名詞でないことを確認
「会う」と「逢う」
「町」と「街」
抽出された“複合語”を適宜分割 辞書の見出し語にあるものは1語、見出し語にないものは それぞれの自由形態素の見出し語に分割23
「通信販売」→1語
「起工式」 →「起工」「式」の2語
22 以下、表9内で断りなく辞書といった場合、『明鏡国語辞典 第二版』を指す。
23 姫野(1999)は複合語を構成する要素について意味の保持等の観点から考察を加え、複合語を構成する要素が単独で使われる場合の意味の合算がそのまま複合語の意味になることはないと説明して
いるが、語の認定基準を明白にする目的で、ここでは『明鏡国語辞典 第二版』見出し語の有無で語の認定をした。
24
手作業で行った内容 基準・手段・理由・注意事項等 例
3) 抽出された“派生語”を適宜書き換え 辞書の見出し語にあるものは派生語1語、見出し語にないものは 拘束形態素をのぞく自由形態素のみで1語
「世界観」→1語
「世界中」→「中」を除き「世界」で1語
助数詞は基本的に削除 助数詞は拘束形態素であるため
辞書の見出し語にあるものはそれぞれ1語と認定
「一つ」→1語/「一隻」→削除
固有名詞の分類を確認、修正 人名・地名など複数の解釈ができる語の分類を「抽出結果のフレ ーズ・詳細確認」およびニュース本文で確認
「花屋敷」→組織名/絵画の作品名
「厚生」→組織名(厚生省)/人名
「サ変名詞」に分類された語は、サ変名詞、
サ変動詞、形容動詞に分類し、集計
ニュース本文および「抽出結果のフレーズ・詳細確認」で1語ずつ 確認。造語成分を伴うことで品詞が変わる語は、辞書の見出し語 の有無にかかわらず別集計24
サ変名詞「組織」
→名詞「組織」/ 動詞「組織する」
形容動詞「組織的な」
「副詞可能」「副詞」に分類された語は名詞と副詞、
連体詞・接続詞・形容動詞に分類
ニュース本文および「抽出結果のフレーズ・詳細確認」で1語ずつ 確認。造語成分を伴うことで品詞が変わる語は、辞書の見出し語 の有無にかかわらず別集計25
「近く」→名詞/副詞(あまり遠くない将来)
「ある」→連体詞
「一方」→接続詞/形容動詞「一方的な」
「形容動詞」に分類された語は形容動詞と名詞、
動詞、連体詞に分類
ニュース本文および「抽出結果のフレーズ・詳細確認」で1語ずつ 確認。造語成分を伴うことで品詞が変わる語は、辞書の見出し語 の有無にかかわらず別集計26
「自由」→形容動詞「自由な」
名詞「自由化」/動詞「自由化する」
「更」→連体詞「更なる」
動詞連用形と同形の名詞は動詞とは別集計 辞書の見出し語の有無にかかわらない 「立て直し」
「その他」に分類された語のうち、自立語はそれぞれ の品詞に分類、非自立語と記号は削除、語と認め られない文字(列)は確認後、訂正
ニュース本文および「抽出結果のフレーズ・詳細確認」「抽出語検 索」でそれぞれ確認27
「大きな」→連体詞 /「では」→接続詞
「ながら」「か月」「、」→削除
「おこし」→「町おこし」
すべての語の分類を再確認 品詞分類の誤り、助詞や造語成分等が残されていないか、複数 箇所で1語を別集計していないか
「億」と「1億」を別集計→「億」に合算
24 『日本語文法がわかる事典』(2005)を参考にした。
25 『現代副詞用法辞典』(1994)、『日本語学習者のための副詞用例辞典』(1989)、『日本語文法がわかる事典』(2005)を参考にした。
26 『日本語文法がわかる事典』(2005)を参考にした。
27 此島(1983)、『日本語文法がわかる事典』(2005)、『明鏡国語辞典 第二版』を参考にした。
第二に、上述の過程を経て得られた語彙を手作業で語種別に分類する過程を表10に示す。
なお、語種は和語・漢語・外来語・混種語の4種である。
表 10 手作業による語種分類の内容
手作業で行った内容 基準・理由・注意事項 例 1) 固有名詞を削除 固有名詞の語種を特定しても
日本語の授業に活かせないため
「大阪」→和語、「東京」→漢語
「神奈川」→混種語 2) 記号・アルファベットの語を外
来語に種別
日本語由来の頭文字等の有無を 確認
「%、km、NGO」→外来語
3) かな表記の語を和語・外来 語等に種別
『明鏡国語辞典 第二版』
『広辞苑 第六版』による
「すべて」→和語、「たくさん」→漢語
「たばこ、ゼロ」→外来語
「カラオケ、プレーする」→混種語 4) かな交じりの語を和語・混種
語等に種別
『明鏡国語辞典 第二版』、
『広辞苑 第六版』、
『新漢語林 第二版』による
「白い、切れ目」→和語
「親せき」→漢語
「気持ち、準じる」→混種語 5) 漢字表記の語を和語・漢
語・混種語等に種別
『明鏡国語辞典 第二版』、
『広辞苑 第六版』、
『新漢語林 第二版』による
「犬、水際」→和語
「僕、現在」→漢語
「地元28・頭文字」→混種語
表10の過程を経て、KH Coderによって分類した語彙は品詞と語種の属性別に分けられた。
その語彙を語種別に計量、さらにそれぞれの語種の中で品詞別に計量する。
第三に、第一・第二の段階を経て得られた語彙を難易度別に分類する手続きを記す。
1) 「リーディング・チュウ太」により級を分類する。
2) 「リーディング・チュウ太」の分類結果に、修正を加える。
3) 得られた語彙を計量する。
なお、上記2) では手作業により修正を加えた。そのため、表11に手作業で変更をした内容 を示す。
表 11 手作業による難易度分類の内容
手作業で行った内容 基準・注意事項 例
固有名詞・補助動詞を削除 a. 固有名詞であるかを確認
b. 出題基準に記載がある語彙は残す
a. 「米」→米国かコメか b. 「日本」「アフリカ」
分割された語彙の修正 一つの語彙が文字ごとに級分類された場合 「考/える(級外/1級)」
→「考える(3級)」
28 「荷台」「赤字」等の湯桶読み、「地元」「新型」等の重箱読みの語は『新・はじめての日本語教育 基本用語辞典』(2004)
にならい、混種語に分類した。
手作業で行った内容 基準・注意事項 例 同音異字語を一部別集計 複数の級にまたがる場合 「逢う(会う)」→4級
「遭う」→2級 連語を一部、語と認定 出題基準で語として扱われている場合 「気を付ける」1語
「付ける」1語 多義語を一部別集計 出題基準で意味ごとに級が異なる場合
異なり語数は初出の級レベルのみ1語 延べ語数はそれぞれの級での出現数
「できる(英語ができる)」→4級
「できる(銀行ができる)」→3級 派生語の級の調整 語基と接辞がそれぞれ出題基準にあれば
高い一方の級に属す語と認定
一方しか出題基準になければ、級外語彙
「放射+性(1級/2級)」→1級
「准+教授(級外/2級)」→級外 複合語の級の調整 複合語が出題基準にない場合、それぞれ
の語基が出題基準にあっても級外語彙
「取り除く(1級)」→1級
「取り+持つ(4級/4級)」→級外 分類された級の確認 実際の級とは別の級に分類された語 「間(あいだ)」2級→3級
第四に、高頻度語彙を抽出し、意味分野を特定する過程について示す。
1) 第一作業で得られたやさしい日本語ニュースの語彙を Excel で高頻度順に並べ替える。
2) 上位100語・300語・600語を含む頻度の語彙で区切る。
(各分類の最低使用回数は31回・12回・6回)
3) 2) で得られた語彙の構成を品詞・語種・難易度で分類する。
4) 2) で得られた語彙の意味分野を『角川類語新辞典』(2012)で文脈に基づき確認する。
5) 多数の語が含まれる意味分野を特定する。
6) 4) で得られた結果のうち、難易度が高い語彙の意味分野を確認する。
7) 難易度の高い語が多数含まれる意味分野を特定する。
以上、調査の手続きについて述べた。第二章・第三章ではこうした手続きを経て得られた 調査結果を記し、また結果に対し考察を加える。