• 検索結果がありません。

代表値と分布図を併用した頻度比較の方法

ドキュメント内 コーパスの計量的分析法再考 (ページ 102-132)

本章では、代表値を使用した分析の方法を検討し、代表値単独ではなく、分布図と併 用して分析する方法を提案する。第4章の分布観察では、文字数がほぼ一定に揃ってい る固定長より、文字数が不揃いな統合形式を使用して分析する方が困難であった。この ことは、代表値を使用した分析でも、同様だと考えられる。その一方で、現在製作され ているコーパスは、文書の文字数が一定に揃えられている均衡コーパスより、文字数が 不揃いな広義コーパスの方が圧倒的に多い。また、広義コーパスでの分析法が明らかに なれば、均衡コーパスの分析はそれに準じて行うことができる。そこで、本章では、広 義コーパスに属する学習者コーパスを対象に、代表値を使用した分析の方法を検討する。

学習者コーパスを使用した主要な研究の一つに、学習者のレベルごとの習得状況を明 らかにする分析がある。本章では条件表現の「たら」が、どのレベルでどれぐらい習得 されているかを比較する際、①調整頻度、②平均値、③中央値、④「たら」を使用した 学習者数という4種類の代表値を使用すると、どれほど有効な比較が行えるのかを検証 する。また、代表値を使用した分析に加え、作図による分布観察の方法を検討し、これ らを併用した分析法の提案を行う。

第1節では、日本語教育においてこれまで最も多く使用されてきたKYコーパスを使 用して分析を行う。第2節では今後の日本語教育において多用されることが見込まれる

I-JASを使用して同様の分析を行い、分析の一般化を行う。第3節でまとめを述べる。

第1節 頻度分析法の比較:KYコーパスの場合

はじめにKYコーパスを使用し、条件表現「たら」の習得レベル別の頻度比較を行う。

第1.1項では分析に使用するデータに関する説明を行う。第1.2項では①調整頻度、② 平均値、③中央値、④「たら」を使用した学習者数、およびそれらの割合を算出し、分 析結果を比較する。第1.3項ではこれらの代表値の妥当性を検討する。第1.4項では代 表値と分布図を併用した分析法の提案を行う。

第1.1項 使用するデータの説明

KYコーパスは、鎌田修・山内博之の両氏によって構築された学習者コーパスである。

データには、OPI(Oral Proficiency Interview)のスクリプトが使用され、1999年に一般 公開された(鎌田,1999)。語数はおよそ17万語、学習者の内訳は初級下~超級までの 9レベルに分けられた英語・韓国語・中国語母語話者各30名の合計90名となっている。

97

2008 年には李在鎬氏等によって形態素解析と誤用タグが施されたデータが公開され

(李,2009)、2013年に検索システムを備えた「タグ付きKYコーパス」としてWeb公 開されている9。KYコーパスの内容や分析上の注意点については、鎌田(1999,2006)、

山内(1999)に詳しい。以下、これらに基づいて概要を記す。

KYコーパスは製作者を含めて 25名のテスターから提供を受けたOPIデータに基づ いて構築されている。OPIは学習者に対して最長 30分のインタビューを行い、米国外 国語教育協会(ACTFL)が定めた外国語能力基準によって学習者の能力を判定する評 価法である。学習者のレベルはKYコーパス製作当時の基準で超級、上級(上級上・上 級)、中級(上・中・下)、初級(上・中・下)の9段階10になっており、これらの総合 判定規定は以下のとおりである。

● 超級(Superior):意見の裏付け,仮説構築,具体的・抽象的話題について 議論ができ,そして言語的に不慣れな状況が処理できる

● 上級(Advanced):すべての時間的枠組で叙述,描写ができ,かつ,複雑 な状況が処理できる

● 中級(Intermediate):自分なりに言葉が使え,なじみ深い話題について簡 単な質問をしたり,答えたりでき,また簡単な状況や,やり取りに対処できる

● 初級(Novice):決まり文句や習い覚えた語句,単語の羅列で最小限のコ ミュニケーションが行える (鎌田,2006:47)

テスターは学習者がこれらのレベルのどれに該当するのかを判定するため、学習者が 発話し続けるのが困難なレベルにまで会話を誘導する「突き上げ」を行って学習者の言 語的挫折を引き出す。またテスト中に学習者が中級以上の能力を持つと判断された場合 には、ロールプレイが行われる。このためインタビューはできるだけ自然な会話を目指 しながらも、通常の雑談とは異なった内容を含むことになる。このため分析に当たって は注意が必要であるという(鎌田,1999:234-6)。以下、その主なものについて概要を記 す。

・OPIは学習者能力の上限と下限を判定するため、データに言語的挫折が生じている部

9 http://jhlee.sakura.ne.jp/kyc/

10 1999年に改訂され、上級も上・中・下の3段階になったため、現在は10段階となっている。

98

分と問題なく話し続けられる部分の両方を含むが、その分量は学習者やテスターによ って異なるため、誤用・正用の割合を学習者間で比較することはあまり意味がない。

・各レベルに必要なタスクの種類が決まっているため、たとえば上級では「記述・叙述・

意見」を求めるタスクに必要な「~と思う」などの形式は頻出するが、伝達文の「~

そうだ」などの形式は自然発生的にしか出てこない。

・それぞれのOPIはそれぞれ独自の話題で展開していくため、話題に左右される語彙の 使用頻度はそれぞれのデータによって大きく異なり、一般化が困難である。

以上の設計内容からすると、KYコーパスは母集団を定めてそこから無作為抽出され たデータではなく、また、学習者の発話を引き出す方法もOPIの実施方法によって一定 の偏りを持っていることが分かる。

OPIのデータを使用する最大の利点は、学習者のレベルが ACTFLの基準によって判 定されていることにあるが、これについてもテスターによる偏りが考えられる。山内

(1999:244)ではこの点について次のように述べられている。

90 本という、かなり多くのテープを集めたため、それぞれのすべてが、非 のうちどころのないOPIインタビューであるというわけではない。インタビュ ーの行い方が稚拙なものもあれば、また、判定結果の信頼性にやや疑問が持た れるようなものも、若干はある。 (山内,1999:244)

KYコーパスを使用して分析を行う場合は、このような問題点を踏まえて、分析して いく必要がある。

次にKYコーパスの量的な側面を検討する。1999年公開のKYコーパスVer.1.1は、

形態素解析を行っていないプレーンテキストのデータであるため、当時はデータ量がど れぐらいあるか確定できていなかった。鎌田(2006:43)では OPI のインタビューにか かる時間の大半が20~30分で、総数90名分であるところから、中間の25分×90名で 概算し、「KYコーパスは総時間2250分ほどの音声データを文字化したものといえる」

と述べられている。

KYコーパスの形態素解析は複数の研究者によって試みられているが、2008年に李在 鎬氏等によって形態素解析された研究が最も精度が高いと考えられる(山内,2015:50)。

99

李在鎬氏等の研究に基づいて報告されたデータ量は、李・淺尾・濱野・佐野ほか(2008)

では173,198形態素、李(2009)では232,605語と記されている。筆者が「タグ付きKY

コーパス」を使用して学習者の全品詞をダウンロードして集計した形態素数は 170,454 であった11

表5.1は筆者がダウンロードした品詞数のうち、記号を除いた語数を使用して算出し た形態素数の統計量である。これを見るとKYコーパスではレベル別の人数や語数にか なりのばらつきがあることが分かる。レベルの大分類では初級 5、中級 10、上級 10、

超級5のようにある程度人数が揃えられているが、下位分類ではばらつきがある。また 学習者の語数も大きく異なっている。BrownコーパスやBCCWJ固定長のような均衡コ ーパスでは、データの語数や文字数が一定に揃えられているため、統計的な分析に適し ているが、学習者コーパスはBCCWJでいえば可変長や統合形式に当たり、データの長 さがさまざまに異なっているため統計分析が難しい。

表5.1 KYコーパスの母語とレベル別の人数・語数平均・標準偏差

レベル 人数 語数平均 標準偏差 人数 語数平均 標準偏差 人数 語数平均 標準偏差

初級下 1 108 - 2 189 93 1 207

-初級中 2 763 615 1 513 - 2 252 104

初級上 2 656 465 2 622 181 2 705 121

中級下 4 1,122 326 2 1,183 477 3 1,495 665 中級中 4 1,509 556 6 1,477 297 4 1,490 333 中級上 2 1,908 630 2 1,890 700 3 2,136 421

上級 3 1,755 414 6 1,921 303 3 2,493 435

上級上 7 2,808 610 4 2,671 592 7 2,697 584

超級 5 2,757 808 5 3,257 812 5 2,584 370

英語 韓国語 中国語

特に初級は学習者数が少なく、その語数も非常に少ない点に注意が必要である。初級 は「決まり文句や習い覚えた語句,単語の羅列で最小限のコミュニケーションが行える」

(鎌田,2006:47)というレベルであるから、発話量(語数)がごく少ない。OPIの場合、

レベル判定が確定すればそこでインタビューは終わり、制限時間の 30 分間まで会話を し続けることはない。このため習得レベルの低い学習者に語数の少ないデータが多いと 考えられる。

本章で代表値の検討に用いるデータは、Web上で検索が行えるタグ付きKYコーパス を利用して取得した。条件表現「たら・だら」の用例を得るために、文字列「たら・だ

11 2017.04.28閲覧。

ドキュメント内 コーパスの計量的分析法再考 (ページ 102-132)

関連したドキュメント