外国人就労者のための日本語`Can Do' statements の開発 : パフォーマンス・テストによる妥当性の検討

(1)

21 研究論文

外国人就労者のための日本語 ‘

Can Do

’

statements

の開発

パフォーマンス・テストによる妥当性の検討

村上京子

* 日本語学習支援を目的として，外国人就労者のための日本語 ‘Can Do’ statementsを開発した。この妥当性を，129名のブラジル人を対象に，同時に実施したパフォーマンス･テストの結果を用いて検討した。その結果，インタビュー，ロールプレイなどを用いた口頭能力,および読み書き判定シートによる文字の理解・書記能力の判定結果とCDSの聞く，話す，やりとり，読む，書くの各項目との相関は高く，CDSの妥当性が確認された。外国人就労者，‘Can Do’ statements，パフォーマンス･テスト，妥当性，日本語レベル判定外国人就労者が人口の約4％を占めるA市では， 2008年度から住民同士の交流を目的とした外国籍住民のための日本語学習支援の取り組みが，市から委託を受けた大学を中心に始まった。外国籍住民の大半が就労を目的として渡日してきたブラジル人とその家族で，滞日期間にかかわらず日常のごく限られた日本語しか話せないことが前年度の予備調査の結果1_{からわかっている。外国籍住} 民の8割以上の人が日本語を勉強したいと望んでいるが，時間がない，近くに教室がないなどの理由で実際には学習していない人が多い。日本語学習支援システム構築プロジェクト2_では，その柱の1つとして，日本語能力判定を実施し，その判定証明を発行することを掲げた。これは，学習者自身に自分の日本語能力レベルを自覚してもらうとともに学習の成果を見えやすくし，学習動機を高めることを目的としている。将来この判定基準が市の中で共通した尺度として用いられ，企業などの就職窓口でも通用するものとなることを目指している。そのために，A 市の日本語学習支援に関わる全ての人が共通してもつべき枠組みとして能力評価基準を表1のように設定した。これは，ヨーロッパ共通参照 *_{名古屋大学留学生センター，} E-mail: [email protected] 1_{この調査は}_A_{市から委託され，}₂₀₀₇_{年度に外国籍住} 民247名，企業などの受け入れ側の日本人87名にアンケート調査を，さらにその中から承諾を得られた人にインタビュー調査を行なった（名古屋大学留学生センター， 2008）。本研究の母体である日本語学習支援システム構築プロジェクトはこの予備調査に基づいて，行われている。 2_{日本語学習支援システム構築プロジェクトは，日本語} 能力判定ワーキング・グループ（WG）のほかにコースデザインWGなど複数あり，本プロジェクトには日本語教師，大学院院生など多くの人々がかかわっている。執筆者は日本語能力判定WGのチーフとして統括，分析を担当した。パフォーマンス・テスト実施にあたっては，執筆者がテスター・トレーニングを12回実施し，そのトレーニングを受けた21名のテスターが判定をおこなった。

(2)

枠（Common European Framework of Reference for Languages: Learning, teaching, assessment； Council of Europe, 2001．以下CEFRとする）に基づいているが3_，0_{レベルを加え，市の対象者} の大半を占めると予想される0∼2レベルに焦点化して判定することにした。従来の日本語能力を測る試験の多くが教室習得の学習者を主な対象としており，筆記試験を課すことが多いが，読み書きのほとんどできない対象者が多いため，その実施は困難である。前年度の調査で自分の名前がカタカナなどで書けると答えた人は8割にとどまり，処方された薬の袋に書かれた「朝夕1回」などの文字がなんとかわかるという人が3割であった。多くが母語翻訳や通訳に頼った生活をしており，日本語の文字が読めない状態で暮らしていることがうかがえる。口頭能力を測る場合も，相手が分かりやすい表現を使ったり，言いたいことを補ったりして，かなり歩み寄らないとインタビューが成り立たないケースが多く，通常のレベル判定ではほとんどの対象者が初級と判定されることが予想される。そこで，本プロジェクトでは，いわゆる初級を中心として，母語による‘Can Do’ statements（以下CDSとする）など新たな判定方法を開発することにした。複言語主義を掲げる欧州評議会（Council of Europe）は，圏内の人々の移動や交流をより円滑にするために言語教育の共通の枠組みCEFRを策定し，共通の指標を提供した（Council of Europe， 2001）。その参照レベルを基盤として，言語技能別に熟達度を記入した言語パスポートの中心的な役割を果たしているのがCDSによる自己評価である。そこではA1からC2までの6レベル別に「聞くこと」「読むこと」「話すこと・やりとり」「話すこと・表現」「書くこと」の自己評価チェックリストが用意されている。現在多くの言語圏でCEFR の具体化に向けた取り組みが始まっている。日本語教育でも各機関などでCDSを使った試みが活発になってきた。トムソン（2008）は，「学習者中心の言語教育，学習者オートノミーを推進する」ための評価としてCDSを提案し，オーストラリアの大学での実施報告を行っている。山本（2008）も日本語学校のコースの中でCEFRを参照して評価のあり方を見直しているという。このほか大掛かりなものとしては日本語能力試験の成績とCDSの対応づけをする試みが進んでいる（長沼・大隅・和田・伊東・熊谷・野口，2007）。また，国際日本語普及協会でも企業関係者と専門家が効率よく意思疎通できるようになることをねらってビジネス日本語CDSが作成されている（AJALTビジネス日本語評価基準作成プロジェクト，2008）。このように，日本語教育のなかでCDSが用いられることが多くなってきており，学習者ばかりでなく，日本語教師や企業の人事担当者など一般表

1

日本語能力レベル記述レベル段階内容 6 熟達段階より抽象的な議論が日本語を用いてできる。 5 深化段階効果的なコミュニケーションが日本語を用いてできる。 4 拡大段階より多くの領域で日本語を用いてコミュニケーションができる。 3 自立段階自立して最低限度の社会参加が日本語を用いてできる。 2 要支援段階周囲の支援に基づいて基礎的な社会参加が日本語で行える。 1 基礎段階限られた単語レベルの理解と産出ができる。 0 未学習段階日本語の産出と理解がほとんどできない。 3_{現在，世界的規模で言語教育の基準を共通化しようと} している中で，日本語についても国際交流基金をはじめ CEFRをもとにスタンダーズの策定を進めている。本プロジェクトでも可能な限り共通な基準枠を基本にし，他言語，他機関などとの情報交換ができることを目指している。

(3)

の日本人，また海外の教育機関の担当者などにも理解しやすく，共通の尺度として比較できるなどその利点が認識されてきている。しかし，トムソン（2008）も指摘しているように，自己評価に対する一般的不信感や信頼性に関する疑問，絶対評価であることから段階的に成績をつけるなどの目的に使いにくいなどの問題点もある。また根岸（2008）は，英語教育の中でCDS の「（英字）新聞が読める」への反応と実際に英字新聞のさまざまな記事を読ませるなどのパフォーマンスを比較して，記事によっては言語能力の低い学習者でも読めるが，CDS作成者が想定している「一般的な新聞記事」はある程度の言語能力を持たないと読めるようにならないとしている。同様にラジオのニュースやドラマの聞き取りに関しても「日本人高校生はほとんどが（インターネット）ラジオを英語で聞くという経験がなく，実際に聞く前の自己評価では，自分のパフォーマンスを正しく予測することはできなかった。」としている。このことから「経験に基づかない自己申告は精度が低い」と結論付けている。本稿は，A市に在住する外国人就労者のための CDSを作成し，その妥当性をパフォーマンス・テストの結果との関係を通して検討するものである。CDSの妥当性に関しては，筆記試験との相関から妥当性を検討する研究は少数ながらあるものの（村上，2008），実際のパフォーマンス・テストを用いた妥当性の研究はほとんど見当たらない。 1．CDS の開発 開発にあたってテストが測定すべき構成概念を， CEFRを参考に以下のように定めた。コミュニケーション能力のうち受容的活動として「聞く」「読む」，産出的活動として「話す」「書く」を，「話す」「聞く」両者を含む活動として「やりとり」の言語活動を対象とする4_{。また領域としては，} 公的領域，私的領域，教育領域，職業領域にまたがる日本語使用場面を想定する。公的領域では病院，店など公共の場での日本語使用を，私的領域では地域の隣人との交流，教育領域では対象者を成人に限定するため，保護者として保育園や学校関係者，他の保護者と接する場面を考える。職業領域では，具体的な職種にはかかわらない一般的な日本語使用に限定する。対象者はA市に在住または勤務する外国人住民である。開発にあたって，地域の日本語教育関係者でワーキンググループを作り，その中で就労者の生活の中で想定される日本語使用場面を抽出する作業を行った。その中から前年度調査で実際に遭遇する機会が多いという回答のあったものを選び， 4_{「話す」は「家族について説明ができる」など一方的な表} 現が中心で，「やりとり」は「時間や場所を言って，人と会う約束ができる」など相手からの応答の聞き取りも含めている。前年度の調査結果から外国人住民の活動頻度の高い，かつ重要性が高いとされた項目を優先したため「やりとり」が8項目と多くなり，読み書きが5項目ずつとなった。図

1 CDS

の形式

(4)

CEFRの項目も加え，120項目のリストを作成した。これを領域，技能別に整理し，代表性のある行動記述文を選別して最終的には30項目に絞り込んだ。項目数は日頃母語でもあまり読み書きをしない対象者に集中して答えてもらうことを配慮し，また前年度のCDS調査での様子をもとに行った制限である。 CDSは，「聞く」「話す」「やりとり」「読む」「書く」から構成され，図1のような形式で自己評価を求めた。CDSはすべて対象者の母語に翻訳したものが用いられた。 2．CDS の実施結果 判定試験は，工場内の会議室や食堂，地域の公民館などで8回にわたって行われた。実施にあたり翻訳した言語の対象者数は表2の通りである。このうち本稿ではポルトガル語版データに限定して分析する。これは，翻訳による微妙な意味の違いや文化的解釈などが異なる可能性を考えてのことである。CDSを129名のブラジル人対象者に実施した結果を表3に示す。 30項目の合計と各項目の相関である識別力は， 30項目全体で高い得点の対象者（日本語能力が高いと考えられる）がその項目について「できる」と答え，全体的に低い対象者（日本語能力が低いと推定される）が「できない」と答えていれば，その項目の識別力（点双列相関）は高くなる。反対に全体の合計とは無関係に「できる」または「できない」と答えている人が多ければ，識別力は低くなる。すなわち，その項目は全体的な日本語能力が高いか低いかを反映していないことになる。一般のテストでは識別力が0.30を下回るとその項目は不適切であると判断される。個々の項目別にみると，「7.相手の人が言っていることがわからないとき，わからないと伝えることができます。」の識別力が0.29で低いが，この項目は4点満点中平均が3.52と非常に高いためである。ほとんどの人がこの項目に対して「簡単にできる」と答えているため，この項目の答によって日本語能力が高いか否かを識別することができない。しかし，それ以外の項目はすべて0.40 以上で十分な識別力を有している。全体の信頼性（α係数）は0.95で，十分に高い内的一貫性をもっているといえる。また技能別の信頼性は，「聞く」6項目：0.84，「話す」6項目： 0.87，「やりとり」8項目：0.92，「読む」5項目： 0.78，「書く」5項目：0.80であった。 3. パフォーマンス・テストの構成 パフォーマンス・テストは読み書き技能測定課題と口頭能力測定課題（インタビューテスト，ロールプレイ，絵を見て話す）から成る。判定試験全体の手順は，図2の通りである。読み書き判定シートは，外国人住民が日常必要とされる「名前をカタカナで書く」「住所をひらがなや漢字で書く」など書く技能を測る4項目と，「男・女」のうち自分が当てはまるほうに○ をつける，「危険」などの工場などでよく目にする漢字の意味を母語で書くなどの読む技能を測る 6項目から成る。同意書は，試験の開発，研究目的のためのデータの使用および録音許可のサインを求めた。サインが得られなかった場合はデータから除いた。インタビューは14項目からなるが，それぞれ表4のように各質問を上から順番にしていき，どこで反応があったかで理解のレベルをチェックした。また，応答も例のように項目ごとに判定する。なお，口頭能力判定は事前にトレーニングを受けたテスターが実施した。テスト中のテスターと対象者のやりとりはすべて録音し，文字に書き起こす作業をおこない，これを元に協議表

2

言語別対象者数言語受験者数ポルトガル語 129 中国語 53 スペイン語 7 タイ語 1 合計 190

(5)

表

3 CDS

の項目及び各平均，標準偏差，識別力（

n=129

）番号質問の概要平均標準偏差識別力聞く 1 指差，ジェスチャーも使って簡単な買い物をする 3.48 0.65 0.47 2 乗り物で，知っている駅や停留所の名前を聞きとる 2.96 0.91 0.55 3 買い物のとき，物の値段や数を聞き取る 3.33 0.76 0.60 4 時間を聞いて，何時か聞き取る 3.05 0.96 0.72 5 相手がはっきり，ゆっくり言えば，質問や指示がわかる 2.52 0.87 0.75 6 病院などのアナウンスで自分の番や行き先などがわかる 2.79 1.03 0.67 話す 7 相手にわからないと伝えることができる 3.52 0.70 0.29 8 相手にもっとゆっくり話すよう頼むことができる 2.92 1.07 0.71 9 自分の国籍や住んでいるところなどを伝える 3.21 0.87 0.67 10 自分の家族について詳しく説明する 2.40 1.02 0.79 11 きのう自分がしたことを説明する 2.31 0.95 0.85 12 自分の住んでいる家のようすについて説明する 2.10 0.92 0.78 やりとり 13 人と会ったときあいさつをする 3.44 0.77 0.46 14 知り合いとその日の天気など短い会話をする 2.44 0.95 0.76 15 店や病院など生活情報について質問し，理解する 2.32 0.99 0.78 16 スーパーでほしい商品のある場所をきく 2.54 0.97 0.83 17 時間や場所を言って，人と会う約束をする 2.40 1.03 0.80 18 病院でいつからどこが痛いかなど簡単な病状を言う 2.43 0.98 0.76 19 レストランで料理について聞いてから注文する 2.15 0.88 0.75 20 乗り物の行き先を聞いたり，目的地に行くかどうか聞く 2.73 0.96 0.74 読む 21 カタカナで書かれた自分の名前がわかる 3.38 1.01 0.42 22 カタカナで書かれた店の名前や商品名が読める 2.79 1.21 0.59 23 日常よく見かける「禁煙」など漢字の意味がわかる 1.65 0.77 0.50 24 書類の名前，生年月日，国籍などの漢字の意味がわかる 1.69 0.78 0.65 25 回覧板や掲示板の内容が，だいたい理解できる 1.44 0.49 0.43 書く 26 自分の名前がカタカナで書ける 3.15 1.08 0.56 27 自分の住所をひらがなや漢字で書く 2.02 1.08 0.55 28 名刺などを見ながら漢字を使ってあて先を書き写す 2.14 1.32 0.53 29 クリスマスカードなどに短いメッセージを書く 1.60 0.65 0.64 30 履歴書を書く 1.50 0.62 0.52 図

2

テストの流れ

(6)

した。これは判定の信頼性を確保するためのものである。ロールプレイはレベルにより数種類5_あるが，全員に実施したものとして，図3のような「質問をする」タスクの結果を用いる。採点は，各質問項目の評価基準の他，インタラクションの際テスターがどの程度歩み寄りが必要かに関する基準（インタラクション）を設け採点した。最後の「絵を見て話す」課題は，外国人男性が工場での仕事が終わってから寝るまでの行動が描かれた図版を見て，行動記述や時間，電話番号，買い物の品物の値段などを話してもらうものである。読み書き判定シートから「絵を見て話す」タスクまですべて終了するのに，約30分程度かかる。これらのテストのうち，聞く能力に関するパフォーマンス・テストは，インタビュー・テストの中で測られる質問の理解レベルが用いられる。話す能力は，同じインタビュー・テストの応答およびロールプレイ，絵を見て話すタスクの表現を中心に見ていく。やりとりはロールプレイにおけるインタラクションを中心に，読む技能は，読み書きシートの中の名前，住所，生年月日，歳，男女，国名，出口などの文字の意味がわかるかを6_，「書く」は名前，住所などを書く問題の他，ひらがな，カタカナ，漢字などを使って知っている日本語のことばを書いてもらう問題を指標として使う。語を書く問題は，予備調査の結果から対象者の多くが名前，住所以外日本語の文字を書いた経験がないことから出題された。 5 _{ロールプレイはレベル}₃_{以上の対象者用に「ごみの出} し方を聞く」「病欠のことづけ」などのタスクが用意されている。 6 _{漢字などの「読み方」がわかることを測るものではな} く，書かれた文字の意味がわかることを調べている。後から「バス」「インターネット」のようなカタカナの課題も加わったが，今回の分析ではそれらの項目は含めず，全員が共通して受けた部分のみに限った。表

4

インタビュー・シートの例（抜粋）理解Ｇテスター表出Ｇ被験者の答え答えの例 2 □お国はどちらですか。 2 □文で答えるブラジルから来ました／ブラジル出身です 2 □お国は？ 2 □「国名＋です」で答えるペルーです／韓国です 2 □国は？ 1 □国名のみで答えるブラジル／中国 1 □国は？ブラジルですか， 1 □テスターが言った選択（ブラジル？）頷く／はい／そうペルーですか。韓国ですか。肢を，繰り返す，「はい」／ブラジル中国？（例示）と言う 1 □ブラジル？ペルー？中 0 □母語的な発音で国名をアルヘンチーナ／コリア国？言う 0 □反応なし，理解できない図

3

「質問をする」タスクのロールカード（各言語に翻訳したものが用いられた）

(7)

タビュー・テストのうち質問の理解に関しては 0.91，応答レベルは0.92の信頼性係数が得られた。表5と表6に各項目の平均と標準偏差，識別力を示す。質問の初めの挨拶や「日本語がわかりますか」は満点で分散がないため，識別力はない。また項目3の「名前を聞く」も，平均が1.97 と満点（2点）に近いため分析からははずすことにする。次に，テスターに質問をするロールプレイと「絵を見て話す」タスクを項目ごとに採点したものの平均などを表7，表8に示す。これらの信頼性は 0.91と0.93であった。読み書き判定シートの書く問題については，問題ごとに評価基準を設け採点した。自分の名前，生年月日，住所を書く問題に関しては2点満点で，語を書く問題は6点満点で採点した。このテストの信頼性は0.83であった（表8）。読む問題は「（歳）」と書かれた空欄に数字を入れる，性別の「男・女」や，国名の「ブラジル」に○をつける，漢字の単語の意味を母語で書くタスクで，正解には1点が与えられた。読む問題の信頼性は0.76でやや低かったが，いずれの問題項目も高い識別力を有しており，文字の意味の認識能力を測っているといえる（表9）。 4. パフォーマンス・テストの実施結果 CDSの妥当性をインタビュー・テスト，読み書き判定シートなどの結果からみていくために，まず，各々のテストの信頼性を確認した。イン表

5

インタビュー質問の理解項目平均標準偏差識別力 1 1.00 0.00 ― 2 2.00 0.00 ― 3 1.97 0.17 0.54 4 1.67 0.47 0.68 5 1.77 0.42 0.77 6 1.86 0.34 0.87 7 1.82 0.38 0.76 8 1.84 0.39 0.83 9 1.83 0.39 0.85 10 1.87 0.36 0.84 11 1.85 0.36 0.82 12 1.86 0.39 0.68 13 1.84 0.41 0.74 14 1.95 0.26 0.59 合計 25.09 3.30 表

6

応答のレベル項目平均標準偏差識別力 1 0.99 0.09 0.22 2 1.52 0.56 0.63 3 1.72 0.45 0.59 4 1.48 0.53 0.59 5 1.65 0.72 0.80 6 1.25 0.66 0.77 7 1.22 0.75 0.78 8 1.38 0.61 0.71 9 1.27 0.67 0.79 10 1.65 0.70 0.76 11 1.35 0.61 0.71 12 1.67 0.86 0.74 13 1.35 0.80 0.81 14 1.28 0.83 0.85 合計 19.58 6.50 表

7

ロールプレイ（質問をする）平均標準偏差識別力名前 1.84 0.40 0.50 住所 1.62 0.73 0.80 家族 1.50 0.79 0.88 趣味 1.23 0.87 0.82 インタラクション 1.82 0.92 0.90 合計 8.00 3.30 表

8

絵を見て話す平均標準偏差識別力行動説明 1.72 0.90 0.88 時刻 1.42 0.64 0.89 電話番号 1.73 0.58 0.79 値段 1.53 0.62 0.83 合計 5.92 2.79

(8)

以上，CDSの妥当性を検討するために用いられるパフォーマンス・テストの基礎統計量の概要や信頼性を調べたが，いずれも一定の水準に達しており，対象者の日本語能力を測るものとして有効であることが確認された。そこで，次にCDSと各テスト間の相関からCDSが実際にできることを示しているかどうかを検討することにする。 5. 妥当性の検討 CDSと各パフォーマンス・テストの相関を表 11から表16に示す。CDSは個別の質問項目との相関を算出したが，紙幅の関係上ここでは「聞く」「話す」「やりとり」「読む」「書く」の合計点を用いたものを示す。いずれの表も0.40以上の相関係数はゴシック体で示した。 CDS「聞く」はインタビュー・テストの質問の理解レベルと相関すると考えられる。表11を見ると4から11までの質問と高い相関を示している。12，13，14の質問は内容自体が難しいため無反応でレベル判定をすることができなかった対象者が多かったため相関が低いと考えられる。インタビューの質問レベルはCDS「聞く」だけではなく，「話す」「やりとり」とも強い相関関係をもっていることがわかった。また，CDSの「読む」「書く」とはほとんど相関をもっていないことも確認された。表12，表13，表14から，CDSの「話す」「やりとり」とインタビュー，ロールプレイ，「絵を見て話す」の応答レベルとの相関は，全体的に高いが，項目によってはあまり相関の見られないものもある。インタビューでは「4.出身国」「8.通勤時間」「11.仕事の感想」では，0.40を下回る。これは例えば4では「ブラジルです」や「ブラジルからきました」ではなく「ブラジル」とだけ答え，低表

11 CDS

とインタビュー質問の理解レベルとの相関係数聞く話すやりとり読む書く合計 4 お国はどちらですか

0.42

0.53

0.48

0.39

0.40

0.54

5 いつ日本へ来ましたか

0.52

0.47

0.50

0.33 0.32

0.52

6 どこに住んでいますか

0.46

0.49

0.47

0.29 0.26

0.49

7 ここまでどうやって来ますか

0.45

0.44

0.47

0.21 0.21

0.45

8 家から何分ぐらいかかりますか

0.49

0.44

0.43

0.26 0.26

0.46

9 何時から何時まで働きますか

0.57

0.50

0.51

0.30 0.26

0.53

10 どんな仕事をしていますか

0.47

0.43

0.40

0.19 0.18

0.42

11 仕事はどうですか

0.42

0.43

0.38 0.23 0.12 0.39 12 休みは何をするんですか 0.29 0.30 0.30 0.18 0.24 0.32 13 日本で行きたいところ。理由 0.38 0.36 0.33 0.21 0.16 0.35 14 国のおいしい料理の説明 0.23 0.25 0.23 0.15 0.11 0.24 表

9

書く問題項目平均標準偏差識別力名前 1.44 0.85 0.83 生年月日 0.80 0.67 0.76 住所 1.16 0.93 0.80 語彙 3.92 2.42 0.94 合計 5.84 4.55 表

10

読む問題項目平均標準偏差識別力年齢 0.46 0.50 0.84 性別 0.72 0.45 0.81 国 0.76 0.42 0.73 出口 0.78 0.41 0.75 危険 0.13 0.34 0.75 駐車 0.28 0.45 0.85 合計 2.05 1.75

(9)

CDSと読み書き判定シートの採点結果との相関を表15に示す。CDSの「読む」「書く」と実際に書くテストとの間には0.60以上の相関が見られる。特に，カタカナで名前が書けることや「年月日」の文字が書けることと関連が強い。文字認識を測っている読むテストとは0.41∼0.63とやや低くなり，「話す」など他の活動とも相関を示している。 CDSの「読む」「書く」の項目の中には，読み書き判定シートで実際に同様の行動を求めているものもある。そこで，次の表16では，CDSの各項目と読み書き判定シートの採点結果との間の相関係数を示した。CDSの「23．日常よく見かける禁煙などの漢字の意味がわかる」の自己評価と実際に「危険」「駐車」の意味を母語で書くテストの結果とは，0.73の相関があった。CDS「26．自分の名前がカタカナで書ける」と実際に名前を書いてもらうテストの結果とは0.69，「27．住所をひらがなや漢字などで書ける」と住所を書くテストとは0.55の相関をもつことがわかる。いずれも他の項目より対応する行動間に高い相関がみられている。しかし，本人はできると思っていても実際にやってみると十分ではなく判定基準では低い得点であったり，反対に自己評価では普段できないと感じていても，判定試験の試験問題はできていたり，CDSの自己評価とパフォーマンス・テストとは完全には一致しない。い評価点が与えられた対象者が多かったためである。インタビューへの応答やロールプレイの質問の際に用いる語彙や表現の多様性と「読み」「書き」能力とは関係していることから，「趣味を聞く」などのタスクの一部に「読む」「書く」と相関を示したものもあるが，話すパフォーマンス・テストはCDSの「話す」「やりとり」と相関が高いことが示された。表

13 CDS

とロールプレイ（質問をする）との相関係数聞く話すやりとり読む書く合計名前 0.17 0.24 0.25 -0.04 0.08 0.19 住所

0.41 0.42 0.44

0.34 0.31

0.47

家族

0.44 0.49 0.51

0.38 0.35

0.54

すきなこと

0.45 0.51 0.53 0.43 0.48 0.59

やりとり

0.60 0.66 0.64

0.31 0.30

0.63

表

14 CDS

と絵を見て話すとの相関係数聞く話すやりとり読む書く合計行動説明

0.48 0.46 0.48 0.42

0.30

0.52

時刻

0.54 0.56 0.56 0.46

0.38

0.61

電話番号

0.51 0.51 0.48

0.27 0.26

0.50

値段

0.40 0.44 0.43

0.35 0.23

0.45

表

12 CDS

とインタビューの応答レベルとの相関係数聞く話すやりとり読む書く合計 4 お国はどちらですか 0.29 0.34 0.35 0.33 0.34

0.40

5 いつ日本へ来ましたか

0.45

0.47

0.22 0.23

0.46

6 どこに住んでいますか 0.38

0.44

0.41

0.40

0.50

7 ここまでどうやって来ますか

0.50

0.54

0.52

0.34 0.33

0.55

8 家から何分ぐらいかかりますか 0.32 0.38 0.39

0.41

0.33

0.44

9 何時から何時まで働きますか

0.62

0.59

0.39

0.45

0.64

10 どんな仕事をしていますか

0.45

0.42

0.44

0.33 0.19

0.45

11 仕事はどうですか 0.32 0.39 0.37 0.34 0.37

0.43

12 休みは何をするんですか 0.38

0.52

0.50

0.40

0.53

13 日本で行きたいところ。理由

0.44

0.49

0.47

0.32 0.30

0.50

14 国のおいしい料理の説明

0.46

0.56

0.43 0.33

0.58

(10)

6. 考察，今後の課題 CDSは熟達度レベルを判定する道具であると同時に，それを受ける学習者にも普段の自分の言語使用場面を振り返り，内省するきっかけを与える。学習への動機付けとなり，それを維持していくためにも学習者が現在の自分の日本語能力を把握することは重要であり，簡便で感度のよい判定道具は学習支援の重要な柱であると考える。CDS は自己評価チェックリストなので大変簡便であり，今回の調査からも内的一貫性を示す信頼性（α係数）も0.95と高いことが確かめられた。しかし，CDSで「できる」と答えた行動は，本当に「できる」のであろうか。CDSを使った自己評価の妥当性の検討については，まだほとんど報告がない。島田・三枝・野口（2006）は754人の対象者にCDSと日本語能力試験（JLPT）を実施し，その関連性を調べている。CDS総合点と JLPTの総点の間の相関は1級0.2，2級0.3で，低い水準にとどまっていることが報告されている。文法や語彙などの知識は日本語能力の構成概念に当然含まれるので，構成概念妥当性の観点からは，文法や語彙などを問う筆記試験の総合点と相関することが確かめられれば，CDSが日本語能力全表

15 CDS

と読み書き判定シートの採点結果との相関係数聞く話すやりとり読む書く合計書く名前 0.35 0.38 0.37

0.68

0.61

0.55

生年月日 0.33

0.41

0.39

0.62

0.63

0.56

住所

0.44

0.43

0.41

0.62

0.60

0.58

語彙 0.34 0.38 0.36

0.61

0.59

0.53

読む年齢

0.44

0.47

0.44

0.62

0.59

性別 0.37

0.43

0.40

0.59

0.51

0.54

国 0.34 0.37 0.31

0.56

0.49

0.48

出口

0.44

0.42

0.54

0.41

0.54

危険 0.35

0.45

0.49

0.63

0.62

0.59

駐車

0.50

0.45

0.48

0.62

0.58

0.61

表

16 CDS

の各項目と読み書き判定シートの採点結果との相関係数 CDS 読む CDS 書く 21 22 23 24 25 26 27 28 29 3 0 パフォーマンス・テスト書く名前

0.55 0.77

0.31

0.45

0.20

0.69 0.52

0.37

0.40

0.33 生年月日 0.37

0.66

0.30

0.52

0.33

0.49 0.53 0.45 0.46 0.49

住所

0.43 0.67

0.36

0.52

0.20

0.54 0.55

0.32

0.44 0.46

語彙

0.43 0.68

0.33

0.46

0.18

0.64 0.50 0.40 0.40

0.28 パフォーマンス・テスト読む年齢 0.33

0.58 0.49 0.59

0.30

0.47 0.48

0.39

0.48 0.57

性別

0.45 0.64

0.29

0.47

0.15

0.52 0.46

0.31 0.30 0.33 国 0.39

0.67

0.27 0.39 0.13

0.56

0.37 0.34 0.26 0.29 出口

0.40 0.54

0.35

0.40

0.20

0.45

0.34 0.25 0.28 0.31 危険 0.27

0.44 0.73 0.65 0.44

0.34

0.40 0.57 0.61 0.94

駐車 0.27

0.53 0.73 0.57

0.29 0.38

0.50 0.46 0.48 0.68

(11)

般のレベルの測定具として妥当性があるということができよう。しかし，いくら文法的知識や語彙，表現の知識を多くもっていても話せない学習者がいることから，話す能力を問うCDSの妥当性を筆記試験で確かめることには無理がある。したがって，実際のパフォーマンス・テストを使って各技能のCDSを確認することは必要である。本研究では，パフォーマンス・テストを用いて CDSの妥当性を検討した。そのためにまず各パフォーマンス・テストの信頼性を検討した。読み書きシートの読む問題が0.76でやや低かったが，そのほかはすべて高い信頼性を示した。CDSの「読む」項目合計の信頼性も0.78とほかの技能に比べ低かったが，両者の相関は0.54∼0.63で相関係数の希薄化にもかかわらず，かなり高い相関関係が認められた。そのほかのCDSの技能別項目と各パフォーマンス・テストとの間も0.4から 0.7の中程度からやや高いレベルの相関があることが確かめられた。「自分の名前をカタカナで書く」はCDSとタスクが一致しており，その間の相関は0.73であったが，この例のようにCDSのすべての項目についてパフォーマンス・テストで確かめることはできない。一部の項目はCDS項目とほぼ同等の行動を要求したものもあるが，多くの項目は実際にできるかどうかは確認していない。「聞く」は「相手がはっきり，ゆっくりいえば，質問や指示がわかる」という項目とインタビューの質問の理解レベルはある程度対応しているようにみえるが「病院などのアナウンスで自分の番や行き先などがわかる」が実際にできるかどうかは調べていない。このようにCDS項目とパフォーマンス・テストの1対1対応はできないが，CDS の「聞くこと」に関する6項目に高い評価をしたことと，実際の会話の中でも難しい質問を1回で理解できると判定されたことの間に関連性が見られ，「話すこと」のCDSで高得点の人は質問に対しての応答やロールプレイで高い能力を発揮する傾向があることがわかったといえる。今回の調査で，CDSとパフォーマンス・テストのような全く異なる形式の技能の評価間にある程度の関連性が見られたことの意味は大きいと考える。両者にどの程度の相関があれば，CDSに妥当性があると言えるかは一概には決められず，妥当性の検討は継続的に続けられていくべきものであり（Downing，2006/2008），CDSとともにパフォーマンス・テストそのものの改善も進めていかなければならない。時間的な制限や対象者の特殊性から，問題数も少なく，特にその必要性の程度から「読む」「書く」の項目数がわずか5項目であったが，それにも関わらず，CDSで測っている能力が実際のパフォーマンス・タスクを使ったテストでも確かめられ，両者の関連がかなり高いといえることは，今後CDSを用いて活動を進めていく上で励みになると考えられる。今回の対象者はCDS記入に先立ちパフォーマンス・テストがあることなど判定方法や内容については全く知らされていなかったため，自己評価を偽ることもあり得た。特に雇用主側に判定結果が知らされるため，過大評価することも予想された。しかし，実際にCDSの結果とパフォーマンス・テスト結果の相関を見ると，対応する項目間にかなり高い相関が見られ，CDSが実際の運用を反映している可能性が高いことが確認された。しかし，それでは今後CDSだけを実施すればよいかということになれば，そこには問題がある。どのように精度の高いCDSであっても，目的によっては限界があると思われる。将来，就職などより利害の絡む場面では，自己申告によるCDS を用いることは不向きである。CEFRの言語パスポートも自己評価の隣に教師などによる他者評価が書き込めるようになっている。また，言語学習記録や学習成果を保管する資料集からヨーロッパ言語ポートフォリオは構成されており，単に CDSだけでレベル判定するものではない。A市の外国籍住民はほとんどが教室学習をしていないため，教師による観察など普段他者が評価を行うことが期待できず，その場で実際にできるかどうかの確認を行うしかない。パフォーマンス・テストの信頼性を確保していく上で，実施にあたってのテスターの訓練と採点のプロセスの厳密性が問題となってくる。将来この判定を市の中で広く運営していくことを目指しているが，多くの人々にわかりやすくかつ厳密に判定できる基準作りが課題である。現在21名の

(12)

トレーニングを受けたテスターが市で活躍している。今後もこのテスターからの声をもとに改善を重ねていくことが重要な課題である。また，パフォーマンス・テストにおいて，そのタスクができることが，そのほかの場面でのさまざまな言語行動ができることを保証するのかといえば，これはさらにパフォーマンス・テストの代表性の検討が必要であり，Bachman（2002）も述べているように非常に難しい問題である。パフォーマンス・テストの各タスクに基づく判定は，数が限られており，具体的な内容になるため，そこから一般的な能力レベルを判定することには十分慎重であるべきであろう。根岸（2008）の指摘にもある通りCDSとパフォーマンス・テストの間の相関は，課題の種類によって異なることが予想される。同じ「新聞を読む」でも，新聞記事のどこを取り上げるかによって，難易度は変ってくる。自然習得の就労者の場合，非常に特殊な言語行動だけはできるなど個人差も大きく，タスクの設定やレベル判定基準の記述など多くの問題が横たわっている。今後も外国籍住民の実態に基づいた，市民生活を送っていく上での有用な道具として活用できるような判定方法とそのフィードバックの方法を探っていきたいと考えている。単なるレベル付けの道具ではなく，学習支援につながることを目指して，改善をしていくつもりである。そのためにもCDSの各項目やパフォーマンス・タスクが学習者の生活に密着したものであり，これがまさにできるようになりたいことだと対象者自身が望むような問題項目をさらに探っていく予定である。文献 AJALTビジネス日本語評価基準作成プロジェクト（2008）．ビジネス日本語評価基準作成の試み『AJALT』31，36-39．島田めぐみ・三枝令子・野口裕之（2006）．日本語Can-do-statementsを利用した言語行動記述の試み―日本語能力試験受験者を対象として『世界の日本語教育』16，75-88．トムソン木下千尋（2008）．海外の日本語教育の現場における評価―自己評価の活用と学習者主導型評価の提案『日本語教育』136，27-37．長沼君主・大隅敦子・和田晃子・伊東祐郎・熊谷龍一・野口裕之（2007）．JLPT日本語能力記述文作成の試み―日本語能力試験（JLPT） Can-Do Statements試行版の分析から『2007 年度日本語教育学会秋季大会予稿集』215 -218．名古屋大学留学生センター（2008）．『外国人住民の日本語学習における実態等予備調査委託報告書』名古屋大学留学生センター．根岸雅史（2008）．英語教育における最近の評価の動向『日本語教育』136，49-58．村上京子（2008）．日本語学習者の能力記述によるレベル表示『名古屋大学留学生センター紀要』6，49-60．山本弘子（2008）．日本語学校から見た評価の観点の見直し『日本語教育』136，38-48． Bachman, L. F. (2002). Some reflections on

task-based language performance assessment.

Language Testing,

19

(

4

), 453-476.

Council of Europe (2001). Common European

framework of reference for languages: Learning, teaching, assessment. Cambridge University

Press.（吉島茂・大橋理枝・奥総一郎・松山明子（訳）（2004）．『外国語の学習，教授，評価のためのヨーロッパ共通参照枠』朝日出版社．）

Downing, S. M., & Haladyna, T. M. (Eds.) (2006).

Handbook of test development. Mahwah, NJ:

Lawrence Erlbaum Associates.（池田央（監訳）（2008）．『テスト作成ハンドブック― 発達した最新技術と考え方による公平妥当なテスト作成・実施・利用のすべて』教育測定研究所．）

(13)

謝辞

ご協力いただいた受験者の皆さんおよび日本語コミュニケーション能力判定WGメンバーの方々に心から感謝申し上げます。

(14)

80

The Developments of ‘Can Do’ Statements

for Foreign Residents Working in Japan

Validation Using Performance Tests

MURAKAMI, Kyoko*

Education Center for International Students, Nagoya University, Aichi, Japan

*_{E-mail address:}_{[email protected]}

Abstract

We have developed a series of “Can-Do statements” to determine the level of Japanese language proficiency of foreign residents working in Japan. There are thirty items of “Can-Do statements” to cover different domains of life in Japan. We asked one hundred and twenty-nine Brazilian participants to work through the thirty items (translated into their native language, such as Portuguese) by selecting one of four categories that range from “can do it easily” to “cannot do it at all”. This process in-volves a one-to-one interview with the subject and a written test which the subject has to complete. These are to assess their listening, speaking, reading, and writing skills. Based on the correlations of the results of the ‘Can Do’ statements and the perfor-mance tests, the validity of “Can-Do statements” was confirmed.

Keywords: ‘Can Do’ statements, Performance test, Validity, Japanese language

外国人就労者のための日本語`Can Do' statements の開発 : パフォーマンス・テストによる妥当性の検討