評価について - ライティング研究の課題 - 日本人高校生のライティング力の発達におけるエクステンシヴ・ライティングの効果に関する実証的研究

5. ライティング研究の課題

5.1 評価について

沖原（1985, p.v）は、「ライティングは学習する上でも教える上でもむずかしい技能

である」とし、「この分野の研究は，他の技能領域に比べると，質量ともに必ずしも十分ではない」と述べている。大井（2014）は全国英語研究学会の研究誌ARELEで1989 年から2009年までに掲載されたライティングの研究論文を調べ、その数が約1割であったと確認し、沖原の指摘から30年が経っても、ライティング研究の難しさは依然続いていることを明らかにした。柏木（2016）は、ライティングは「外国語学習・教育の４技能の中で最も複雑で人気がないと言われている」と述べた上で、Raimes（1983）

によるライティング作品を完成させる9要素（統語、文法、メカニクス、構成、語彙、

目的、読み手、手順、内容）と、それぞれの下位部類を紹介し、それらが「統合的有機的に機能して初めて明晰で効果的なコミュニケーション手段としてのライティング作品が出来上がる」が、そうして出来上がったライティング作品に、更にフィードバックの問題が加わり、「何をいつ、どう評価すれば教育効果が高いのか」、複雑になるためライティング研究は難しいと指摘している。ライティングに限らず、技能や能力を測るのに適した絶対的指標や、それを応用したテストを作ることは難しい。研究を進めるためには、まず、目的にかなった評価方法を確立することが必要であろう。

日本語の「評価」にはアセスメントとエバリュエーションの二つの意味がある（近藤ブラウン, 2012）。Casanave（2017）はassessment, testing, measurement, grading, evaluating を、お互いに関連があるが、それぞれがアセスメントの違った側面を表しているとして、その関係性を定義している。ここでの評価とは、どのように測定をするのかを意味するアセスメントとして考えることにする。柏木（2016）の指摘のように、ライティングの指導が学校現場で敬遠される理由の一つが評価の難しさである。採点法として一般的なのは、全体的な印象で点数を付けるholistic rating（総合的採点）と文法、

語彙、構成など幾つかの項目に対してそれぞれにスコアを付けるanalytic rating（分析的採点）の 2 つである。分析的評価の代表的なものにはJacobs et al.（1981）の ESL

Composition Profileがある。分析的評価とは１つの作文をいくつもの視点を持って作文

の技能を測定するためのもので、生徒の中の弱い部分、強い部分を測定するには有益

な方法と言えるだろう。ESL Composition Profile で使われる項目は通常、Content, Organization, Vocabulary, Language Use, Mechanicsである。一方、総合的評価は全体的な印象から評価を行うため、評価時間が節約できるという利点がある。更に、実生活の中では、書かれた作品は読み手によって総合的に評価されるため、この方法は、評価をする側にも、評価をされる側にも、より現実に即したものと言える。それぞれの特徴と問題点を知ることが、より適切な評価につながると考える。

5.1.1 総合的評価

Oshima（2000）は、英語を母語とする評価者の観点を作文指導に取り入れ、日本人

高校生43人がそれぞれ書いた2つの作文を総合的スコア、分析的スコアによって評価した。評価者は英語教育の経験のある、トレーニングを受けたネイティブ・スピーカーであった。Oshimaは分析項目間の相関関係に注目したが、総合的評価と各分析項目

（Quality of Content; Rhetorical Organization; Logical Connection of Ideas; Sentence Level Acceptability; Diversity of Vocabulary）に注目すると、修辞構成、論理的接続は総合的評価と正の相関関係が見られず、2作品目では、総合的評価でWeakと評価された者

の方がmiddleと評価された者より語彙の平均点は高かった。2作品ともに、内容の質

と、文法及び一貫性から測定された文レベルの正確さは、総合的評価と正の相関関係が見られ、特に、総合的評価と内容の質には強い相関のあることがデータから読み取れた。

山西（2004）は、20人の高校生の書いた40編の自由英作文を10名の教員と6名の大学生に20点満点で採点させ、自由作文の評価の実態を調査した。ここで用いられた自由作文のテーマは、実際に大学入試問題として出題されたものを基に作られたもので、

課題1は、自らの経験や感想を表現する、課題2は、絵を見てその内容を説明するものであった。評価には総合的評価、ESL Composition Profileを用いた分析的評価、観点別評価が用いられた。総合的評価は印象点であり、客観的総合評価（うまさ）と主観的総合評価（好み）に分けられた。その結果、英作文を評価する経験の多い教員においては評価尺度間、評価尺度内の双方で一貫性の高い評価が行われ、印象点、うまさ、

好み、観点別評価においてそれぞれ高い相関関係がみられた。大学生群には教師群ほど高い相関関係が見られなかったことから、山西は、経験を重ねることにより評価観が確立し一貫性の高い評価を下せるようになったと考察し、総合評価、観点別評価はそれぞれ目的を異にするため、両者の特徴を知って行うことが重要であると指摘している。同時に、研究結果からは、自由作文を評価するには、必ずしも全てを観点別に分析してから総合的に評価せずとも、印象点で行えることを示唆している。

水本（2008）は自由作文の評価方法を調査した研究で、総合的評価と分析的評価の内部構造の関係を明らかにし、どちらの尺度でも信頼性が確保できると結論づけた。

水本の研究では、TOEIC300点台前半の成績を持つ40名の大学生が参加し、与えられたトピックについて60 分以内に 150 語以上のエッセイを書いた。次に、実験参加者 40名の自由英作文を、2人の日本語母語話者が、総合的評価尺度と分析的評価尺度の両方を用いて2回評価した。総合的評価尺度には、TOEFLのTWEとTOEFL CBT のライティング・セクションに用いられている6段階の評価基準を10段階に変更して使用し、分析評価の尺度もESL Composition Profile（Jacobs et al., 1981）を基に、10段階に変更して使用した。2 名の採点者は、事前に両者の間の採点基準に大きな隔たりがないようトレーニングを受けて40名分の自由作文の採点を行い、その評価の平均値は相関分析された。その結果、水本（2008）の研究においては、自由英作文を評価する際に総合的評価、分析的評価のどちらを使ってもかなりの信頼性が得られ、両者の相関関係が高いと判断された。英語能力に大きな差のない被験者からのサンプル分析であったことが一因であったかもしれないが、これらの結果からは、全体的な writing の能力を測定することを目的とするならば総合的評価を、項目別のフィードバックを与えることが目的であるなら分析的評価を使い分けて用いることが可能であり、しかも両評価方法は信頼性が高く、相関関係も高いということが言える。

一方、Leki（1995）は、総合的評価に対して疑問を呈し、何が良い作文か見ればわかる、というのは単なる思い込みであるという結果を導き出している。Lekiの研究には、アメリカの大学のESLで授業を受けている1年生が授業中に書いた、長さ400語から500語のエッセイが用いられた。無作為に選ばれた4点のエッセイに対し、ESL で授業を受けている20名の生徒、8名のESL教師、7名の英語を母語とする大学関係者が評価者となり、それぞれが1位から4位までのランクをつけた。この実験の結果、

必ずしも同じ作品が1位に選ばれたわけではなかった。また、ESLに所属する学生グループは自分の好みにより選んだ場合と、ESL教師ならどう選ぶかを予想して選んだ場合の2パターンで順位を付けたが、好みと予想の間には違いがあった。更に、その予想した順位も、実際にESL教師が選んだ順位とは異なっていた。3つのグループ間の結果もそれぞれに異なったが、グループ内で最も評価が分かれたのは、ESL教師群であった。このリサーチが示唆していることは、‛good writing’として順位をつける上で、客観的な指標を持つのは難しいということである。ESLで教えている教師といえども、一貫した指導目標や評価基準が共有されているわけではなかった。

Leki（1995）の研究が、総合的評価でも分析的評価でも信頼度が高く、両者に高い相関関係があると結論づけた山西（2004）、水本（2008）の研究と異なるのは、この実験がランキングを用いたことによると思われる。作品をどの段階に位置するか判断することよりも、優劣をつけることの方が難しかったのではないだろうか。また、実験参加者の違いも考慮する必要があるだろう。山西、水本は日本人英語学習者に対して実験を行ったため、参加者の英語力の背景はある程度均一で、同じ学校に通っている

ドキュメント内日本人高校生のライティング力の発達におけるエクステンシヴ・ライティングの効果に関する実証的研究 (ページ 54-58)