表5−1

ヨ拍子の問題の信頼度係数｝

信頼度（2＞

表5−2

「｝テス陪カイ自乗値有意差のない確率

音楽能力診断テスト ^◎，105 ^99．12駕

実音テスト ^0，302 ^86．00露

元々この拍子の問題は、両テストともその中で最も信頼度の高い

一一Q34一

問題となっている。実際、その信頼度係数はそれぞれ0．998、

0．995という驚異的な高水準にある。両者を比較すると相関係数に基づく信頼度では0。03のみの違いであるが、カイ自乗値に基づく信頼度の測定では、音楽能力診断テストがO．105なのに対し、実音テストは0。302となっている。このカイ自乗値は、

少をければ少ないほど信頼度が高いことを表し、この点で音楽能力診断テストの拍子の要素は、実音テストの拍子の要素よりも信頼度が高いことを示している。

以上のことから、問題数と信頼度には正の相関関係があり、問題数を多くすることによって信頼度を高めることができるといえる。

次に、信頼度の高い問題の特徴として、複雑な要素を持だないという傾向があげられる。児童の音楽能力を測定する問題で、複雑な要素を持った問題は児童のつまづきの原因が明確にできず、評価の方法としては姫ましく穣いということは既に述べた。しかし、音楽というものはその特質上、リズムのみあるいは旋律のみといった単一要素のみで存在することはほとんどなく、たいていの場合、統合された形で存在する。それゆえ、リズムのみ、旋律のみといった実音テストの問題も不自然といえば、不自然である。しかし、つまづきの原因がわからないテストは、評価の方法としては存在意義がなくなる。そこで、私はこのことを打開するやり方として、各要素毎

一235一

に、その単一要素のみを持つ問題を必ず含む実音テストというものを考えている。このことによって、音楽の特質上の不自然さを軽減し、つまづきの要因を測定することができる実音テストが可能とな

る。

そこで、その複雑な要素を持つ問題と信頼度の関係であるが、滋賀県小学校音楽科実音テストの各問題の信頼度の測定のためにおこなvたカイ自乗検定の結果をもとに考えてみたい。

具体：的方法として、複雑な要素を持つ問題として、読譜と記譜の要素を同時に持つリズムと旋律と勅声の問題を取り上げ、また複雑な要素を持たない問題として、拍子と速度の問題を取り上げ、そのカイ自乗値の平均値の比較をおこなった。

信頼度の比較（1）表5−3

聰囲

E

める力伯乗倒有意差のない確率一rmerl

複雑な要素を持つ問題

複雑な要素を持たない問題

1．7458

日置4883

36．539駕

51．460鑑

この数値を見ると、明らかに複雑な要素を持たない問題の方がカ

一236一

イ自乗値が低く、信頼度が高い。有意差のない確率はそれぞれ51．

46％、36．539％と共に10％水準を超えており、共に信頼

度は高いといえる。しかし、複雑な要素を持たない問題は、複雑な要素を持つ問題より約15％有意差のない確率が高く、より信頼度が高いといえるのである。ただ、このことは、複雑な要素ということのみの原固によるかどうか判断はできないので、念のためにほと

んど単一一一一・要素からなる憎憎式一小学校用音楽能力診断テストの各要

素と複雑な要素を持つ滋賀県小学校音楽科実音テストのリズムど旋律と初声の要素について、そのカイ自乗値の平均値による比較をお

こなつだ。

信頼度の比較⑦ 表5 一一 4

﹁11

能カテストのカイ自乗値

｝実音テストのカイ自乗値

リズムの要素 L520◎ ^1．8617

旋律の要素 ^2．1378 ^2．4300

和声の要素 1．4660 1．4406

一237一

和声の要素においては、やや実音テストのカイ自乗値の方が低いものの、リズムの要素と旋律の要素においては、能カテストのカイ自乗値の方が低く、総合すれば能力テスト、つまり、音研式一小学校用音楽能力診断テストの方が信頼度が高い傾向にあるといえる。

すなわち、複雑な要素を含まない問題の方が、複雑な要素を含む問題と比較して、信頼度が高い傾向にあるといえよう。

次に、逆に信頼度の極端に低い問題の原因を探ることにより、信頼度を高める条件について考えてみたい。

実音テストの中で最も信頼度の低い問題は、音色の問題である。

この音色の問題のカイ自乗値を平均して数値を求めだところ、5e

9603とかなり高い数値が得られた。カイ自乗値5。9603は、

5％水準における有意性を示しており、このカイ自乗値がかなり高いということは、信頼度がほとんどないということである。

その原困については第四章でも述べだが、出題者の単純な『選曲ミスと録音ミス」である。ほとんど二：部合唱とは聴き取れ獄い曲を二部合唱と答えさせようとしたり、均衡のとれていない男声と女声を合わせた曲を斉唱と答えさせようとしている。特に、二部合唱と答えさせる問題であるが、二部合唱の部分は前奏と歌の10小節のうちのフィードアウトで消え入りそうな最後の2小節の7拍分のみである。わざとこのような設定をしたのであれば、出題者はこの音

一238一

色の問題に「聴力検査」の要素を加えだかつたのではないかと疑いたくなる。つまり、問題作成に関して、ある音楽能力を測定しようと考えたのなら、それ以外のことに障害を作ってはいけない。そして、問題作成のための演奏や録音には、児童が聴き取りやすいように十分の配慮をすべきである。なぜなら、実音テストはいうまでもなく「音」が命である。

最後に、信頼度の高いテストの条件についてわかったことを蕊とめると次のようになる。

（1），1っの要素における問題数が多いと信頼度は高くなる。

（2），複雑な要素を持たない問題の方が、複雑な要素を持つ問題より信頼度が高いという傾向を持つ。

〈3），問題作成に際して、児童が聴き取りやすいよう演奏や録音及び問のとり方に十分に配慮することによって、信頼度を高めることができる。

2，妥当性の高い問題とその条件

妥当性の高いテストとは、今まで何度も述べ左ように、そのテストが測定の目的とするものをいかによく測定しているかということにある。それゆえ、この妥当性という問題では、すべてのテストを十te 一一絡に考えることはできない。つまり、そのテストの評価しようとするものが妥当性の基準であり、厳密にいえば、すべてのテス

・一Q39一

トにおいて妥当性の基準は異なるのである。しかし、これでは妥当性の高い問題についても、またその条件についても論じることはで

きない。そこで、ここで述べる音楽能力テストについて3っのタイプに分けて考えてみようと思う。第1のタイプは、主に先天的な音楽的素質を測定することを目的としたテストで、具体的にはシーショア音楽才能尺度やウィング音楽的知能標準テスト、またゴードン音楽適性プロフイーールやベントリー一音楽能力尺度といった諸外国の音楽能力テストの多くがこのタイプである。

第2のタイプは、主に後髪的獲得形質、つまり学習によって得た音楽能力を測定しようとするテストで、具体的にはアリフェリス音楽アチーブメント・テスト（注6）やファーナム音楽記譜法テスト

《注？）など音楽訓練の先行を前提とするテストであるが、これらのテストは、ただ記譜法についての知識だけではなく、かなりの聴覚的な適性も必要としているようである。

第3のタイプは、純粋の音楽的素質と学習によって得た音楽能力の両方を測定しようとするいわば折衷型タイプで、具体的には図研式一音楽能力診断テストや滋賀県小学校音楽科実音テストといったテストがその例としてあげられる。

第1のタイプの中で、妥当性の高いテストとしては、まずウィング音楽的知能標準テストがあげられる。このテストは、第3章で述

一240一

べたように、和音分析、音高変化、記憶、リズム、ハーモニー一一、強度、フレーズィングの鑑賞力の7っの下位テストから成り立つが、

初めの3っの下位テストは主に聴覚の鋭さを、後の4っの下位テストは主に鑑賞力について測定しようとしている。このテストの妥当性は、妥当性係数としては1948年のウィング（Wing）の実験で0．

64から0。90の範囲にあり、ケイン（Cain）の1960年の調査

では0。83とされており、かなり高い妥当性であるといえよう。

また、136のテスト項目中127項目で、海兵隊音楽学校の若い音楽生の「平均以上」とド平均」と「平均以下』との間に有意差が見いだされた。（Newton，1959）さらに、国立青少年管弦楽団の全員と、イーストマン音楽学校の専門家を目指す音楽学生の1人を除

く全員が「Aj段階をとつ滋ことや積極的に音楽的なグルーーブと音楽的でないグループとの間麺有意差が見いだされた（Whittingt◎n，

1957）ことも、このウィング音楽知能標準テストの妥当性の高さを証明している。

ここで考えなければならないのは、このウィング音楽知能標準テストの高い妥当性を生み出した条件とは何かである。それは、このテストが作成されるまで、また作成以後もずっと長期間にわたって信頼度や妥当性の研究がなされ、少しでも疑わしいと思われる項目は修正されるか削除され、改訂されていったことである。つまり、

一241一

ウィング・テストの高い妥当性は、ウィング自身の試行錯誤の中で生み出されたものといえるであろう。このことは、シーショア音楽才能尺度においてもいえることである。

次にウィング・テストにしても、ベントリーのテストにしてもそれまでに出されていた他の音楽能カテストとその結果を十分に踏まえた上で作成されていることである。例えば、ベントリーの音高弁溺テストはシーシ灘アのテストを意識した改良型ととらえることができるし、同じく粕音分析テストはウィング・テストをベースにして、年少児童用に2音構成の和音の比率を高めたものとも考えられるのである。Wザムンド・シn一鞭ーによれば、「ベントリー音楽能力尺度の妥当性のデータは有望であり、このテストはすでにかなり多く使用されている。」としているe （注8）

第2のタイプの例としてあげ驚アリフェリス音楽アチーブメント

・テストとファーナム音楽記譜法テストの妥当性の数値について少し述べてみたい。

アリフェリス音楽アチーブメント・テストの大学λ学水準レベル

（1954）は、手引書によれば、総得点の妥当性は◎．53から0．

61であり、また1961年のホワイト（White）の調査では。．6 3、1963年のロビイ（Reby）の調査では0．73とされている。

また、この大学中期水準レベルのテスト（1962）の妥当性は音楽の

一242一

ドキュメント内小学校音楽科実音テストについての一考察 : 滋賀県の事例を通して (ページ 118-141)