• 検索結果がありません。

学習記録のある分析--データ解析の例題---香川大学学術情報リポジトリ

N/A
N/A
Protected

Academic year: 2021

シェア "学習記録のある分析--データ解析の例題---香川大学学術情報リポジトリ"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)

学習記録のあ る 分析

− データ解析の例題−

・※ 妻 鳥 敏 彦。松 原 万里子

§1序

多塁の情報処理の手法ほ電子計算機の出現によって,その有用性を増してき た。なかんずく電子計算機利用の立場からもいわゆる自然科学部門に限らず各 分野でも,目的に.応じたその処理法の開発が活発になっている。このことは, 最近数理科学への志向が取沙汰されている1つの側面にもなっているようであ る。(もっとも数理科学という言葉がどれはど定着しているか,不明であるが ・…・…)−・見見通しの意そうな対象について−も角度をかえて眺めてみると意外に 見通せるといった体験は誰しももっているであろう。全く同様に対象を数鼠化 して処理してみると時には有力な判断資料になる場合もある(もちろんそれに 偏し過ぎると,得られた数屋的結果の背後に在るものを見誤る危険も伴ってい るのであるが)。ここに紹介するのは本校の一部受験生の高校時代の学習記録 のある部分からどのようなことが読みとれるかを意識しつつ行なった判別解析 法と主成分分析法等の応用結果である。 § 2 本稿の主旨と資料 展近の入試選抜方法の改善試案の申に・高校の内申茸重視説がある。確かに3 年間の修学状況,学習の経過を個人の資料とする限り信頼度ほ高いと思われる が,選抜のための全体的な資料として扱うには現状のまゝでは幾つかの問題が あるらしいこともしばしば指摘されていることである。少くともこの種の議論 を行うには内申書そのものに.ついての位置づけや,それに内包されている特性 等の志味を理解する何らかの定性的且つ客観的な判断力をもつことが前提であ ろう。

(2)

妾烏 敏彦・松原万空手 84 ここで扱ったデータは内申雷ではないがある高校の本学受験生の模擬試験の 成績である。これをもとに本学入試の合否予測や合格者群もしくは受験者群の 特性抽出等に.関する前述の理論の応用を試みた。しかし彼等の入試成績を敢え てこのデータ軋加味しなかったので入試との関係紅ついての具体的な情報ほ得 られていない。実ほこ.の仕事の大部分ほデータ処理法の研究に意欲的な学生の ** 演習として,なされたものであり,それがたまたま情報科学の研究会(学部 内)での話題提供として扱われ,各種の分析や検定が行なわれてここまで集約 されてきたものである。従ってこのデータ自身の分析に重点が置かれたために 他のデー・タ付加は特に考えなかったのである。しかるに′これらの結果をもって 前述の問題の所在を明らかにする本意ではなく,あくまで1つのデータを解析 してみた演習的結果の紹介にとどめると同時に,ここで考察された諸結果につ いてもデータ白身が限定的なるが故紅一・般性,不偏性に.欠ける点のあることに 言及しておきたい。 § 3 方法の説明 判別解析の1つの手法として判別関数(Discriminant董unctin)の決定法が ある(R.AFisbeて,1936)。データに応じて簡単に説明しよう。 模擬試験の教科毎の平均点がデータであるから教科に対応する5つの変数 Ⅹ1(英語),Ⅹ2(数学),Ⅹ∂(国語),Ⅹ4(社会),Ⅹ5(理科)を設定する。又 このデータは合格者群と不合格者群に分離される。そこで上の5つの変数から 両群を判別するための判別関数を作るのである。つまり,それは,これらの変 数の線型関数 Y=ClXl+C2Ⅹ2+C3Ⅹ3+C4Ⅹ4+C5Ⅹ5 のうちもっともよく両群を分離するものを求めることである。その関数が決定 されたとき(具体的には係数Cl,C2,..,CBを求めること)係数Cl,C2,.,C6を 判別関数の係数と呼びYの値を判別値と呼ぶ。簡単のために変数を2つ紅限定 して(2次元の場合)図式的に表わすと次のようである。 Yl,Y2をそれぞれ合格者群,不合格者群の判別他のヰ均とし

(3)

旦¥ぞ b= を両群の判別基準として定め ると,この判別基準は2群が 共通の分散をもつ既知の正規 母集団であるという仮定と, 両群の先験碇率が等しいと/い う仮定のもとで誤まって予測 する確率を最小にする。 ヶ ト♪ ♪ ♪ す す 0 ×不合稚 △合 格 ・すなわち2群の重複を最小にするものである。右上図に.よって簡単に.説明 すると2次元観測値を直線(Ⅰ)上紅射影したとき両群がよりよく分離するよう な番線(Ⅰ)を決定することである(付録Ⅴ)。次に主成分分析法(Principle COmPOnent analysis)であるが,これはK.PearISOn(1901)に,よって提唱さ れたといわれるが,現在でほ一・般の手贋はHotdling(1933)紅よっているよ うである。これはP個(今の場合ほP=5)の観測変星Ⅹ1,Ⅹ2,‥,Ⅹpに.線形 変換を施して1糸Bの相関のない基準化した変鼻を得ることである。例えば受験 者数N人のⅩ1(英語)のテストスコアの全体ほN次元のベクトルと見ること が出来る。従って5つの変造に対応する5ケのベクトルほN次元線形部分空間 を構成する。これら5ケのベクトルに適当な線形変換を施して全く同次元の 線形部分空間を構成する長さ1の互い紅直交するベクトルの系を決定すること である(換言すれば互いに直交するベクトル那のうち,それぞれの分散を叔 大にするものである)。そして,その決定されたベクトル(成分ベクトルと呼 ぶ)ほ如何なる志向の表現ベクトルであるかを調べたり,変毘間の関係を調べた り,時にはテスト系列の修正(縮少)の可能性まで眺めて−みようというのであ る。この方法ほ変毘間の単位が共通である場合に.有効であるのでここで取り上 げた。そのイ軋 本稿で使われている単相関,墓相関,東には検定論については 説明を省略する。

(4)

妾鳥 敏彦・松原万里子 86 § 4 結果と考察 昭和41年度から46年度までの各年度毎に.求められた判別関数及び6年間をプ ールしたデータから求められた判別関数等の係数とそれによって両群の各個人 の判別値Yを求め,それのヒストグラムを付録(Ⅰ)に.まとめておいた。 なお,その上に.各変数軋対応するtestscoreが標準化されている場合すなわ ち判別値Yに各変数がどの程度影響するかを示すスケイルドベクトル(scaled vector)や判別基準値bに.よって予測するときの誤まって予測する確率(%)

及びWilkslamdaの検定結果等を書き足して−ある。ここに.Wilkslamda検定

とは両群の平均ベクトルの等しいかどうかの検定のことで,結果はいずれも高 い有意水準で両群の間に差があることが認められている。さて,各年度毎の判 別関数を得るより数年問の積み上げたデータによって求められた判別関数の方 が現実的にほ利用度が高いほずである。しかし,受験者群の学力が年度毎に.大 体平均して1、るとしても模擬試験の内容が年度毎に変化する恐れや入試問題の 水準が不安定であるとき混迷度が高くなるので判別カほ低下すると考えられ る。そのことは図の上にも現われているようである。 次にどの判別関数の予測率も約8割前後を示している事実は本校入試の合否 を前提とする限りこの高校の模試ほよく対応して−いると云えるだろう。(逆に この関数で不合格と診断された者に.とって.それが誤診である可能性ほ約20%程 度であることに.なり,それほ,過酷な宣告に聞こえるであろう?努力しても逆 転する可能性が少くなると……。)又,スケイルド,ベクトルでみると合否判 別に対する影響力をもつ教科は特に見い出せないが全体的にみて英,数,国の 三教科がやや強いようである。このことは合格者群にとって−も教科の学力が平 均的であることを意味するだろう。(実ほ平均的に学力があると云えれば結構だ が・…・… ?) 次に模擬試験の成結から,年度ごとに五教科間の相関行列を求めた。また, 昭和41年度から昭和46年度までの全受験者の模擬試験の成約にもとづく相関行 列も求めた(付録Ⅱ)。それらの相関行列に,主成分分析法による園丁分析を

(5)

適用し,算Ⅴ成分まで求めた(付録Ⅱ)。繹Ⅴ成分まで求めた理由ほ.,各成分 の分散(%)が第Ⅴ成分で,たかだか10%程度であることが主なものである。 それらの成分を解釈するに.あたって,次のようなことが考えられる。こここで ほ.全体をプールした成分行列を主として考察の対象とする。全体をプールした 成分行列は各年度の模擬試験問題の難易度や,受験者の質的差異などを包含し て−おり,この高校の受験者の一・般的な姿をあらわしていると考え.られる。各年 度の成分行列は,全体をプールした成分行列の参考データとして用いることに する。 第Ⅰ成分は,各年度ともその成分の分散が43.1%から47.8%までに・わたって おり,プールしたものについても43.3%である。しかも,五教科ともほぼ−・賞し て高く重みづけられている。こ.れほ過去の学力についての因子分析の結果と一 致している。こ.の成分は,学力に関する−・般因子と考えられるが,模擬試験の結 果にもとづく分析であることを考慮すると,この成分は.試験に対する態度や技 術的なことなどが訓練された結果の教育的因子と考えることが妥当であるう。 第Ⅱ成分は,「数学」と「理科」に成分ベクトルが顕著であり,しかも符号 に逆の関係がはば一・賞してみられる。「理科」と「数学」の単相関をみると,全 体的に低く有意な相関とほいえないようである。このことから,この高校の模 擬試験受験者に限ってみると,「理科.」という科目にある選択の問題があるよう である。模擬試験受験者の「理科」は,「物理」や「化学」を選択したものより も,「生物」を選択したものが圧倒的に多いことを考えると,単相関の低さほ 納得がいくように思われる。従ってこの成分は,「数学」が相対的に推理の働 きを要するのに対して,ここでいう「理科」は,どちらかといえば記憶の働き を必要とするものであると考えられる。よって,こ・の成分は推理と記憶の成分 とすることができる。 第Ⅲ成分の顕著な成分ベクレレをみると,「国語」,「理科」,「数学」に重み づけられたものが多い。しかも「国語」は他の二教科と符号が逆転している○ また符号の一傲度では.,「国語」と「英語」とは類似しており,「理科」,「数学」 及び「社会」は前2老と逆の関係で類似している。「国語」などでは,出題内

(6)

妻鳥 敏彦・松原万座子 88 容は語学力全般をみるものとならざるをえない。そのため,他の教科と比較し て−,全体として言語的な理解を必要する教科である。それに対して「理科」, 「数学」などでは,出題内容ほ∴†定の枠組をもち,解答ほその枠組に規定され る側面が強い。従ってこれらの教科ほ.,問題の解答方法に一足のパタ−ンがあ り,そのパタL−ンがどの程度言語的に理解されているかが問題となる。以上の ことから, こ.の成分の解釈は容易でないが,言語的理解に関する成分と考える ことにする。 欝Ⅳ成分ほ.,「社会」と「\理科」にニー思して高く重魂づけられている。これ らの教科は,他の教科と比較して,相対的に眉己憶が関与すると考えられる。「社 会」は「理科」に比して,どちらかといえば関係する知識の患が問題であり, そのためにほ,なかば機械的な記憶を必要とするであろう。それに対して,「理 科」は記憶にもとづいて推理していけるだけの記憶でなければなるまい。従っ て,単なる暗記でほなく,関係づけながら有意味約に記憶していくことが重要 であろう。これらのことを考え合わせると,この成分は第Ⅱ成分の記憶の分化 したもので,機械的記憶と有意味的記憶の成分と考えられる。 算Ⅴ成分ほ,「英語」,「数学」,「国語」が顕著なものである。しかし,「英語」 (1) と他の教科とは符号が逆転している。英語という外国語を操作することに比し て,母国語である日本語や数字はよく習慣化されており,操作しやすいという 面があるであろう。また英語と日本語とのあいだに言語学上の差異があげられ よう。このようなことから,この成分は語や数などの操作の自在性や表現力に 関係したものと考えられる。この成分ほ.,籍Ⅲ成分の言語的な理解に関するも のの分化したものと考え.るこ.とができよう。 以上のように各成分について解釈を試みたが,これは模擬試験の仝受験者に ついでであった。本学の入学試験に合格した者の模擬試験の成敲をもとにした 分析でも,はば同じような成分が抽出されている。強いて差異をいえば,第 Ⅳ,第Ⅴ成分で違いが出ているにすぎないことを付加えておく。 これら5個の成分のうち,第Ⅳ,第Ⅴ成分ほ,他の成分と比較した場合,成 分として考えられるだけの明確な差異を示しているかという問題がある。各年

(7)

度及び全体をプールしたものについての固有値を,バートレット検定(BaI−し eltt test)によって検討した結果が付録(Ⅳ)である。・それによると,第Ⅳ成 分と第Ⅴ成分と札差異があるとほいえ.ないようである。従って∴尊Ⅳ,第Ⅴ成 分を強いて−解釈すれば前述のように考えられるが,むしろこれらの成分ほ,第 Ⅱ,欝Ⅲ成分の分化したものと考え.たはうが妥当であろう。 最後に単相関,墓相関について簡単軋言及して−おこう。付録の表を見れば分 るように,有意な相関性が見られないものの中,数学と理科の相関の低さがど の年度に.も共通してみられることが特赦的である。その他「国語」と「数学」,「’国 語」と「理科」,「英語」と「理科.」等の相関度が全体的に低いようである。こ.れ 等ほいずれも因子分析の結果から一応理解することができるが,例えば「数学」 と「理科」の相関の低さは,この高校の生徒中本学受験生の特徴なのか,この 高校自身の特赦なのか,あるいは本学への−一腰受験生の共通した特徴なのか, について−これだけからほ判断出来ない。このことほ「理科」の他の四教科からの 塵相関係数紅も現われている。デー・タを調べて−みると「理科」としてほ「生物」 の選択者が圧倒的に多かった。するとやはり「数学」と「生物」の教科として の相関性が高校教程段階では問題にならないからなのであろうか。墓相関係数 の表でほ英,数,国の教科個々とその他の四教科からの相関度が比較的高いよ うであるが,これは判別関数を求めた際のスケイルドベクトルの方にも同様の

傾向のあることが指摘されている。なお,データの分布に関する部分ほ省略す

ることにした。 § 5 結び 1つのデータを色々な立場から分析してみたわけであるが,結果として意外 性のあるものは余りみられなかったようである。逆な云い方をすれば得られた 結果ほはとんど予期されたことであった。ここで扱ったデータは5回の模擬 試験の平均点であった。しかるに,平均点をスコアとせずに各回の素点をその まゝ用いて5回の反復を活かした処理法に.よるならば,より信頼度を高める分 析が可能であったかも知れない。

(8)

嚢鳥 敏彦・松鹿万里子 90 又同種のデーダを他の高校からも得られるならば共通した特性や固有の特性 が類別されてくるであろう。そしてそ・れらを積み重ねると・−・般的なもの,不偏 的なもの等が安定的に抽出できるかも知れない。ただそれらはひよっとすると 受験競争に手馴れた高校教育の成果として意識せざるを得ないかも知れない が。とまれ今回はある高校からのデー・.タの解析結果の報告にとどめるわけであ る。最後にこのデータ提供を快諾された高校の先生にお礼を申し上げます。 * 数学科生 **:研究会のメンバ一 田北普−・,藤本光孝,妻鳥敏彦等である。 (1)「社会」紅ついても,前述した「理科」の場合のような選択の問題があるが, 「理科」の内容ほど差異は.著しくないと思われる。従って,−・つの働きをも つものとして扱う。 付録(Ⅰ)

(9)
(10)
(11)

 ̄ 石二義看ラl いく−川・ 合 格 325名 不合格 195名 計 520名 eIr・0Ⅰ・170名 32.7% 平均 SCaledvectoI 英 40.9 118.26588 数 31.1 −0・10961 国 53.8 117.56183 社 53.8 −26・83401 理 53。9 −96.39250 人数摘 45 紹 39 36 33 帥 27 [:=] 合格者 既習 不合格者 28 30 32 34 361 3S 40 −12 4ヰi618 50 52 5L15e〉 58 60 62 64 66

(12)

妻鳥 敏彦・松原万屋子

単 相 関 表

(13)

、44年度

(14)

安鳥 敏彦・松原万璧子 96 全昼{些生壁二空室塵L (*)印ほ危険率5%の∂=0の有意性検定で棄却できないもの。 塾 相 関 表 (1つの変迅と他の残りの変鼠との藍相関)

(15)

付 録(Ⅲ)

成 分 ベ ク ト ル 表

41年虔

些年壁 ←_

(16)

妾鳥 敏彦・松原万里子

98

43年度

(17)

重重度 一

(18)

妻烏敏彦・松虎万里子 100 全体(41年皮∼46年度) 付録(Ⅳ) <主成分分析の検定衷> R:COrrelation matrix 九1≧入2≧入3≧九ヰ≧入5(Rのeigen value) Bartlett検定 Ho:Ⅰ−れ1=Ⅰた十2=……・=Ⅰ■p x2=卜logiRけ1喝(Ⅰ・1+Ⅰ2十……+Ⅰ舟)+(p一々)logり・n 人■ r=(ppEri)/(p−k) ; ,一基(p−k十2)(pMkpl)d.f

参照

関連したドキュメント

「1 建設分野の課題と BIM/CIM」では、建設分野を取り巻く課題や BIM/CIM を行う理由等 の社会的背景や社会的要求を学習する。「2

 当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文

ダウンロードしたファイルを 解凍して自動作成ツール (StartPro2018.exe) を起動します。.

何日受付第何号の登記識別情報に関する証明の請求については,請求人は,請求人

太宰治は誰でも楽しめることを保証すると同時に、自分の文学の追求を放棄していませ

一般法理学の分野ほどイングランドの学問的貢献がわずか

※ CMB 解析や PMF 解析で分類されなかった濃度はその他とした。 CMB

○炭素とイオン成分は、Q の Mass を用いて構成比を算出 ○金属成分は、PF の Mass