1
早稲田大学大学院情報生産システム研究科
博士論文審査結果報告書
論 文 題 目
Study on Student Classification using Logistic Learning Curve and
GNP-based Class Association Rule Mining
申 請 者 Rong Zhang
情報生産システム工学専攻 ニューロコンピューティング研究
2014 年 2 月
2
本論文は、英語のリメディアル教育のクラス分けに関するものである。若者の 人口減少と大学進学率の上昇に伴い、日本の大学では最近リメディアル教育が頻 繁に行われている。効果的で実践的なリメディアル教育を行うためには、リメデ ィアル講義の受講者の学力レベルが相当異なる場合には、適切なクラス分けを行 うことが必要になる。
ところが、クラス分けを自動的に行う研究はほとんど行われておらず、従来は、
過去に受講した科目、クラスのサイズ、クラス参加への自己申請、あるいは、リ メディアル講義の前に実施する事前テストの結果によって行われるのが一般的で あった。しかし、クラス分けは複雑な要因によって影響されるため、従来の方法 では必ずしも効果的なクラス分けが行われていない。
そこで、本論文では、2007年4月から 2007年12月にかけて実施された西日 本工業大学の英語のリメディアル教育に関して、240 名のリメディアル講義受講 者の事前テスト結果、事後テスト結果、および、受講者への 65 項目の英語講義 に関する質問の回答結果を総合的に分析し、学習曲線とデータマイニングに基づ くクラス分けに関する新たな方式を提案し評価している。
本論文でのクラス分けの一つの提案は、クラス分けはリメディアル講義によっ て得られる成績の向上度を考慮して実施されるべきである、換言すると、
Post-course Score Change (PSC, リメディアル講義の後の事後テスト結果―リ メディアル講義の前の事前テスト結果) を考慮すべきであるということである。
次に、PSCを簡単に、かつ、実用的に推定するために、本論文では、①リメディ アル講義の前に実施する事前テストの結果 (Pre-course Test Scores, PRTS) を 利用して、学習曲線によってPSCを推定する方式と、②講義受講者への各種の質 問の回答からデータマイニングを使用して PSC を間接的に推定する方式を提案 し評価している。
第1章では、英語のリメディアル教育を解説し、リメディアル講義のクラス分 けは、講義によって得られる成績の向上度を考慮して実施されるべきであるとい う着想に至った経緯および期待できる効果を従来方式と比較しながら述べ、本論 文の内容を要約している。
第2章では、PSCとPRTSおよび講義受講者への各種質問項目との相関分析を 行い、PSC は PRTS および 13 項目の質問と相関があり、PRTS とは相関係数 -0.577の相関があることを明らかにしている。従って、PSCをPRTSから推定す る回帰直線を求め、PSCが10点以上の講義受講者をクラス1 (該リメディアル講 義を受講するクラス)、PSC が 10点未満の講義受講者をクラス 0 (該リメディア ル講義を受講しないクラス)、とする方式を提案している。具体的には、回帰直線 とPSC=10点の交点からPRTS上のクラス分け点 (Classification Point, CP=48 点) を求め、PTRSがCP未満の講義受講者をクラス1、PTRSがCP以上の講義
3
受講者をクラス0とする方式を提案している。なお、PSCによりクラス分けを行 うための基準点である 10 点は、多くの教育専門家およびベテラン教師の知見に 基づいて決定している。
PSC を利用したクラス分けと PRTS を利用したクラス分けが一致する講義受 講者数の全講義受講者数に占める割合でクラス分け精度を評価した結果、クラス 分け精度は訓練時に49.2%、テスト時に46.7%であり、単純な回帰直線当てはめ 方式ではクラス分け精度が十分でないことを示している。
第3章では、第2章で提案した単純な方式のクラス分け精度を改善するために、
PSCを学習曲線を用いて推定する方式を提案し評価している。具体的には、学習 曲線の微分曲線が PRTS と PSC の関係を表現するというアイデアを提案し評価 している。特にS-Shapeを持つ典型的な3種の学習曲線であるGomperz学習曲 線、Logistic学習曲線、および、拡張Logistic学習曲線の微分値を計算し、PRTS とPSC空間上の訓練データを用いたカーブフィティングにより、これらの微分学 習曲線のパラメータを求めている。上記により求めた微分学習曲線とPSC=10点 の交点から、第 2 章と同様に, PRTS 上のクラス分け点 (Classification Point, CP=61点) を求め、PTRS が CP未満の講義受講者をクラス 1、PTRS がCP 以 上の講義受講者をクラス0とする方式を採用している。
PSC を利用したクラス分けと PRTS を利用したクラス分けが一致する講義受 講者数の全講義受講者数に占める割合をクラス分け精度として求めた結果、上記
3 種の S-Shape を持つ学習曲線より導出した微分学習曲線のクラス分け精度は、
訓練時に約70%、テスト時に約65%であることを示している。これにより、微分 学習曲線が訓練データにより一旦求まると、PRTS のみを使用してもクラス分け が可能になることを明らかにしている。
第 4 章では, 講義受講者への各種質問の回答からデータマイニングを使用して クラス分けを行う方式を提案し評価している。具体的には、まず、PSC が 10 点 以上の講義受講者をクラス1 、PSCが10点未満の講義受講者をクラス0 とする 訓練データを作成し、次に、GNPベースのクラス相関ルールマイニングを使用し てクラス1とクラス0のルール群を抽出し、最後に、これらのルール群を使用し て、テストデータの講義受講者のクラスを決定する方式を提案し評価している。
なお、ルールの前件部は英語講義に関する質問の回答結果の組み合わせで構成さ れているため、提案方式では、講義受講者への各種質問の回答結果により講義受 講 者 の ク ラ ス 分 け が 可 能 に な る こ と を 明 ら か に し て い る 。 ま た 、Neural Networks(NNs)やSupport Vector Machine(SVC)などと異なり、提案方式は、ど のような質問項目がクラス分けに強い影響を及ぼすのかを調査できる点に特徴が ある。
しかし、教育関連のデータ品質は一般に低いと言われており、特に、各種質問
4
の回答結果には多くの不確定要因が含まれている。従って、従来の GNP ベース のデータマイニングを使用した方式では、クラス分け精度が訓練時に 56.5%、テ
スト時に 51.2%と低くなることを示している。なお、クラス分け精度は、ルール
群を利用して、PSCが10点以上の講義受講者をクラス1 、また、PSCが10点 未満の講義受講者をクラス0 と正しくクラス分けする割合である。
そこで、Genetic Algorithm(GA)により品質の低い質問項目を削除し、適切な 少数の質問項目によりルール群を抽出する方式を提案している。これにより、適 切な 20 個の質問項目を選択した場合、クラス分け精度が訓練時に 71.9%、テス
ト時に64.7%に向上することを明らかにしている。
第5章では、データマイニングによるクラス分け精度をさらに高めるために、
負の属性(否定の質問項目)を追加した合計 130 個の質問項目を使用してデータマ イニングを行う手法を提案し評価している。前章と同様、GAにより適切な20個 の質問項目を選択する前処理を導入した場合、クラス分け精度が訓練時に74.5%、
テスト時に70.2%に向上することを示している。
また、ルール群の統計解析を行うことにより、具体的にどの質問項目がクラス 分け精度に大きく影響するのかを明らかにしている。この結果、英語学習の質問 に対して学習の重要性を指摘する回答を行った受講者は、PSC が 10 点以上にな ることを明らかにしている。
第6章では、本論文で提案し評価を行った学習曲線とデータマイニングに基づ くクラス分けに関する方式の研究成果を総括している。
以上、本論文では、リメディアル教育のクラス分けはリメディアル講義によっ て得られる成績の向上度を考慮して実施されるべきであるという提案に基づき、
学習曲線とデータマイニングに基づくクラス分けの新たな方式を提案し評価して いる。従って、数理的基盤に基づくリメディアル教育の普及拡大に寄与するとこ ろが大である。よって、本論文は博士(工学)の学位論文として価値あるものと 認める。
2014年1月23日
主査 早稲田大学 教授 博士(情報工学)(九州工業大学)古月敬之 早稲田大学 教授 工学博士 (早稲田大学) 吉江修 早稲田大学 教授 博士(工学) (早稲田大学) 藤村茂 早稲田大学 名誉教授 工学博士 (九州大学) 平澤宏太郎