教育支援システムの利用履歴に対する異常検知による
ドロップアウトの早期予測の実現性について
天野 直紀
*The feasibility of early dropout prediction using anomaly detection via education support system usage history
Naoki Amano*
Abstract : Preventing truancy and expulsion (in this paper, referred to collectively as “dropouts”) is an extremely important task for educational institutions. Individual conference is a realistic measure for preventing such dropouts. However, there are various issues with holding individual conferences, such as the skills of the conference holder and the personnel cost. This paper presents the anomaly detection method as a method for predicting which students will drop out using data provided by an educational support system. This method is expected to reduce the issue of personnel cost and heighten the overall effectiveness of individual conferences.
Keywords : dropout prediction, educational support system, anomaly detection
1.
はじめに
様々な社会的な要請や情報公開といった 時代の変化の中で、高等教育機関において 休退学者数を削減・抑制することは重要な タスクとなっている(1)。また、いうまでもな く個々の教職員にとっても指導を担当した 学生に休退学せずに無事に卒業してもらい たいと考えている。しかし文部科学省(2)に よると平成19 年から平成 24 件の間に休退 学者の割合は 14.0%~20.4%へと増加して いる。本論文では便宜上、退学・除籍・留年・ 休学をひとまとめにドロップアウトと呼称 することとする。 ドロップアウトを抑止する手法の一つと して、多くの教育機関では細やかな面談を 行うことが試みられている。しかし、面談実 施には面談者(担当教員・メンターなど)の 面談スキルや人員コストといった問題があ る。面談によってドロップアウトの兆候を 発見し、防ぐには高度・専門的な面談スキル が必要であると考えられる。また、教育現場 では学生と面談者の相性による是非も見ら れるようである。また、面談には相応の時間 を要するため、すべての学生と頻繁に面談 を行うことは人員コストの面からの困難も ある。 著者はこの問題を解決するため、成績と 教育支援システム上のデータを用いたドロ ップアウト予測について試みてきた(3), (4)。 これらは成績と教育支援システム上のデー タに対するデータ解析によってドロップア ウトの予兆を把握するものである。この予 測により、原理的に面談対象者を絞り込む、 あるいは面談時に重要な事前データを提示することで面談スキルの差異を軽減できる と考えた。 筆者による先行研究(3)では成績と教育支 援システムの利用履歴を対象とし、前年度 のデータを用いて、次年度の学生のドロッ プアウトを予測することを試みた。先行研 究(4)では教育支援システムを通じて投稿さ れたテキストから感情推定を行い、早期の 補足率を高めることを示した。 これらの 手法はいずれも機械学習における「教師あ り学習」の手法である。教師あり学習である ので、通常は教師データの多い方が予測精 度も高くなると期待できる。しかし、先行研 究(3)において前年度のデータを加えると予 測精度が低下したことから、教育カリキュ ラムの連続性がないと適用が困難であると 考えられる。これは新学部・新学科・カリキ ュラム改訂・授業内容変化に対して、提案し た予測手法が脆弱であることを示唆してい る。 これに対し、本論文では「教師なし学習」 の1 手法である異常検知の手法を用いて、 ドロップアウト予測を行う。これまでの研 究成果から、最初(1 年次前期末)の成績評 価が出る前(ここでは4 月から 6 月)にそ のような予兆を把握することが重要である と考えた。これにより教育カリキュラムの 変化の影響を受けずに早期のドロップアウ ト予測が可能となることを示す。
2.
対象の学習支援システムデータ
先行研究(3)より、成績データの蓄積があ れば、十分に高い精度でドロップアウト予 測が可能である。このため、本論文では入学 後早期(4 月から 6 月までの 3 ヶ月。7 月末 には前期末成績が出ると設定した)におけ るドロップアウト予測を目的とした。 個人情報管理や情報セキュリティの観点 からシステム外のデータを用いずに予測で きることがもっとも望ましいと考え、対象 とするデータは教育支援システム上のデー タのみとし、成績データは用いないものと した。対象システムは先行研究(5)に示した 教育支援システム ASSIT で、これは 2000 ~2014 年度の間、著者を中心に構築・全学 規模で運用した教育支援システムである。 対象としたのデータはこのシステムを通じ て得られる、特定の期間(4 年次 8 年間)・ 学部学生から提出された TextArea のある レポートについての提出件数、入力された テキストに対し、単語感情極性対応表(6)を 用 い た 感 情 推 定 値 ( 対 応 表 で Positive/Negative いずれかとして定義さ れ て い る 対 象 単 語 数 お よ び Positive/Negative それぞれの感情極性値 の平均値)である(予測精度を比較するた め、先行研究(4)と同じデータを対象とした)。 これらのデータを月ごとに集計し、月末時 点でドロップアウトを予測することとした。 最終的なドロップアウトデータと対比でき る先行研究(4)と同じ 4 年間に入学した学生 データ(毎年度おおよそ480 名程度)であ る。ただし入学直後の3 ヶ月間の予測であ り、成績データは存在しないものとして扱 う。3.
異常検知によるドロップアウト予
測手法
本データに対して、教師なし学習による 異常検知を行う際には、ドロップアウトす る学生の方がドロップアウトしない学生よ りも少ないので、これを外れ値として扱うことと考えた。外れ値を含まないデータの みを抽出することは、この対象では困難で ある。このため、外れ値を含んだ全データを 対象にDeep Learning による教師なし学習 を行い、その結果を用いた異常検知を行う こととした。その実際の設定パラメーター は次節で示す。 このとき、外れ値の割合が問題となるが、 このデータに対する先天的な情報を用いな いとすると文部科学省の調査(2)により最終 的に退学率は約20%となる。
4.
ドロップアウト予測結果それによ
る面談効率の改善
対象データに対し、H2O(7)をR(8)経由で利 用してデータ処理を行った。具体的には h2o.deeplearning 関 数を autoencoder = TRUE として学習を行い、h2o.anomaly に よって異常値の計算を行った。このときの パラメーターを表 4-1 に示す。hidden(隠れ 層のノード数と層の数)と epochs(繰返し回 数)についてはこれまでの試行を通じて得 た経験則に基づいて設定した 20 通りの組 み合わせの中から試行を通じてもっともよ い結果を得られるパラメーターとして選定 した。 表 4-1 異常検知用学習パラメーター 項目 値 autoencoder TRUE ignore_const_cols TRUE activation Tanh hidden rep(c(200,200,200,100,50), length=40) epochs 5000 面談可能な実数(面談数の削減が有効と 考える割合)として、ここでは仮に10%と した。文部科学省の調査(2)により最終的な ドロップアウト率は約 20%とされること から、単純に1 年未満であればその 1/4、約 5%がドロップアウトの兆候があると考え られ、10%以内に納まることから、これは妥 当な割合であると考えられる。 これらのことから、求めた異常値に対し、 異常値の大きな方から 10%未満にドロッ プアウトの兆候は収まると想定した。この 10%における異常値をしきい値とし、これ よりも大きな異常値をドロップアウトの兆 候があるとして集計した。 このときのドロップアウトする学生には 面談を行う必要性があると考え、それを提 案手法によってどれぐらい正しく検出でき るかどうかを評価する。最終的にドロップ アウトした学生をドロップアウトの兆候あ りと検出した場合をTP(True Positive)、 ドロップアウトしなかった学生をドロップ アウトの兆候ありと検出した場合を FN (False Negative)とする。 表 4-2 正答データ(TP)の数と割合 表 4-3 エラーデータ(FN)の数と割合 4月 5月 6月 N年度 0.0606 0.0606 0.0909 N+1年度 0.2000 0.2800 0.0800 N+2年度 0.2963 0.2963 0.4074 N+3年度 0.2083 0.1250 0.1667 4月 5月 6月 N年度 0.1028 0.1028 0.1007 N+1年度 0.0945 0.0901 0.1011 N+2年度 0.0893 0.0893 0.0826 N+3年度 0.0947 0.0993 0.0970表 4-4 教育支援システムの利用率 表 4-2 は面談すべきだった学生を早期に 検出できた割合(TP)を示している。N+2 年度のデータを見ると、約3 割の学生を最 初の2 ヶ月で見いだすことができているこ とがわかる。 一方で年度を遡ると検出率が低下してい る。これは教育支援システムの利用率と関 連している(表 4-4)。N 年度の 4 月の利用 件数は平均1.87 であるのに対し、N+2 年度 には平均4.42 となっている。このように教 育支援システムを積極的に利用することで、 ドロップアウト予測の精度を高められるこ とがわかる。N 年度の利用率は 1.87 だった のに対し、その後は2.29, 4.42, 6.15 といず れも増加している。このときTP は N 年度 0.0606 だったのに対し、0.2000, 0.2963, 0.2083 といずれも向上している。 表 4-3 は面談が不要だった学生を誤って 検出(FN)した割合を示している。これは いわば無駄の割合を意味するので、低いほ ど望ましいこととなる。総じて10%以下に 抑制できている。それでも総数は要面談者 よりも多いが、全学生を均等に面談するよ りは効率的に面談を実施できる可能性を示 している。 面談の実施効率を評価するため、全学生 (全数)面談を行うとした場合と提案手法 によって絞り込んだ学生のみを面談する場 合とのドロップアウト学生の捕捉率を表 4-5 に示す。この表では仮に単純にランダム に面談者人数を削減した場合の想定捕捉率 を「ランダムに削減」列に示す。提案手法で はこれよりもずっとよい割合で補足するこ とができていることから、面談効率を上げ つつもドロップアウトする学生を補足する 割合を向上できている。また、全数時の捕捉 率とも遜色がないことがわかる。更に実際 にはドロップアウトの要因そのものがこの 早期には発生していない、すなわちそもそ も予兆が存在しないことも考えられる。 表 4-5 面談時のドロップアウト学生の捕 捉率 これらのことから、提案手法によって実 用的な意味で面談効率を向上させることが できると考えられる。
5.
おわりに
本論文では異常検知を用いて、教師デー タとなる前年度までのデータを用いること なしにドロップアウト予測を行った。これ によりカリキュラム上の連続性がなくても、 面談対象者を絞り込む、あるいは面談時に 面談者に有益な事前情報を提示することで、 必要な学生に対する面談を効率的に実施可 能であることを示した。 その実験結果から、対象とした感情推定 値を含むデータからドロップアウト予測が できること、そのデータ数が多いほど精度 を高められることを示した。教育支援シス テムを早期から積極的に利用することは、 4月 5月 6月 N年度 1.87 7.14 5.01 N+1年度 2.29 6.02 3.69 N+2年度 4.42 6.45 4.25 N+3年度 6.15 11.4 3.15 平均利用件数 全数時 ランダム に削減 提案手法 (4月) 提案手法 (5月) 提案手法 (6月) N年度 0.1041 0.0104 0.0408 0.0408 0.0612 N+1年度 0.0771 0.0077 0.1042 0.1458 0.0417 N+2年度 0.0968 0.0098 0.1667 0.1667 0.2292 N+3年度 0.0963 0.0097 0.1087 0.0652 0.0870学生の情報リテラシー獲得や教育実施効率 の向上にも資すると考えられる。このため、 全体的に積極的にその利用に取り組むこと が有益である。 今後はドロップアウトの詳細(退学なの か、留年なのかなど)やドロップアウト以外 の教育実施上有益なデータとして、成績や 取得単位数などについても予測することに 取り組む予定である。