教育支援システムの利用履歴に対する異常検知によるドロップアウトの早期予測の実現性について

(1)

教育支援システムの利用履歴に対する異常検知による

ドロップアウトの早期予測の実現性について

天野直紀

*

The feasibility of early dropout prediction using anomaly detection via education support system usage history

Naoki Amano*

Abstract : Preventing truancy and expulsion (in this paper, referred to collectively as “dropouts”) is an extremely important task for educational institutions. Individual conference is a realistic measure for preventing such dropouts. However, there are various issues with holding individual conferences, such as the skills of the conference holder and the personnel cost. This paper presents the anomaly detection method as a method for predicting which students will drop out using data provided by an educational support system. This method is expected to reduce the issue of personnel cost and heighten the overall effectiveness of individual conferences.

Keywords : dropout prediction, educational support system, anomaly detection

1. はじめに

様々な社会的な要請や情報公開といった時代の変化の中で、高等教育機関において休退学者数を削減・抑制することは重要なタスクとなっている(1)_{。また、いうまでもな} く個々の教職員にとっても指導を担当した学生に休退学せずに無事に卒業してもらいたいと考えている。しかし文部科学省(2)_によると平成19 年から平成 24 件の間に休退学者の割合は 14.0%～20.4%へと増加している。本論文では便宜上、退学・除籍・留年・休学をひとまとめにドロップアウトと呼称することとする。ドロップアウトを抑止する手法の一つとして、多くの教育機関では細やかな面談を行うことが試みられている。しかし、面談実施には面談者（担当教員・メンターなど）の面談スキルや人員コストといった問題がある。面談によってドロップアウトの兆候を発見し、防ぐには高度・専門的な面談スキルが必要であると考えられる。また、教育現場では学生と面談者の相性による是非も見られるようである。また、面談には相応の時間を要するため、すべての学生と頻繁に面談を行うことは人員コストの面からの困難もある。著者はこの問題を解決するため、成績と教育支援システム上のデータを用いたドロップアウト予測について試みてきた(3), (4)_。これらは成績と教育支援システム上のデータに対するデータ解析によってドロップアウトの予兆を把握するものである。この予測により、原理的に面談対象者を絞り込む、あるいは面談時に重要な事前データを提示

(2)

することで面談スキルの差異を軽減できると考えた。筆者による先行研究(3)_{では成績と教育支} 援システムの利用履歴を対象とし、前年度のデータを用いて、次年度の学生のドロップアウトを予測することを試みた。先行研究(4)_{では教育支援システムを通じて投稿さ} れたテキストから感情推定を行い、早期の補足率を高めることを示した。これらの手法はいずれも機械学習における「教師あり学習」の手法である。教師あり学習であるので、通常は教師データの多い方が予測精度も高くなると期待できる。しかし、先行研究(3)_{において前年度のデータを加えると予} 測精度が低下したことから、教育カリキュラムの連続性がないと適用が困難であると考えられる。これは新学部・新学科・カリキュラム改訂・授業内容変化に対して、提案した予測手法が脆弱であることを示唆している。これに対し、本論文では「教師なし学習」の1 手法である異常検知の手法を用いて、ドロップアウト予測を行う。これまでの研究成果から、最初（1 年次前期末）の成績評価が出る前（ここでは4 月から 6 月）にそのような予兆を把握することが重要であると考えた。これにより教育カリキュラムの変化の影響を受けずに早期のドロップアウト予測が可能となることを示す。

2. 対象の学習支援システムデータ

先行研究(3)_{より、成績データの蓄積があ} れば、十分に高い精度でドロップアウト予測が可能である。このため、本論文では入学後早期（4 月から 6 月までの 3 ヶ月。7 月末には前期末成績が出ると設定した）におけるドロップアウト予測を目的とした。個人情報管理や情報セキュリティの観点からシステム外のデータを用いずに予測できることがもっとも望ましいと考え、対象とするデータは教育支援システム上のデータのみとし、成績データは用いないものとした。対象システムは先行研究(5)_に示した教育支援システム ASSIT で、これは 2000 ～2014 年度の間、著者を中心に構築・全学規模で運用した教育支援システムである。対象としたのデータはこのシステムを通じて得られる、特定の期間（4 年次 8 年間）・学部学生から提出された TextArea のあるレポートについての提出件数、入力されたテキストに対し、単語感情極性対応表(6)_を用いた感情推定値（対応表で Positive/Negative いずれかとして定義されている対象単語数および Positive/Negative それぞれの感情極性値の平均値）である（予測精度を比較するため、先行研究(4)_{と同じデータを対象とした）。} これらのデータを月ごとに集計し、月末時点でドロップアウトを予測することとした。最終的なドロップアウトデータと対比できる先行研究(4)_と同じ _{4 年間に入学した学生} データ（毎年度おおよそ480 名程度）である。ただし入学直後の3 ヶ月間の予測であり、成績データは存在しないものとして扱う。

3. 異常検知によるドロップアウト予

測手法

本データに対して、教師なし学習による異常検知を行う際には、ドロップアウトする学生の方がドロップアウトしない学生よりも少ないので、これを外れ値として扱う

(3)

ことと考えた。外れ値を含まないデータのみを抽出することは、この対象では困難である。このため、外れ値を含んだ全データを対象にDeep Learning による教師なし学習を行い、その結果を用いた異常検知を行うこととした。その実際の設定パラメーターは次節で示す。このとき、外れ値の割合が問題となるが、このデータに対する先天的な情報を用いないとすると文部科学省の調査(2)_{により最終} 的に退学率は約20％となる。

4. ドロップアウト予測結果それによ

る面談効率の改善

対象データに対し、H2O(7)_を_R(8)_経由で利用してデータ処理を行った。具体的には h2o.deeplearning 関数を autoencoder = TRUE として学習を行い、h2o.anomaly によって異常値の計算を行った。このときのパラメーターを表 4-1 に示す。hidden(隠れ層のノード数と層の数)と epochs(繰返し回数)についてはこれまでの試行を通じて得た経験則に基づいて設定した 20 通りの組み合わせの中から試行を通じてもっともよい結果を得られるパラメーターとして選定した。表 4-1 異常検知用学習パラメーター項目値 autoencoder TRUE ignore_const_cols TRUE activation Tanh hidden rep(c(200,200,200,100,50), length=40) epochs 5000 面談可能な実数（面談数の削減が有効と考える割合）として、ここでは仮に10％とした。文部科学省の調査(2)_{により最終的な} ドロップアウト率は約 20％とされることから、単純に1 年未満であればその 1/4、約 5%がドロップアウトの兆候があると考えられ、10%以内に納まることから、これは妥当な割合であると考えられる。これらのことから、求めた異常値に対し、異常値の大きな方から 10％未満にドロップアウトの兆候は収まると想定した。この 10%における異常値をしきい値とし、これよりも大きな異常値をドロップアウトの兆候があるとして集計した。このときのドロップアウトする学生には面談を行う必要性があると考え、それを提案手法によってどれぐらい正しく検出できるかどうかを評価する。最終的にドロップアウトした学生をドロップアウトの兆候ありと検出した場合をTP（True Positive）、ドロップアウトしなかった学生をドロップアウトの兆候ありと検出した場合を FN （False Negative）とする。表 4-2 正答データ（TP）の数と割合表 4-3 エラーデータ（FN）の数と割合 4月 5月 6月 N年度 0.0606 0.0606 0.0909 N＋1年度 0.2000 0.2800 0.0800 N+2年度 0.2963 0.2963 0.4074 N+3年度 0.2083 0.1250 0.1667 4月 5月 6月 N年度 0.1028 0.1028 0.1007 N＋1年度 0.0945 0.0901 0.1011 N+2年度 0.0893 0.0893 0.0826 N+3年度 0.0947 0.0993 0.0970

(4)

表 4-4 教育支援システムの利用率表 4-2 は面談すべきだった学生を早期に検出できた割合（TP）を示している。N+2 年度のデータを見ると、約3 割の学生を最初の2 ヶ月で見いだすことができていることがわかる。一方で年度を遡ると検出率が低下している。これは教育支援システムの利用率と関連している（表 4-4）。N 年度の 4 月の利用件数は平均1.87 であるのに対し、N+2 年度には平均4.42 となっている。このように教育支援システムを積極的に利用することで、ドロップアウト予測の精度を高められることがわかる。N 年度の利用率は 1.87 だったのに対し、その後は2.29, 4.42, 6.15 といずれも増加している。このときTP は N 年度 0.0606 だったのに対し、0.2000, 0.2963, 0.2083 といずれも向上している。表 4-3 は面談が不要だった学生を誤って検出（FN）した割合を示している。これはいわば無駄の割合を意味するので、低いほど望ましいこととなる。総じて10％以下に抑制できている。それでも総数は要面談者よりも多いが、全学生を均等に面談するよりは効率的に面談を実施できる可能性を示している。面談の実施効率を評価するため、全学生（全数）面談を行うとした場合と提案手法によって絞り込んだ学生のみを面談する場合とのドロップアウト学生の捕捉率を表 4-5 に示す。この表では仮に単純にランダムに面談者人数を削減した場合の想定捕捉率を「ランダムに削減」列に示す。提案手法ではこれよりもずっとよい割合で補足することができていることから、面談効率を上げつつもドロップアウトする学生を補足する割合を向上できている。また、全数時の捕捉率とも遜色がないことがわかる。更に実際にはドロップアウトの要因そのものがこの早期には発生していない、すなわちそもそも予兆が存在しないことも考えられる。表 4-5 面談時のドロップアウト学生の捕捉率これらのことから、提案手法によって実用的な意味で面談効率を向上させることができると考えられる。

5. おわりに

本論文では異常検知を用いて、教師データとなる前年度までのデータを用いることなしにドロップアウト予測を行った。これによりカリキュラム上の連続性がなくても、面談対象者を絞り込む、あるいは面談時に面談者に有益な事前情報を提示することで、必要な学生に対する面談を効率的に実施可能であることを示した。その実験結果から、対象とした感情推定値を含むデータからドロップアウト予測ができること、そのデータ数が多いほど精度を高められることを示した。教育支援システムを早期から積極的に利用することは、 4月５月６月 N年度 1.87 7.14 5.01 N＋1年度 2.29 6.02 3.69 N+2年度 4.42 6.45 4.25 N+3年度 6.15 11.4 3.15 平均利用件数全数時ランダムに削減提案手法 (4月) 提案手法 (5月) 提案手法 (6月) N年度 0.1041 0.0104 0.0408 0.0408 0.0612 N＋1年度 0.0771 0.0077 0.1042 0.1458 0.0417 N+2年度 0.0968 0.0098 0.1667 0.1667 0.2292 N+3年度 0.0963 0.0097 0.1087 0.0652 0.0870

(5)

学生の情報リテラシー獲得や教育実施効率の向上にも資すると考えられる。このため、全体的に積極的にその利用に取り組むことが有益である。今後はドロップアウトの詳細（退学なのか、留年なのかなど）やドロップアウト以外の教育実施上有益なデータとして、成績や取得単位数などについても予測することに取り組む予定である。

参考文献

(1) 文部科学省 : 学校教育法施行規則等の一部を改正する省令の施行について, http://www.mext.go.jp/b_menu/hakusho/n c/1294750.htm (2010) (2) 文部科学省: 学生の中途退学や休学等の状況について, http://www.mext.go.jp/b_menu/houdou/26 /10/__icsFiles/afieldfile/2014/10/08/13524 25_01.pdf (2014) (3) 天野直紀: 成績と教育支援システム利用履歴からのドロップアウト予測, 日本 e-Learning 学会論文誌 , Vo.16, 83/91 (2016) (4) 天野直紀: ドロップアウト予測における感情推定手法の有効性について, 日本 e-Learning 学会論文誌 , Vol.17, 17/22 (2018) (5) 天野直紀, 藤澤公也: 講義周辺業務の包括支援における大規模分散システムの活用, システム制御情報学会, システム制御情報学会誌, 第55巻, 452/457 (2011) (6) 高村大地, 乾孝司, 奥村学: 隠れ変数モデルによる複数語表現の感情極性分類, 情報処理学会論文誌, Vol.47, No.11, 3021/3031 (2006) (7) H2O : https://www.h2o.ai/ (8) R : https://www.r-project.org/

[著者紹介]

天野直紀 (正会員) 1999 年東京工科大学大学院工学研究科システム電子工学専攻博士課程単位取得退学。 1999 年東京工科大学助手，2003 年同講師, 2011 年同准教授。博士 (工学)。おもに画像処理・認識, ネットワークアプリケーションに関する研究に従事。日本e-Learning 学会、電子情報通信学会、土木学会等の会員。

教育支援システムの利用履歴に対する異常検知によるドロップアウトの早期予測の実現性について