時系列情報を考慮したオンデマンド授業視聴時の学習者の心的状態推定モデルの提案

(1)

時系列情報を考慮したオンデマンド授業視聴時の学習者の心的状

態推定モデルの提案

Construction of Neural Network Model for Time-series Estimating

Mental States of Learners in e-Learning Environment

古澤嘉久

1∗

_{田和辻可昌}

2

_{松居辰則}

3

Yoshihisa FURUSAWA

1

_{Yoshimasa TAWATSUJI}

2

_{Tatsunori MATSUI}

2

1

_{早稲田大学大学院人間科学研究科}

1

_{Graduate School of Human Sciences, Waseda University}

2

_{早稲田大学グローバルエデュケーションセンター}

2

_{Global Education Center, Waseda University}

3

_{早稲田大学人間科学学術院}

3

_{Faculty of Human Sciences, Waseda University}

Abstract:

E-learning environment provides the opportunity to learn contents asynchronously, and Intelligent Tutoring System technology has been also flourished and adopted to such environment. However, such e-learning support system has also difficulty in that the system should take into consideration the learners’ mental states. In this study, we constructed the system which estimated the learners’ mental states based on learners’ physiological information with time-series neural network tech-nique. In addition, we adopted activation maximization and sensitivity analysis method to analyze the system. The results indicated that trained model classifies based on what features of inputs.

1 はじめに

教授・学習過程において学習者の心的状態を把握することは，教育効果・学習効果の観点から極めて重要である. 我々は，これまで教師と学習者のインタラクションにおいて，教師の発話と学習者の生体情報から学習者の心的状態を推定する学習器モデルを構築してきた [1]. しかし，近年の学習スタイルは対面授業だけではなく，非同期型学習である e ラーニングなどの動画を通した授業の形態も増加してきている．非同期型学習の際には，対面型の授業とは異なり必ずしも教師がいるとは限らず，コンテンツを提供している立場の人間が生徒のモチベーションを管理することは難しいため，システムによる学習者の心的状態を推定することが必要であると考えた．本研究では，オンデマンド動画視聴時における学習者の心的状態を生体情報から推定する時系列モデルを機械学習を用いて構築した．また通常の授業でのモデル作成 [1] と比べて e-ラーニングのように被験者が受ける内容が同じく，環境が統制しや ∗_{連絡先：早稲田大学大学院人間科学研究科} 〒 359-1192 埼玉県所沢市三ヶ島 2-579-15 E-mail: f.y 1996 [email protected]

すいことから，Matsui[1] とは異なり複数人での実験を実施した．深層学習をはじめとした機械学習の手法の多くは近年，高い性能が出るようになり注目を浴びているが，その手法の多くは高い精度が出る代わりに人間にとっての解釈性は低くなるというトレードオフが問題視されている．これを緩和するために，最近では解釈可能な機械学習の手法を提案する XAI(Explainable AI) と呼ばれる分野に注目が集まっている [2]．XAI では，Selvaraju[3] らの Grad-CAM などこれらの多くは画像に対する手法がほとんどであり，主に医療などの分野に使用されることが多い．しかし，教育の分野も人とのインタラクションが多い分野であるため，心的状態を推定する際にはそのモデルの解釈性が必要である．そこで，今回は XAI のいくつかの手法を取り上げて，作成したモデルへの解釈も目的の一つとして，心的状態を推定するモデルを作成した．人工知能学会研究会資料 SIG-ALST-B902-07

(2)

図 1: IML(Interpretable Machine Learning) の論文数 (Yang[2] の図２より引用)

2 学習に関わる多面的情報の取得

学習に関わる多面的情報の取得を目的として，生体計測機器を用いた計測を行なった．使用した機材は， NeXus（キッセイコムテック社）と HOT-1000（NeU 社）である．それぞれ対応する生体情報としては，前者により容積脈波，皮膚コンダクタンス，呼吸強度を取得し，後者によって NIRS による前頭前野の血中ヘモグロビンの量的変化を取得した．心的状態に対応するラベルとしては，Pekrun[4] らの AEQ を参考にし，Enjoy，Sat- isfaction，Confusion，Anger，Boredom，Others(No-Emotion 含む) とした．また，被験者は学内の大学生の 5 名 (平均 22.8 歳, SD=0.748) であり，動画コンテンツとしては，学部生向けから大学院生向けの内容までを取り入れた探索アルゴリズムの解説を行っている授業とした．授業中に寝ていたり，眠そうにしていた被験者に関しては，その時学習していた分の動画に限り今回は学習データから削除した．さらに，被験者の習熟度に合わせて，被験者に見せた動画の本数の合計を調整した．データの整形としては，実際のデータは 128fps で記録できる Nexus に合わせて，HOT-1000 の記録を線形補間した．図 2: 実験風景 (赤線で囲んだ部分に器具を設置)

3 データセットの詳細

計測した指標としては，Nexus によって容積脈波，呼吸強度，皮膚コンダクタンス，HOT-1000 によって NIRS による血流動態の情報 (6 個) と脈拍数の合計 10 個である．今回は，Window size は 128 と設定し (1 秒程度)，被験者に授業後に内省報告させ，ラベルづけを行ったデータと対応づけてデータセットを作成した．また，ハイパーパラメータの調整は行っておらず，検証データは用意せずに，各被験者の前半８割を学習データ，残りの後半２割をテストデータとした．データ数に関しては，図 3 のようにクラスごとに分布しており，学習データ数の合計は 6223 個，テストデータ数の合計は 1551 個であった．図 3: 学習データとテストデータの分布

4 心的状態推定器

今回は時系列情報を考慮した分類機を作成するため， Hassan[5], Zheng[7] を元に，He[6] の ResNet 型の多チャンネルの CNN ( Convolutional Neural Network) を使用する．Hassan[5] によると，脳波のような時系列データに対して RNN や LSTM などの様々な手法に対してモデルの精度比較をしており，ResNet はそれらの中でももっとも良い精度を出しており，多チャンネルの場合の事例として Zheng[7] らが取り上げられていたため，その二つを兼ね備えたモデルを作成した．図 4: モデルの概要図

(3)

ネットワークの構造は図 4 のようになる．入力する指標の分だけ，１次元畳み込みを行う ResNet-18 を用意し，GAP ( Global Average Pooling ) を使用した後の各ネットワークからの出力を 1×1 の畳み込み処理を行い，全結合層によって分類する．

Batch size は 512，Optimizer は Momentum SGD，学習率の初期値は 0.1 とし，SGDR ( Stochastic Gra-dient Descent with warm Restarts )[8] によって学習中に調整されている．SGDR とは，式 (1) のように Co-sine 関数を使用して，学習率を上下させる学習率調整 方法である (図 5)．ηeは，使用する iteration での学習 率であり，ηminと ηmaxは，Cosine 関数によって周期的に変化した際に学習率が取りうる最小値を最大値の値である．期待される効果としては学習回数の削減であり，Smith[11]，矢野 [10] によると，超収束 ( Super convergence ) と呼ばれる学習回数を大幅に削減できることが実験的に示している． ηe= ηmin+ 1 2(ηmax− ηmin) cos mod(e, C) C π + 1 (1) 図 5: 今回使用した学習率の推移また，softmax 関数の計算前に図 6 のように，aplha を 1 とした Ranjan[9] の L2-softmax を使用した．L2-softmax は，を使用した．L2-softmax 関数の前にノルムによって正規化をすることで，出力のスケールによって値が変化するなどの softmax 関数の問題点を緩和することができる．図 6: L2-softmax での正規化の計算過程 (Ranjan[9] の図 5 より引用)

5 学習結果

学習結果として，図 7 にバッチ内平均精度（Accu-racy）の平均を示す．この結果から，テストデータに対しておよそ 50%の精度で正解していることがわかるまた，損失関数の値 (Loss) を見た場合も，SGDR の学習率の上下に関わらず順当に学習が進んでいる様子が見られた (図 8)．図 7: Accuracy の推移の様子図 8: Loss の推移の様子クラスによるデータの偏りを考察するために，図 9 のように混合行列 ( Confusion Matrix ) を作成した．この図の見方としては，例えば，2 行 1 列目の「6」という数字は，正解クラスが「”Satisfaction”」の場合に，「”Enjoy”」と予測したサンプル数が 6 個であることを表す．テストデータにおける最大度数となるクラスは「”Satisfaction”」であり，全てこのラベルと予測した場合の精度は 37.5%であった．また，今回のモデルのバッチ内平均精度の平均は 48.7%，全テストデータを使用した場合の精度は 38.7%とあまり差がなかったが，図 9 より，一つのクラスに偏った分類を行うような傾向は見られず偏った学習を行っていない様子が見られた．

(4)

図 9: Confusion Matrix

6 出力に寄与する入力の解析

作成したモデルに対する解釈を行うために，AM ( Activation Maximization ) による特定のクラスを最大にするような入力を生成し，生成した入力をモデルに再度通して，どこの部分が寄与しているのかを Sensitivity Analysis によって調べた．特定のクラスを最大にするデータにはそのクラスに特有の特徴が現れているはずであり，Sensitivity Analysis によって，そのどこの部分が特に寄与しているのかを調べた．

6.1 Activation Maximization

AM ( Activation Maximization ) とは，特定のユニットを最大に発火させるような入力を生成することによって，そのユニットの保つ役割を調査する際に使用するものである．Erhan[13] らは，入力とネットワーク (Sc(·)) の出力の関係を調査するために，ある特定のユニット (今回の場合はソフトマックスをかける前の層の出力 Sc(I)) を最大にするような入力 I を以下の式を満たすことで作成する手法を提案してる. またこのときネットワークの重みは更新せず，入力のみを更新していく. I∗= arg max I,s.t.∥I∥=ρ Sc(I), It+1= It+ ϵ ∂Sc(It) ∂It これは，非凸な最適化計画となるが，局所解を見つけるように入力を調整することは可能であるため，そこで，Erhan[13] らは，勾配上昇法 (gradient ascent) として以下の更新式を計算することで局所解を求めた. ただし，εは学習率である．これによって得られた入力は人間にとって解釈が難しくなることが多く，モデルのデバッグに使うような際には適していない．そこで Simonyan[12] らは下記の式を用いて，入力画像にノルムの制限を加えることで出力を大きくしつつ，人間にとって解釈可能な入力を出力する手法を提案している． arg max I Sc(I)− λ∥I∥ 2 2 今回は，Simonyan[12] のように罰則項を追加した手法を使用し，Erhan[13] とは異なり入力に関するノルムの制限は設けなかった．これらの手法は入力の初期値は [0, 1] の範囲で一様分布から独立にサンプリングされるが，これは入力を画像前提の処理であるため，今回のような生体情報には直接適応できない．そこで，今回は学習データの各入力の平均を中心とした正規分布によりサンプリングすることで代用した．

6.2 Sensitivity Analysis

XAI の中でもある一つのサンプルに対して，モデルが推論した結果を解釈する際に，特定の出力に対して入力のどの部分が寄与していたかを調査する手法があり， Post-hoc に解釈可能な手法と呼ばれている [2][17]．深層学習に対する Post-hoc な解釈手法として，Sensitivity Analysis があり，Jacek[15]，Simonyan[12] は逆伝播させた際に計算される入力層での勾配に注目することで，特定の入力にどの入力箇所が寄与しているかを調べる手法を提案している．この手法は，入力層での勾配を見ることで，各入力が微小変化した際の出力の変化の具合を見ることができるとされている．Simonyan[12] で は，入力画像 x からクラス c を予測するモデルにおいて Sc(x) が線形的なモデルの場合は, Sc(x) = wcTx + bc と表され，入力に対する重要さとはそのモデルの重み として表現されるとして, クラス c へ連結する重み wc が重要さに該当していると主張している．また，実際 のモデル Sc(x) は非線形であるため, 入力画像に関し てテイラー展開し，一次近似した際に, 以下のように入力画像での勾配が重み部分に該当することがわかる． Sc(x)≈ wTx + b, w = ∂Sc(x) ∂x x=x0 そこで Simonyan[12] は，Jacek[15] 同様に入力層の勾配を見ることで，入力の寄与具合を画像に対して調査している．しかし，単純に入力層での勾配を計算するだけでは，近しい入力に対する勾配が大きく異なったり，層を増やすとホワイトノイズのように勾配がなっていくことが報告されており Montavon[16]，Smooth Grad は正規分布からのノイズを加えて，勾配を計算するという作業を繰り返すことでこの問題を緩和することができるとされている．

(5)

ˆ Mc(x) = 1 n n X 1 Mc x +N 0, σ2 Mc(x) = ∂Sc(x)/∂x

6.3 結果・考察

AM によって各クラスの出力を最大 (今回は特定のユニットの出力が 0.9 程度) にする入力を作成するという作業を初期値を変えて 10 回繰り返し，平均した入力情報に対し，各指標に対して分散 15 に設定して，SmoothGrad を行った．これらの過程を経て，特定のクラスの出力が最大になるような入力の平均のどの部分が特に出力に寄与しているかを調査した．結果としては，図 10 のようになった．図 10 では，”Satisfaction”の出力を最大にするような系列のデータを作成し，SmoothGrad により重要さを可視化したものである．点が明るいほど寄与具合が多く，暗いほど寄与具合が少ない．まず，着目すべきは，下の 3 行部分の「HbT」と名前のついた入力変数 (NIRS によって取得された情報) に関しては，入力が上がった場合，もしくは下がった場合に出力に寄与している様子が見られた．例えば，’HbT change ( left subtracted ) ’,’HbT change ( left SD1cm ) ’, ’HbT change ( right SD3cm ) ’ の３つは数値が上昇している場合に明るくなり，出力に寄与している様子が見られた．また，’Sensor-E:SC/GSR’ と’Estimated pulse rate’ はそれぞれ，皮膚コンダクタンスと心拍数を表しているが，これらは，各点の上下に関わらず中央区間の入力に対して高い寄与をしている様子が見られた． AM によって入力を生成する際に，”Anger”と”Others” に関するクラスを最大にするような入力は作成できなかった．要因としては，”Anger ”はサンプル数が少なかったため十分に特徴を得られなかったことや，AM の初期値として各指標の平均値を使用したため，他の心的状態に比べて大きく外れた数値になっている可能性が考えられた．”Others”に関しては，その他の状態を全てこのラベルとたため，生体情報にも特徴が現れにくく，モデルが特徴をとらえきれなかったことがあげられる．

7 まとめと今後の課題

モデルの作成に関しては，アンバランスなデータセットにも関わらず，一つのクラスに偏った推論をするといったモデルではなく，それぞれのクラスを予測するようなモデルを作成することができた．しかし，精度は今回はベースラインとさほど違いがないため，さらに被験者を増やすなどモデルやデータセットの調整が必要である．今回は寄与具合の可視化のために，SmoothGrad によって得られた寄与具合を入力指標ごとに正規化したため，指標間の寄与具合の大きさの比較はできていないが，指標内での寄与具合の可視化を行うことができた．しかし，HA によってデータを作成する際に，時系列性を無視した初期値の設定をしているため，実際のデータとは少し乖離のある初期値を作成した．このことから今後は時系列情報を保った初期値の設定を行う必要がある．被験者数が 6 人と少ないため追加実験が必要であることと，今回の実験で実験中に寝てしまう学生が稀にいたため，学習意欲を保つために学習の前後でテストを設けるなどの工夫をする必要が示唆された．

8 謝辞

本研究は，科学研究費基盤研究 (C)(一般)(課題番号:18K11584)「神経科学の知見による教授戦略モデルに基づく学習支援エージェントの設計基盤の開発」の支援を受けている

参考文献

[1] Matsui, T., Tawatsuji, Y., Fang, S. & Uno, T.: Conceptualization of IMS that Estimates Learn-ers’ Mental States from Learners ’Physiological Information Using Deep Neural Network Algo-rithm. In: Coy A., Hayashi Y., Chang M. (eds) Intelligent Tutoring Systems. ITS 2019. Lecture Notes in Computer Science, vol 11528. Springer, Cham (2019)

[2] Yang, Fan et al.: Evaluating Explanation With-out Ground Truth in Interpretable Machine Learning. arXiv:1907.06831 (2019)

[3] Selvaraju, R.R., Cogswell, M., Das, A., Vedan-tam, R., Parikh, D. & Batra, D.: Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization, 2017 IEEE International Conference on Computer Vision, pp.618-626 (2017)

[4] Reinhard Pekrun, Thomas Goetz, Anne C. Fren-zel, Petra Barchfeld, Raymond P. Perry.: Mea-suring emotions in students ’learning and per-formance: The Achievement Emotions Question-naire (AEQ), Contemporary Educational Psy-chology, Vol.36, No.1, pp. 36-48 ISSN 0361-476X (2011)

(6)

図 10: ”Satisfaction”を最大にする入力に対して Smooth Grad を使用した場合の例

[5] Hassan Ismail Fawaz, Germain Forestier, Jonathan Weber, Lhassane Idoumghar and Pierre-Alain Muller.: Deep Neural Network Ensembles for Time Series Classiﬁcation, Con-ference: 2019 International Joint Conference on Neural Networks (IJCNN) (2019)

[6] K. He, X. Zhang, S. Ren and J. Sun.: Deep Residual Learning for Image Recognition, 2016 IEEE Conference on Computer Vision and Pat-tern Recognition (CVPR), Las Vegas, NV, pp. 770-778 (2916)

[7] Zheng Y, Liu Q, Chen E, Ge Y, Zhao JL.: Ex-ploiting multi-channels deep convolutional neu-ral, networks for multivariate time series classi-ﬁcation. Frontiers of Computer Science Vol.10, No.1, pp.96-112 (2016)

[8] Loshchilov, Ilya and Hutter, Frank.: Sgdr: Stochastic gradi-ent descent with warm restarts. In ICLR 2017

[9] R Ranjan, CD Castillo, Chellappa, R.: L2-constrained softmax loss for discriminative face veriﬁcation. arXiv preprint arXiv:1703.09507 (2017)

[10] 矢野正基, 大賀隆裕, 大西正輝.: 深層学習を用いた画像識別タスクの精度向上テクニック, 電子情報通信学会論文誌 D,Vol.J102-D, No.2, pp.34-52, (2019)

[11] L.N. Smith, Topin, N.: Super-convergence: Very fast training of residual networks using large

learning rates arXiv preprint arXiv:1708.07120 (2017)

[12] Simonyan, K., Vedaldi, A., Zisserman, A.: Deep Inside Convolutional Networks: Visualising Im-age Classiﬁcation Models and Saliency Maps, In-ternational Conference on Learning Representa-tions Workshop (2014)

[13] Erhan, D., Bengio, Y., Courville, A. & Vincent, P.: Visualizing Higher-Layer Features of a Deep Network, University of Montreal 1341(3) (2009) [14] D. Smilkov, N. Thorat, B. Kim, F. Viegas, and

M. Wattenberg. Smoothgrad: removing noise by adding noise. In ICML Workshop on Visualiza-tion for Deep Learning (2017)

[15] Jacek M. Zurada, Aleksander Malinowski, Sen-sitivity Analysis for Minimization of Input Data Dimension for Feedforward Neural Network. Ian Cloete+ University of Louisville, Louisville Ken-tucky 40292, USA (1994)

[16] Montavon G., Binder A., Lapuschkin S., Samek W., M¨uller KR. Layer-Wise Relevance Propaga-tion: An Overview. In: Samek W., Montavon G., Vedaldi A., Hansen L., Muller KR. (eds) Explain-able AI: Interpreting, Explaining and Visualizing Deep Learning. Lecture Notes in Computer Sci-ence, vol 11700. Springer, Cham (2019)

[17] Guidotti, R., Monreale, A., Ruggieri, S., Turini, F., Pedreschi, D., Giannotti, F. A Survey of Methods for Explaining Black Box Models arXiv preprint arXiv: 1802.01933, pp.1-45 (2018)

時系列情報を考慮したオンデマンド授業視聴時の学習者の心的状態推定モデルの提案