機械学習

第 4 章推定結果 34

4.1.2 機械学習

Facutual，Interpretive，Exploratory の3 つのタスクについて，207の特徴量に分解した視線データを Random Forest識別器を用いて推定した．結果を図4.1および表4.2に示す．評価指標はmicro-F スコアとし，外側の交差検証で9回識別を行い，その際の推定性能の平均値をその窓サイズでの最終的な推定性能とみなした．また，図4.1および表4.2には機械学習により作成したRandom Forest識別器の性能を比較するために，ダミー識別器としてMost Frequent，Stratiﬁedの2つの推定性能，および理論的なベースラインとしてTheoretical Baselineを記してある．Most Frequentは学習データに最も多く含まれている単一のクラスを無条件に予測値として出力するダミー識別器で，Stratiﬁedは学習データに含まれるそれぞれのクラスの割合分だけ予測値としてランダムに出力するダミー識別器である．全ての被験者は各タスクを1回ずつ行っており，全てのデータをランダムに推定した場合，理論的なベースラインは約33%となると考えられ，したがって本研究では33%を理論的なベースライン（Theoretical Baseline）とし，識別器の推定性能と比較している．

表4.2 タスク推定結果表

Window Size Random Forest Most Frequent Stratiﬁed

5 0.423 0.331 0.338

15 0.431 0.325 0.332

30 0.444 0.340 0.332

45 0.453 0.335 0.332

60 0.467 0.340 0.332

75 0.487 0.342 0.332

90 0.504 0.336 0.333

105 0.524 0.335 0.333

120 0.518 0.335 0.333

135 0.526 0.326 0.333

交差検証の結果，Random Forest識別器の推定性能は，窓サイズを135secに設定した時に最も推定精度が高く，平均micro-Fは0.526であった．

また，以下に窓サイズが135secの時のRandom Forest識別器から算出された特徴量重要度を，重要度が

図4.1 タスク推定結果グラフ

図4.2 タスク推定における特徴量重要度

相対的にその特徴量が予測に寄与していることを示している（Breiman, 2001）．したがって，図4.2では

mean xおよび3rd quartile xがクラスの推定に相対的に大きな影響を与えていることを示している．

4.1.3 考察

多項ロジスティック回帰分析の結果，Fixation Count，Saccade Count，Average Saccade Duration，Pupil Sizeを説明変数し，タスクを目的変数とした多項ロジスティック回帰の結果，モデルの適合度を表すχ²値は

9.656で有意な結果ではなかった．また，説明率（R²）の値は.020，実際の予測値と実データのずれを表す

micro-F スコアの値は0.412で，ランダムに予測した場合に取りうるベースライン（0.333）とほとんど変わ

らない結果となった．各説明変数についても，z値が有意な結果とはならず，各タスクを説明する上ではこれらの変数はあまり役に立たないことが示された．

また，分散分析の結果（図3.9）から，タスクごとに各視線データの平均値が異なっていることがわかる．

Al-Samarraieet al.（2016）の研究でも，注視時間と瞳孔サイズがタスクごとに異なっており，特に他のタス

クと比較してFactualタスクにおいて注視時間が長く，瞳孔サイズが大きくなる傾向にあったことが報告されている．本研究においても，瞳孔サイズはFactualタスクで最も大きくなる傾向がみられたが，注視回数は Exploratoryで最も大きく，注視時間はInterpretiveタスクで最も長くなるという結果となった．

この結果の相異について考えられる可能性としては，実験時間の違いによる影響の可能性が考えられる．

Al-Samarraieet al.の実験は，答えが見つかり次第，そこで探索が終了していた．そのため，論文中に明言は

されていないが，被験者ごとにタスクの遂行時間は異なっていたと考えられる．対して，本研究では実験時間を統制するため，実験時間は各タスク7分間と固定時間であった．そう考えると，Al-Sammaraieet al.の研究で示された結果は，探索行動中のごく短い時間で切り取った場合に見られる特徴であったのではないだろうか．このような各タスクにおける視線データの平均値の差異については，さらなる比較調査が必要と考えられる．

Random Forest識別器を用いて各タスクを推定した結果では，窓サイズ135secの時にmicro-F=0.526と，

Stratiﬁed，Most FrequentおよびThoretical Baselineよりも高い精度が算出された．分析のスキームが異なるため単純な比較はできないが，χ²値が有意ではなく，micro-F=0.412と低い値であった多項ロジスティック回帰の結果から，10%以上の値の向上が見られることは特筆すべきものであると考えられる．

機械学習での分析では視線データを分析窓で細かく分割したデータセットを用い，探索中の視線全体ではなく，短い時間でのみ見られるような視線行動を拾い上げている．このことから，Web情報探索におけるタスクの影響は，探索行動中に常に見られるようなものではなく，影響を受ける短い特定の時間が存在する可能性が示唆される．

特徴量重要度のグラフを見ると，最も予測に寄与しているのはmean xと3rd quartile xである．これらは被験者が探索中に見ていたディスプレイ上のおおまかな位置を示している．今回こうした特徴量が高い重要度を占めていたことから，タスク毎に被験者が目を向ける場所がある程度決まっていた可能性が考えられる．高久ら（2009）の研究によると，情報の獲得を意図した探索と，特定のページへの遷移を目的とした探索とでは，前者の方が検索画面のタブを注視する傾向にあったことなどを報告している．また，本研究の結果において，ディスプレイをグリッドに分割したheatmap特徴量も重要度の内で多くを占めていることからも，被験者が頻繁に目を向ける位置がタスクごとに固有であった可能性が示唆される．こうしたタスク固有の注視位置

4.2 BIG5 パーソナリティ推定

ドキュメント内 Web 情報探索行動時の視線情報に基づくユーザー属性の推定 (ページ 38-41)

第 4 章 推定結果 34

4.1.2 機械学習

4.1.3 考察

4.2 BIG5 パーソナリティ推定

第 4 章推定結果 34