第 4 章 推定結果 34
4.1.2 機械学習
Facutual,Interpretive,Exploratory の3 つのタスクについて,207の特徴量に分解した視線データを Random Forest識別器を用いて推定した.結果を図4.1および表4.2に示す.評価指標はmicro-F スコアと し,外側の交差検証で9回識別を行い,その際の推定性能の平均値をその窓サイズでの最終的な推定性能とみ なした.また,図4.1および表4.2には機械学習により作成したRandom Forest識別器の性能を比較するた めに,ダミー識別器としてMost Frequent,Stratifiedの2つの推定性能,および理論的なベースラインとし てTheoretical Baselineを記してある.Most Frequentは学習データに最も多く含まれている単一のクラス を無条件に予測値として出力するダミー識別器で,Stratifiedは学習データに含まれるそれぞれのクラスの割 合分だけ予測値としてランダムに出力するダミー識別器である.全ての被験者は各タスクを1回ずつ行ってお り,全てのデータをランダムに推定した場合,理論的なベースラインは約33%となると考えられ,したがって 本研究では33%を理論的なベースライン(Theoretical Baseline)とし,識別器の推定性能と比較している.
表4.2 タスク 推定結果表
Window Size Random Forest Most Frequent Stratified
5 0.423 0.331 0.338
15 0.431 0.325 0.332
30 0.444 0.340 0.332
45 0.453 0.335 0.332
60 0.467 0.340 0.332
75 0.487 0.342 0.332
90 0.504 0.336 0.333
105 0.524 0.335 0.333
120 0.518 0.335 0.333
135 0.526 0.326 0.333
交差検証の結果,Random Forest識別器の推定性能は,窓サイズを135secに設定した時に最も推定精度が 高く,平均micro-Fは0.526であった.
また,以下に窓サイズが135secの時のRandom Forest識別器から算出された特徴量重要度を,重要度が
図4.1 タスク 推定結果グラフ
図4.2 タスク推定における特徴量重要度
相対的にその特徴量が予測に寄与していることを示している(Breiman, 2001).したがって,図4.2では
mean xおよび3rd quartile xがクラスの推定に相対的に大きな影響を与えていることを示している.
4.1.3 考察
多項ロジスティック回帰分析の結果,Fixation Count,Saccade Count,Average Saccade Duration,Pupil Sizeを説明変数し,タスクを目的変数とした多項ロジスティック回帰の結果,モデルの適合度を表すχ2値は
9.656で有意な結果ではなかった.また,説明率(R2)の値は.020,実際の予測値と実データのずれを表す
micro-F スコアの値は0.412で,ランダムに予測した場合に取りうるベースライン(0.333)とほとんど変わ
らない結果となった.各説明変数についても,z値が有意な結果とはならず,各タスクを説明する上ではこれ らの変数はあまり役に立たないことが示された.
また,分散分析の結果(図3.9)から,タスクごとに各視線データの平均値が異なっていることがわかる.
Al-Samarraieet al.(2016)の研究でも,注視時間と瞳孔サイズがタスクごとに異なっており,特に他のタス
クと比較してFactualタスクにおいて注視時間が長く,瞳孔サイズが大きくなる傾向にあったことが報告され ている.本研究においても,瞳孔サイズはFactualタスクで最も大きくなる傾向がみられたが,注視回数は Exploratoryで最も大きく,注視時間はInterpretiveタスクで最も長くなるという結果となった.
この結果の相異について考えられる可能性としては,実験時間の違いによる影響の可能性が考えられる.
Al-Samarraieet al.の実験は,答えが見つかり次第,そこで探索が終了していた.そのため,論文中に明言は
されていないが,被験者ごとにタスクの遂行時間は異なっていたと考えられる.対して,本研究では実験時間 を統制するため,実験時間は各タスク7分間と固定時間であった.そう考えると,Al-Sammaraieet al.の研 究で示された結果は,探索行動中のごく短い時間で切り取った場合に見られる特徴であったのではないだろう か.このような各タスクにおける視線データの平均値の差異については,さらなる比較調査が必要と考えら れる.
Random Forest識別器を用いて各タスクを推定した結果では,窓サイズ135secの時にmicro-F=0.526と,
Stratified,Most FrequentおよびThoretical Baselineよりも高い精度が算出された.分析のスキームが異な るため単純な比較はできないが,χ2値が有意ではなく,micro-F=0.412と低い値であった多項ロジスティッ ク回帰の結果から,10%以上の値の向上が見られることは特筆すべきものであると考えられる.
機械学習での分析では視線データを分析窓で細かく分割したデータセットを用い,探索中の視線全体ではな く,短い時間でのみ見られるような視線行動を拾い上げている.このことから,Web情報探索におけるタス クの影響は,探索行動中に常に見られるようなものではなく,影響を受ける短い特定の時間が存在する可能性 が示唆される.
特徴量重要度のグラフを見ると,最も予測に寄与しているのはmean xと3rd quartile xである.これらは 被験者が探索中に見ていたディスプレイ上のおおまかな位置を示している.今回こうした特徴量が高い重要度 を占めていたことから,タスク毎に被験者が目を向ける場所がある程度決まっていた可能性が考えられる.高 久ら(2009)の研究によると,情報の獲得を意図した探索と,特定のページへの遷移を目的とした探索とで は,前者の方が検索画面のタブを注視する傾向にあったことなどを報告している.また,本研究の結果におい て,ディスプレイをグリッドに分割したheatmap特徴量も重要度の内で多くを占めていることからも,被験 者が頻繁に目を向ける位置がタスクごとに固有であった可能性が示唆される.こうしたタスク固有の注視位置