実運用のための最適化

第 4 章評価実験 15

5.2 実運用のための最適化

本節では提案手法を実現するために必要なパラメータ設定について議論を行う．

5.2.1 _{忙しさの初期値決定}

初期値をうまく与えてやることで提案手法では高い正解率を出すことが出来ることを 5.1.1節で述べた．

今回のデータ収集では学生が被験者だったので，忙しくないと答える人が多かった．その結果から初期値を0(忙しくない)としたのだが，この値はシステムを利用する組織やグループによって変わる可能性がある．例えば，利用するグループが学生ではなく，一般企業の社員なら初期値は1(忙しい)になるかも知れない．何故なら，仕事中は仕事に集中する必要があるのでプライベートなことに関する着信を受けられないと考えられるからである．

以上の理由から初期値はシステムを利用する組織やグループによって変わる可能性がある．よって，システムの導入時にシステムの管理者は適切な初期値を与える必要がある．

5.2.2 近未来の定義

提案手法では近未来を予測するための学習と予測には４分後までを見るのが最も良いということを5.1.3節で述べた．

但し，４分後までを見るのが最も良いのは被験者のグループだけであると考えられる．

何故なら，組織やグループによって拠点は変化し，また拠点が変化することから移動にかかる時間が変わるからである．例えば，本実験の被験者は皆同じ研究室の学生であるので目的地はほぼ同じで，拠点は研究室となっている事から移動時間は変わらない．しかし，

被験者のグループを変えると，おのずと拠点や目的地が変化するので移動にかかる時間が変わる．

近未来の定義は移動にかかる時間に左右されるので，システム導入時に利用者に目的地ごとの移動に何分くらい掛かるかを聞いて最も多い時間を近未来と定義する必要がある．

また，ユーザは自分の決めたルール通りの行動を行わない［17］という理由から，システムの管理者は１週間分のデータが揃った時点で，移動にかかった時間で最も多い時間を近未来と定義しなおす必要がある．

5.2.3 個人の目的地毎の忙しさと支援方法

検証実験時，近未来の忙しさの予測に用いる学習データの違いによりグルーピングできることが分かった(表5.1)．この表の被験者Ｃと被験者Ｅには高い数値に優位性があまり見らない．それは，本検証実験に参加してくれた被験者が全員学生ということで，個人ごとに特徴のある行動を取ることが多かったためだと考えられる．しかし，提案手法を導入する組織やグループによって，平均的な行動をする人が多い組織があったり，個人ごとに特徴的な行動をする人が多い組織がある．さらに，２種類の行動が混ざっている組織も有るかもしれない．そのような組織において，どちらか一方を用いるだけで支援するのでは様々なタイプの人に対応はできない．以上のことからグループ分けを行うことに意味はあると考えられ本考察を行った．この結果から，

表 5.1: 学習データの違いによる正解率の変化

• 個人ごとに特徴のある行動をするグループ：個人のデータで学習

• 平均的な行動をするグループ：全員のデータで学習

という，２つのグループに分けられると考えた．そして，各グループ毎に学習データを切り替える事で，提案手法の正解率が向上する，また平均的な行動をするグループに属する人は，その人があまり行動をせず多くのデータを収集できなくても全員分のデータで学習をした結果を用いて支援を行うので個人のデータのみから学習したデータを用いるよりも早い段階から支援が可能であると考え，グルーピングを行うことに意味をがあると考えた．本章ではグループ分けを行うに当たり，どのようなデータを用いればグルーピングを出来るかの考察を行った．

グルーピング方法について考察を行うとき，被験者の性格や学年を考慮に入れ様々な方法を試すことで考察を行った．考察の結果，個人の目的地毎の正解率の平均値(以下，個人の忙しさ)と閾値によりグルーピングを行うと良いことが分かった．以下で，個人の忙しさと閾値の算出方法について述べる．

個人の忙しさの算出方法は

個人の忙しさ = Σ忙しい確率/目的地数である．

ここで，個人の忙しさの算出例を示す．表5.2は，ある被参照の目的地(A,B,C)と各目的地に対応する忙しさを示している．表5.2を用いた，個人の忙しさの算出すると

個人の忙しさ = (0.8 + 0.2 + 0.5)/3

= 0.5 となる．

表 5.2: 目的地の忙しさ

個人の忙しさと正解率の関係についてのグラフを図4.6に示す．

このグラフから被参照者が近未来の忙しさを予測するために全体のデータで学習したものを用いるか，個人ごとに学習されたものを用いるかを判断することが出来る．

２種類の近似線の交点が(X, Y) = (0.253,0.915)であることから，個人の忙しさが0.253 未満なら全体のデータで学習をしたもの，個人の忙しさが0.253以上なら個人ごとに学習されたものを用いる方が良いということがわかる．

以上の結果より，各被参照者ごとに前日までのデータを用い個人の忙しさを求め，その

値が0.253未満か以上かにより，その日の近未来の忙しさを予測するために，全データで

学習したものを用いるのか個人ごとに学習されたものを用いるのかを決定する．この方法により算出した正解率のグラフを図 4.1に示している．

しかし，近未来の忙しさ予測に全データで学習したものを用いるか個人ごとに学習されたものを用いるかを決定するための閾値は組織やグループによって変わる．何故なら対象とするグループが変わると忙しさや正解率が変化するからだ．よって，システムの導入時には１週間分のデータを用い閾値を計算する必要がある．閾値の計算方法は

1. 被参照毎に忙しさ(Σ忙しい確率/目的地数)を計算

2. 計算した値に対応する，“全体のデータで学習”の正解率と“個人のデータで学習”

の正解率を用いた散布図を作成

3. 散布図から求められる２種類の近似線の交点を算出

である．ここで言う，“全体のデータで学習”とは，全員分のデータを用いて学習を行ったデータ，“個人のデータで学習”とは個人のデータを用いて学習を行ったデータである．

データが揃ってないときに閾値をどうするかは今後の課題であるが，対応策として閾値を0.5にする，全員，個人ごとに学習されたものを用いるなどの案が考えられる．

ドキュメント内 JAIST Repository https://dspace.jaist.ac.jp/ (ページ 33-36)

第 4 章 評価実験 15

5.2 実運用のための最適化

5.2.1 忙しさの初期値決定

5.2.2 近未来の定義

5.2.3 個人の目的地毎の忙しさと支援方法

第 4 章評価実験 15

5.2.1 _{忙しさの初期値決定}