第 4 章 評価実験 15
5.2 実運用のための最適化
本節では提案手法を実現するために必要なパラメータ設定について議論を行う.
5.2.1 忙しさの初期値決定
初期値をうまく与えてやることで提案手法では高い正解率を出すことが出来ることを 5.1.1節で述べた.
今回のデータ収集では学生が被験者だったので,忙しくないと答える人が多かった.そ の結果から初期値を0(忙しくない)としたのだが,この値はシステムを利用する組織やグ ループによって変わる可能性がある.例えば,利用するグループが学生ではなく,一般企 業の社員なら初期値は1(忙しい)になるかも知れない.何故なら,仕事中は仕事に集中す る必要があるのでプライベートなことに関する着信を受けられないと考えられるからで ある.
以上の理由から初期値はシステムを利用する組織やグループによって変わる可能性があ る.よって,システムの導入時にシステムの管理者は適切な初期値を与える必要がある.
5.2.2 近未来の定義
提案手法では近未来を予測するための学習と予測には4分後までを見るのが最も良い ということを5.1.3節で述べた.
但し,4分後までを見るのが最も良いのは被験者のグループだけであると考えられる.
何故なら,組織やグループによって拠点は変化し,また拠点が変化することから移動にか かる時間が変わるからである.例えば,本実験の被験者は皆同じ研究室の学生であるので 目的地はほぼ同じで,拠点は研究室となっている事から移動時間は変わらない.しかし,
被験者のグループを変えると,おのずと拠点や目的地が変化するので移動にかかる時間が 変わる.
近未来の定義は移動にかかる時間に左右されるので,システム導入時に利用者に目的地 ごとの移動に何分くらい掛かるかを聞いて最も多い時間を近未来と定義する必要がある.
また,ユーザは自分の決めたルール通りの行動を行わない[17]という理由から,システ ムの管理者は1週間分のデータが揃った時点で,移動にかかった時間で最も多い時間を近 未来と定義しなおす必要がある.
5.2.3 個人の目的地毎の忙しさと支援方法
検証実験時,近未来の忙しさの予測に用いる学習データの違いによりグルーピングでき ることが分かった(表5.1).この表の被験者Cと被験者Eには高い数値に優位性があまり 見らない.それは,本検証実験に参加してくれた被験者が全員学生ということで,個人ご とに特徴のある行動を取ることが多かったためだと考えられる.しかし,提案手法を導入 する組織やグループによって,平均的な行動をする人が多い組織があったり,個人ごとに 特徴的な行動をする人が多い組織がある.さらに,2種類の行動が混ざっている組織も有 るかもしれない.そのような組織において,どちらか一方を用いるだけで支援するのでは 様々なタイプの人に対応はできない.以上のことからグループ分けを行うことに意味はあ ると考えられ本考察を行った.この結果から,
表 5.1: 学習データの違いによる正解率の変化
• 個人ごとに特徴のある行動をするグループ:個人のデータで学習
• 平均的な行動をするグループ:全員のデータで学習
という,2つのグループに分けられると考えた.そして,各グループ毎に学習データを切 り替える事で,提案手法の正解率が向上する,また平均的な行動をするグループに属する 人は,その人があまり行動をせず多くのデータを収集できなくても全員分のデータで学習 をした結果を用いて支援を行うので個人のデータのみから学習したデータを用いるより も早い段階から支援が可能であると考え,グルーピングを行うことに意味をがあると考え た.本章ではグループ分けを行うに当たり,どのようなデータを用いればグルーピングを 出来るかの考察を行った.
グルーピング方法について考察を行うとき,被験者の性格や学年を考慮に入れ様々な方 法を試すことで考察を行った.考察の結果,個人の目的地毎の正解率の平均値(以下,個 人の忙しさ)と閾値によりグルーピングを行うと良いことが分かった.以下で,個人の忙 しさと閾値の算出方法について述べる.
個人の忙しさの算出方法は
個人の忙しさ = Σ忙しい確率/目的地数 である.
ここで,個人の忙しさの算出例を示す.表5.2は,ある被参照の目的地(A,B,C)と各目 的地に対応する忙しさを示している.表5.2を用いた,個人の忙しさの算出すると
個人の忙しさ = (0.8 + 0.2 + 0.5)/3
= 0.5 となる.
表 5.2: 目的地の忙しさ
個人の忙しさと正解率の関係についてのグラフを図4.6に示す.
このグラフから被参照者が近未来の忙しさを予測するために全体のデータで学習した ものを用いるか,個人ごとに学習されたものを用いるかを判断することが出来る.
2種類の近似線の交点が(X, Y) = (0.253,0.915)であることから,個人の忙しさが0.253 未満なら全体のデータで学習をしたもの,個人の忙しさが0.253以上なら個人ごとに学習 されたものを用いる方が良いということがわかる.
以上の結果より,各被参照者ごとに前日までのデータを用い個人の忙しさを求め,その
値が0.253未満か以上かにより,その日の近未来の忙しさを予測するために,全データで
学習したものを用いるのか個人ごとに学習されたものを用いるのかを決定する.この方法 により算出した正解率のグラフを図 4.1に示している.
しかし,近未来の忙しさ予測に全データで学習したものを用いるか個人ごとに学習され たものを用いるかを決定するための閾値は組織やグループによって変わる.何故なら対象 とするグループが変わると忙しさや正解率が変化するからだ.よって,システムの導入時 には1週間分のデータを用い閾値を計算する必要がある.閾値の計算方法は
1. 被参照毎に忙しさ(Σ忙しい確率/目的地数)を計算
2. 計算した値に対応する,“全体のデータで学習”の正解率と“個人のデータで学習”
の正解率を用いた散布図を作成
3. 散布図から求められる2種類の近似線の交点を算出
である.ここで言う,“全体のデータで学習”とは,全員分のデータを用いて学習を行った データ,“個人のデータで学習”とは個人のデータを用いて学習を行ったデータである.
データが揃ってないときに閾値をどうするかは今後の課題であるが,対応策として閾値 を0.5にする,全員,個人ごとに学習されたものを用いるなどの案が考えられる.