第 3 章 曜日・時間帯ごとの投稿数の変化に着目した行動推定技術の提案
3.6 評価実験
3.6.6 行動推定精度の評価実験
(1) 実験内容
本実験では,過去の投稿傾向から抽出した習慣行動に基づきユーザの行動を推定する手 法の有用性を検証するため,投稿パターンモデルのみを参照してユーザの行動を推定する 手法,行動確率モデルのみを参照してユーザの行動を推定する手法,そしてそれら 2 つの 手法により得られた結果を組み合わせた手法の 3 つの手法の精度を比較する.テストデー タには,実験対象である10ユーザの判定データ2,935 件を扱う.パラメータには,予備実 験の結果に基づき,時間数nに 24時間,閾値αに2.0を設定する.これらの実験データを 用いて,次に示す手順により実験を行う.
STEP 1 :各ユーザの判定データを除いた全投稿履歴を学習データとして,行動確率モデ
ルと投稿パターンモデルを構築する.
72
STEP 2 :判定データに対して,投稿パターンに基づく行動確率算出処理の手法(投稿パ
ターン),時間に基づく行動確率算出処理の手法(時間),それら2つの手法を組み合 わせる行動確率算出処理の手法(投稿パターンと時間の組み合わせ)の3つの手法に より,判定データの行動を推定する.
STEP 3 :判定データの行動と推定結果が一致する場合に正解とする.そして,正しく判
定できた割合について,適合率,再現率とF値により各手法の行動推定精度を評価す る.
(2) 実験結果
本実験の結果を表 3.10に示す.
表 3.10 行動推定の実験結果
行動 件数 投稿パターン 時間(tf-idf) 投稿パターンと時間の 組み合わせ 適合率 再現率 F値 適合率 再現率 F値 適合率 再現率 F値
睡眠中 500件 0.719 0.900 0.799 0.767 0.890 0.824 0.739 0.936 0.826
出勤中 463件 0.800 0.674 0.732 0.832 0.758 0.793 0.858 0.706 0.775
勤務中 504件 0.684 0.738 0.71 0.716 0.754 0.734 0.696 0.790 0.740
食事中 494件 0.717 0.545 0.619 0.733 0.589 0.653 0.785 0.599 0.680
帰宅中 489件 0.577 0.671 0.621 0.593 0.673 0.63 0.635 0.718 0.674
その他 485件 0.614 0.542 0.576 0.655 0.606 0.63 0.711 0.612 0.658
平均 2,935件 0.685 0.678 0.676 0.716 0.712 0.711 0.737 0.727 0.725
表 3.10では,各手法を比較して,行動の推定精度が高い箇所を太字にして下線を記載し ている.表 3.9,表 3.10の「時間(tf-idf)」項は,第3.6.5項の評価実験1にて評価した行 動確率算出処理(tf-idf)と同じ解析であるため,表 3.9 の該当項目の実験結果と同値であ る.
表 3.10の実験結果を確認した結果,得られた知見を次に示す.
投稿パターンと時間の両方を組み合わせた手法が最も高精度に行動を推定できること がわかった
投稿パターンと時間を組み合わせてユーザの行動を推定する本提案手法は,推定精度の 平均値に着目すると,適合率0.737,再現率0.727,F値0.725となり,どちらか片方のモデ
73
ルのみを用いた他の手法と比べて最も精度が高くなった.これは,ユーザの日々の習慣的 な行動と突発的な非習慣的な行動時間の揺らぎを考慮できたためと考えられる.
以上より,投稿パターンと行動が執られやすい時間を連動させてユーザの行動を推定す ることで,「投稿内容に行動や位置に関する情報が含まれている割合が非常に少ない問題」
に一定の解決策を提示できたと言える.
投稿パターンと時間を比較すると時間に基づく行動推定の精度が高いことがわかった 時間に基づく手法の推定精度は,F値の平均が0.711であり,投稿パターンのみを用いる 手法よりも平均のF値が0.035高かった.この結果から,人の習慣行動のパターンは一般的 に時間に依存していることがわかった.これと同時に,社会人のように習慣的な生活を執 る属性の行動は,過去の投稿履歴から抽出した習慣行動の時間を用いることで,投稿パタ ーンのみしか用いない場合に比べ,出勤中のような定時的な行動を高精度に抽出できるこ とが明らかになった.
習慣的な行動の時間がずれるときに投稿パターンによる行動推定が効果的であること がわかった
時間のみの手法による推定結果と時間と投稿パターンを組み合わせた手法による推定結 果は,F値の平均に着目すると0.014の差があった.そこで,時間のみを用いる手法で誤判 定となった834件を分析したところ,816件(98.74%)のデータは 2時間以下の独立した 行動であることがわかった.この原因として,時間による手法の効果が現れるのは,習慣 行動の中でも特に定期的な行動であることが関係していると考えられる.定時の始業時間 が影響する「出勤中」を除く「食事中」,「帰宅中」や「その他」のような 1時間から 2 時 間で終わる行動,あるいは「勤務中」や「睡眠中」の開始時間や終了時間の揺らぎに対応 できず,誤判定が発生したものと考えられる.そして,時間のみでは対応できない行動の 変化に投稿パターンによる推定が効果を発揮することで,結果として行動パターンと時間 の組み合わせの精度が向上したと思われる.
その一方で,突発的な休養や出張などの行動変化に際しては,習慣的な行動パターンと 異なるため適切に推定できないことがわかった.この問題については,現状の曜日にて行 動パターンを学習するのと並行して,投稿パターンが大きく異なる場合は,例外的な行動 として判定する処理を追加することで解決可能であると考えられる.
1日の平均投稿数の増加に伴い行動推定精度も向上する傾向がみられる
1日の平均投稿数と行動推定精度との関係を分析するため,全ユーザを対象に平均投稿数 ごとの精度を比較した.本研究では,1日の平均投稿数が30件以上のユーザを対象として いたが,全体の傾向を分析するため,30件以下のユーザ3人(K,LとM)も含めて傾向を 分析する.追加ユーザを表 3.11に示す.
74
表 3.11 追加ユーザ ユーザ 性別 投稿数 1日の
平均投稿数
開始日からの 経過日数
行動情報が 含まれる割合
K 女性 5,738 5.8 981 26.73%
L 男性 16,647 14.8 1,123 7.08%
M 男性 21,181 25.3 836 6.60%
全ユーザの各行動における推定精度を表 3.12,1 日の平均投稿数と行動推定精度の平均 との関係を図3.16に示す.
75
表 3.12 1日の平均投稿数とその精度の関係
睡眠中 出勤中 勤務中 食事中 帰宅中 その他 平均 K
(1日の平均 投稿数:5.8)
投稿パターン 0.783 0.528 0.463 0.240 0.291 0.378 0.447
時間 0.786 0.851 0.515 0.254 0.522 0.528 0.576
組み合わせ 0.778 0.736 0.585 0.240 0.442 0.529 0.552 L
(1日の平均 投稿数:14.8)
投稿パターン 0.593 0.316 0.324 0.148 0.365 0.302 0.341
時間 0.817 0.561 0.511 0.298 0.508 0.368 0.511
組み合わせ 0.733 0.473 0.506 0.295 0.516 0.387 0.485 M
(1日の平均 投稿数:25.3)
投稿パターン 0.500 0.160 0.389 0.390 0.385 0.280 0.351
時間 0.776 0.538 0.485 0.541 0.595 0.588 0.587
組み合わせ 0.634 0.190 0.495 0.462 0.515 0.586 0.480 A
(1日の平均 投稿数:32.3)
投稿パターン 0.831 0.814 0.659 0.627 0.537 0.667 0.689
時間 0.868 0.844 0.786 0.698 0.581 0.667 0.741
組み合わせ 0.840 0.828 0.691 0.651 0.576 0.660 0.708 B
(1日の平均 投稿数:32.6)
投稿パターン 0.770 0.500 0.619 0.514 0.509 0.297 0.535
時間 0.807 0.571 0.626 0.486 0.569 0.381 0.573
組み合わせ 0.748 0.575 0.656 0.514 0.561 0.347 0.567 C
(1日の平均 投稿数:34.4)
投稿パターン 0.831 0.771 0.811 0.755 0.590 0.395 0.692
時間 0.916 0.926 0.878 0.800 0.655 0.636 0.802
組み合わせ 0.845 0.813 0.814 0.840 0.673 0.506 0.749 D
(1日の平均 投稿数:40.6)
投稿パターン 0.796 0.738 0.626 0.725 0.630 0.532 0.675
時間 0.839 0.914 0.684 0.711 0.673 0.629 0.742
組み合わせ 0.825 0.960 0.677 0.759 0.652 0.674 0.758 E
(1日の平均 投稿数:58.8)
投稿パターン 0.796 0.568 0.516 0.545 0.479 0.540 0.574
時間 0.727 0.854 0.540 0.506 0.549 0.485 0.610
組み合わせ 0.905 0.648 0.493 0.633 0.547 0.667 0.649 F
(1日の平均 投稿数:65.7)
投稿パターン 0.736 0.793 0.769 0.500 0.651 0.480 0.655
時間 0.684 0.600 0.685 0.439 0.639 0.506 0.592
組み合わせ 0.684 0.732 0.748 0.532 0.724 0.545 0.661 G
(1日の平均投 稿数:66.5)
投稿パターン 0.854 0.829 0.838 0.659 0.804 0.696 0.780
時間 0.883 0.883 0.902 0.769 0.688 0.674 0.800
組み合わせ 0.922 0.870 0.907 0.767 0.822 0.764 0.842 H
(1日の平均 投稿数:83.5)
投稿パターン 0.699 0.500 0.795 0.624 0.642 0.606 0.644
時間 0.715 0.571 0.800 0.686 0.610 0.743 0.688
組み合わせ 0.709 0.522 0.824 0.667 0.714 0.742 0.696 I
(1日の平均投 稿数:93.7)
投稿パターン 0.821 0.593 0.727 0.583 0.687 0.725 0.689
時間 0.877 0.583 0.851 0.704 0.696 0.716 0.738
組み合わせ 0.893 0.522 0.848 0.727 0.779 0.848 0.770 J
(1日の平均 投稿数:115.7)
投稿パターン 0.929 0.909 0.830 0.630 0.681 0.703 0.780
時間 0.943 0.901 0.700 0.659 0.660 0.786 0.775
組み合わせ 0.980 0.909 0.860 0.645 0.688 0.716 0.800
76
図 3.16 各ユーザの行動推定精度の推移
図 3.16 には,各ユーザの行動推定精度を表す折線グラフに加えて,6 次の多項式近似グ ラフを表示している.図 3.16 の多項式近似のグラフを確認すると,1 日の平均投稿数が多 いユーザほど行動推定の精度が向上する傾向にあることがわかる.また,1日の平均投稿数 が30件以下のユーザは,いずれも投稿パターンによる推定精度が50%未満となっている.
以上の分析結果から,投稿パターンを抽出し正しくユーザの行動を推定するためには,少 なくとも一日の平均投稿数が30件以上であることが望ましいと考えられる.
以上の実験結果により,投稿内容を解析することなく投稿パターンのみを用いた場合で も,睡眠中や勤務中などの行動を高精度に取得できていることがわかった.また,帰宅時 間が前後しやすいユーザの行動を推定する場合,時間に基づく手法では正確な行動を推定 できない問題に対して,投稿パターンを用いる手法により,一定の解決策を提示すること ができた.このように,時間と投稿パターンの両手法を組み合わせることにより,高精度 にユーザの行動を推定できたことから,本提案手法の有用性を実証した.
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
K 5.8
L 14.8
M 25.3
A 32.2
B 32.6
C 34.3
D 40.6
E 58.8
F 65.7
G 66.5
H 83.5
I 93.6
J 115.7 F
値
ユーザ 1 日の平均投稿数
77