第 3 章 曜日・時間帯ごとの投稿数の変化に着目した行動推定技術の提案
3.4 判定アルゴリズム
58
図 3.10 デンドログラム
デンドログラムを任意の閾値 α で切ることで,分割するクラスタ数を操作する.この閾 値 α は,事前実験にて決定する.クラスタ間の距離の算出には,階層的クラスタリングの 代表的な手法であるWard法[84]を用いる.Ward法は,クラスタ内のデータの平方和を最小 にするように考慮した手法であり,分類感度が高いことが知られている.Ward法によりク ラスタリングした投稿パターンベクトル𝑉𝑐𝑏を VSM の学習ベクトルとして投稿パターンモ デルに格納する.これらの処理の流れにより,ユーザの習慣行動と投稿パターンの関係を 学習し,投稿パターンモデルを構築する.
59
る.投稿パターンに基づく行動確率算出処理のイメージを図 3.11に示す.
図 3.11 投稿パターンに基づく行動確率算出処理のイメージ
このとき,比較対象となる投稿パターンは,推定対象の日付と同じ曜日𝒘𝐱のベクトル
𝑽𝒄𝒃(𝒘𝐱)のみとする.これは,就業している平日と就業していない休日では,投稿パターン
に明確な違いが見られたためである.ベクトルの類似度の算出には,コサイン尺度とユー クリッド距離を用いた.コサイン尺度は,ベクトルの向きの類似度を表す指標であり,ベ クトルの向きが類似するほど類似度が高くなる.ユークリッド距離は,ベクトルの長さの 類似度を表す指標であり,ベクトルの長さが類似するほど類似度が高くなる.
(3) 時間に基づく行動確率算出処理
本処理では,行動確率モデルに登録された行動確率𝑃(𝑤𝑖, 𝑡𝑗, 𝑏𝑒ℎ𝑎𝑣𝑖𝑜𝑟𝑘)に基づき,推定対 象の時間帯の行動確率を算出する.時間に基づく行動確率算出処理のイメージを図 3.12に 示す.
推定対象時間と 直近の投稿履歴
投稿パターン ベクトル抽出処理
推定対象時間 の行動 直近の
投稿履歴
推定対象 時間
投稿パターンに基づく 行動確率算出処理
行動確率算出処理 投稿パターン
モデル
推定時間に基づく 行動確率算出処理
入力 入力
出力
行動確率 モデル 参照 参照
行動推定機能
入力:
推定対象時間 の投稿パターン
睡眠中:80%
その他:20%
睡眠中:100%
睡眠中:70%
その他:30%
睡眠中:90%
その他:10%
投稿パターンモデル
出力:
最も類似する投稿パターンの行動確率 類似度
の算出
60
図 3.12 時間に基づく行動確率算出処理
投稿パターンのみに基づき行動を推定する場合,ユーザの投稿が少ないと適切に行動確 率を算出できないことが考えられる.そこで,本提案手法では,過去の投稿履歴のみに基 づき構築した行動確率モデルを用いて,推定対象の時間におけるユーザの行動確率を算出 する.算出方法としては,行動確率モデルの行動確率𝑃(𝑤𝑖, 𝑡𝑗, 𝑏𝑒ℎ𝑎𝑣𝑖𝑜𝑟𝑘)を参照し,推定対 象 時 間 の 曜 日𝑤xと 時 間𝑡𝑥の 行 動 確 率𝑃(𝑤x, 𝑡𝑥, 𝑏𝑒ℎ𝑎𝑣𝑖𝑜𝑟𝑘)を 時 間 に 基 づ く 行 動 確 率 𝑃𝑡𝑖𝑚𝑒𝑏𝑒ℎ𝑎𝑣𝑖𝑜𝑟𝑘として算出する.
(4) 行動確率統合処理
行動確率統合処理では,投稿パターンに基づく行動確率𝑷𝒑𝒂𝒕𝒕𝒆𝒓𝒏𝒃𝒆𝒉𝒂𝒗𝒊𝒐𝒓𝒌と時間に基づく 行 動 確 率𝑷𝒕𝒊𝒎𝒆𝒃𝒆𝒉𝒂𝒗𝒊𝒐𝒓𝒌と を 組 み 合 わ せ て , 推 定 対 象 時 間 に お け る 各 行 動 の 行 動 確 率 𝑷𝒂𝒄𝒕𝒊𝒐𝒏𝒃𝒆𝒉𝒂𝒗𝒊𝒐𝒓𝒌を算出する.行動確率𝑷𝒂𝒄𝒕𝒊𝒐𝒏𝒃𝒆𝒉𝒂𝒗𝒊𝒐𝒓𝒌の算出式を式3.7に示す.ここで,e は行動確率の組み合わせの重みを表し,本研究のeの値は暫定的に0.5とした.これは投稿 パターンと時間の行動確率の両技術に新規性があるため,同程度に考慮すべきであると考 えたためである.
𝑃𝑎𝑐𝑡𝑖𝑜𝑛𝑏𝑒ℎ𝑎𝑣𝑖𝑜𝑟𝑘= (𝑃𝑝𝑎𝑡𝑡𝑒𝑟𝑛𝑏𝑒ℎ𝑎𝑣𝑖𝑜𝑟𝑘× 𝑒) + (𝑃𝑡𝑖𝑚𝑒𝑏𝑒ℎ𝑎𝑣𝑖𝑜𝑟𝑘× (1 − 𝑒)) (3.7) 推定対象時間と
直近の投稿履歴
投稿パターン ベクトル抽出処理
推定対象時間 の行動 直近の
投稿履歴
推定対象 時間
投稿パターンに基づ く
行動確率算出処理
行動確率算出処理 投稿パター
ン モデル
推定時間に基づく 行動確率算出処理
入力 入力
出力
行動確率 モデル 参照 参照
行動推定機能
行動確率モデルを参照し,
推定対象時間と同曜日・時間帯 の行動確率を算出 入力:2013/2/19 11:00(火曜日)
出力:火曜日11:00の行動確率 睡眠中:0% 出勤中:10%
勤務中:70% 食事中:5%
帰宅中:0% その他:15%
61
そして,算出した行動確率𝑃𝑎𝑐𝑡𝑖𝑜𝑛𝑏𝑒ℎ𝑎𝑣𝑖𝑜𝑟𝑘のうち,最も確率の高い行動を推定対象時間 の行動として出力する.
以上の流れでユーザの行動を推定することで,マイクロブログへの投稿数が少ない場合 や投稿パターンのみでは行動が推定できない場合に対しても,既存の行動パターンをあて はめることにより行動情報を補完できる.