• 検索結果がありません。

第 3 章 曜日・時間帯ごとの投稿数の変化に着目した行動推定技術の提案

3.6 評価実験

3.6.2 実験データの準備

本実験では,習慣行動に基づく行動推定手法の有効性を明らかにするため,習慣的に生 活している可能性の高いユーザ群として,社会人を実験対象ユーザとした.この際,学生 が社会人になるなど生活習慣が大きく変化したユーザの場合,投稿履歴に異なる生活習慣 が含まれ,行動パターンを適切に学習できない.そのため,本研究では,アカウントの作 成以降に大きな環境の変化のないユーザのみを抽出し,実験対象ユーザとした.

本研究では,各ユーザの投稿履歴をすべて利用するため,APIを用いたクローリングに取 得できる投稿数の制限があるTwitterを収集対象とせず,Twitterに投稿された内容をユーザ ごとに保存するサービスであるTwilog[85]を採用した.ランダムに抽出したユーザ 187,178 人の投稿履歴を収集し,解析したところ,ユーザの1日の平均投稿件数は15.8件であった.

しかし,日々の投稿パターンを用いる本研究では,1日の平均投稿数が少ないユーザを対象 とすることが困難であると考え, 1日の平均投稿件数が10件以下のユーザを対象外とした.

Twilogから収集したユーザのうち,以上の条件に合致するユーザ73,508人の1日の平均投

稿件数は36.7件であった.このことから,1日の平均投稿件数が30件以上のユーザを対象 に実験を行った.また,1日の平均投稿数と推定精度の関係を分析するため,1日の平均投 稿数が30件以上150件以下のユーザの中から,実験対象ユーザを選定した.

63

これらの条件に一致した10ユーザを本実験の対象として採用する.実験対象ユーザをA からJと仮称し,これら10ユーザの投稿パターンを分析する.ユーザに関するデータとし て,各ユーザの性別,総ツイート数,1日の平均投稿数,アカウントの作成からの経過日数 と行動に関する情報が含まれる割合を整理した結果を表 3.5,行動ごとの行動情報が含まれ る割合を表 3.6に示す.

表 3.5 分析対象のデータ ユーザ 性別 投稿数 1日の

平均投稿数

開始日からの 経過日数

行動情報が 含まれる割合

A 男性 29,328 32.2 909 14.77%

B 女性 26,290 32.6 806 7.00%

C 男性 32,089 34.3 933 11.70%

D 男性 35,852 40.6 883 12.66%

E 女性 62,373 58.8 1,059 10.01%

F 女性 62,705 65.7 954 14.79%

G 男性 58,690 66.5 882 8.29%

H 女性 65,892 83.5 789 8.31%

I 女性 87,887 93.6 938 5.17%

J 男性 120,712 115.7 1,043 7.46%

64

表 3.6 行動ごとの行動情報が含まれる割合

稿

睡眠中 出勤中 勤務中 食事中 帰宅中 その他 割合 割合 割合 割合 割合 割合

A 29,328 1.30% 381 1.04% 306 3.20% 939 2.79% 818 2.92% 857 3.52% 1,031 B 26,290 1.14% 301 0.47% 123 1.52% 400 0.83% 219 2.18% 573 0.86% 225 C 32,089 2.08% 667 2.02% 649 2.54% 814 1.59% 510 2.22% 711 1.26% 403 D 35,852 1.69% 607 1.16% 417 2.40% 861 1.60% 574 2.08% 745 3.72% 1,334 E 62,373 0.87% 540 0.87% 540 3.37% 2,100 1.58% 984 1.22% 760 2.12% 1,320 F 62,705 1.78% 1,115 1.64% 1,031 3.82% 2,393 2.38% 1,493 2.58% 1,617 2.59% 1,625 G 58,690 1.35% 791 0.44% 257 1.42% 831 1.51% 885 2.10% 1,230 1.48% 871 H 65,892 1.51% 992 0.51% 335 0.67% 442 1.99% 1,314 1.50% 990 2.13% 1,402 I 87,887 0.86% 756 0.22% 195 1.04% 910 1.57% 1,382 0.69% 604 0.79% 697 J 120,712 1.02% 1,230 1.01% 1,217 1.17% 1,410 1.78% 2,150 1.00% 1,203 1.49% 1,800 全体 581,818 1.27% 7,380 0.87% 5,070 1.91% 11,100 1.78% 10,329 1.60% 9,290 1.84% 10,708

表 3.5 に示す各ユーザの投稿履歴から,習慣行動の抽出のための学習データと正解デー タとを取得する.学習データは,対象ユーザが過去に投稿したすべての履歴から,評価実 験のための正解データを除いたすべての投稿とする.Twitter のアカウント作成時期が異な るため,習慣行動の抽出に用いるデータ数はユーザによって大きく異なるが,これらの違 いが推定精度にどのように影響するかについても,実験結果より分析する.

正解データは,実験対象ユーザがマイクロブログに投稿した内容を目視で確認し,睡眠 中,出勤中,勤務中,食事中,帰宅中とその他の各行動に正しく分類できたものを用いる.

各行動の正解データの抽出ルールを次に示す.

・出勤中,食事中,帰宅中とその他

出勤中,食事中,帰宅中とその他の行動の正解データは,各行動に関する単語が記述さ れている投稿の日時を用いる.「今日は 8 時に出勤した」といった内容が10 時に投稿され た場合,投稿時間と内容との乖離が見られ,正確に評価することができないと考えられる.

そのため,過去や未来に関する内容の投稿は正解データから除外し,現在の行動について 記述していると判断できる投稿のみを対象とした.

65

・睡眠中と勤務中

睡眠中と勤務中の行動は,マイクロブログにアクセスせずに行動を表現する投稿がなさ れない場合がある.そこで,これらの行動の正解データは,行動していると予測される時 間帯を推定して取得する.睡眠中の正解データは,就寝に関する投稿と起床に関する投稿 が対となって存在し,かつ,その間の時間帯に投稿が存在しない場合,その時間帯を対象 として取得する.勤務中も同様に,出勤や出社などの仕事の始まりを表す投稿と帰宅など の仕事の終わりを表す投稿が対となって存在し,かつ,その間に投稿が存在しない場合の 時間帯を抽出する.ただし,昼休憩などの食事中と判断された時間帯は除外する.

本実験では,上記の抽出ルールに該当した正解データとして,1ユーザにつき約300件(約 50件 / 行動)を10ユーザ分(合計2,935件)用意した.行動ごとの正解データ数を表 3.7 に示す.

表 3.7 行動ごとの正解データ数 行動 件数 睡眠中 500件 出勤中 463件 勤務中 504件 食事中 494件 帰宅中 489件 その他 485件 合計 2,935件