DEIM Forum 2016 D1-5
購買履歴を用いたユーザ行動モデルの推定
小林
正樹
†伏見
卓恭
††佐藤
哲司
†††
筑波大学 情報学群 知識情報・図書館学類, 〒 305-8550 茨城県つくば市春日 1-2
††
筑波大学 図書館情報メディア系 〒 305-8550 茨城県つくば市春日 1-2
E-mail:
†
[email protected],
††{
fushimi,satoh
}
@ce.slis.tsukuba.ac.jp
あらまし 本研究では,消費者の消費行動が典型的な周期を含む時系列から構成されていると仮定し,消費者の時系
列を分類するための典型的な周期に基づく多クラス分類器を構築する手法を提案する.典型的な周期を持つ時系列を
生成する人工モデルを定義し,分類器の教師データとして用いる.評価実験では,構築した分類器を用いて,家計簿
サービスにおける利用者の購買行動と家計簿記録行動の時系列を分類し,分類器の性能を確認した.購買行動と家計
簿記録行動の分類結果を消費者毎の特徴量として分類結果の傾向を確認することで,消費者の行動の属性について考
察した.
キーワード 購買行動, 時系列, 行動モデル
1.
は じ め に
消費者の購買行動に着目した研究が広く行われている.これ までの研究では,各企業のPOSシステムやクレジットカード・ ポイントカード等で蓄積された購買履歴が用いるのが一般的で ある.中山[1]は,百貨店のカード会員の購買履歴を利用して, 顧客の行動傾向と顧客の属性が行動に与える影響を分析した. 石原ら[2]は,電子マネーの決済ログに基づき,利用者の購買 行動の類似性に着目した分析をした.しかし,各企業のPOS システムやクレジットカード・ポイントカード等で蓄積された 購買履歴は店舗や企業内での蓄積に限定されるため,消費者の 全体に焦点を当てた購買行動を解析するのが困難である. 一方で,自動入力型の家計簿サービスが普及し始めている. 従来の家計簿サービスでは,利用者自身がレシートや領収書 (以下,レシートと呼ぶ)の情報を専用の画面に入力する作業が 必要であった.しかしスマートフォンやタブレットの普及によ り,携帯端末を利用してレシートを撮影し,画像をサーバーに 送信するという仕組みの構築が容易になった.自動入力型の家 計簿サービスでは,利用者から送信されたレシートの画像に対 してOCRやクラウドソーシングを適用することで,レシート の電子化を実現している.紙媒体のレシートだけでなく,銀行 口座やクレジットカード,電子マネーなどとの連携により,こ れらの利用履歴を自動的に家計簿に反映することが可能なサー ビスも登場している.家計簿サービスには消費者によって登録 された購買履歴が蓄積されるため,消費者の全体に焦点を当て た研究が可能である. 平成27年の税制改正では,電子帳簿保存法の改正が施行さ れた(注 1) .本法律の要件を満たすことで,税務関係書類の電子 保存が可能となる.改正により,税務関係書類のスキャナ保存 の際の要件が緩和され,対象書類の金額基準や電子署名などの 要件が廃止された.平成28年の税制改正においては,スキャ(注 1):http:/www.mof.go.jp/tax policy/tax reform/outline/fy2015/
ナの原稿台に関する要件が廃止され,デジタルカメラやスマー トフォンなどで撮影された画像も要件に含まれる方向性が示さ れている(注 2) .電子保存した書類は原本の保存が不要となるた め,今後は自動入力型の家計簿サービスの様な仕組みが事業者 向けにも展開されることが見込まれる. 家計簿サービスに関する研究として,徳永らは家計簿サービ スの設計と実装を行った[3].徳永らは家計簿サービスで蓄積さ れた情報を活用するシステムも提案している[4].また,家計簿 サービスで蓄積された購買履歴を用いた研究として,竹内らの 研究がある[5].竹内らは,購買履歴の時間的・地理的な周期性 に着目し,予測アルゴリズムによる推定結果を提示することで 利用者の与える影響を分析した. 本研究では,消費行動が幾つかの典型的な周期で構成されて いると仮定し,消費行動の時系列を分類する手法を提案する. 典型的な周期を持つ時系列を模した人工モデルを定義し,人工 モデルを教師データとして多クラス分類器を構築する.構築し た多クラス分類器を用い,実際に提供されている家計簿サービ スの購買履歴における消費行動と家計簿サービスへレシートを 登録する記録行動(以下,家計簿記録行動と呼ぶ)の時系列を 分類する.構築した分類器を用いて利用者を分類することで, 各利用者に対して適切な情報提供や情報推薦を行うことを想定 している. 本稿の構成は以下のとおりである.まず,提案手法について 2章で説明する.3章では,提案手法により構築した分類器を 用いて実データを分類する評価実験を行う.4章では評価実験 の結果について考察し,5章で関連研究を整理する.最後に6 章で結論と今後の課題を述べ,本稿をまとめる.
2.
提 案 手 法
本研究では,周期性に基づいて時系列を分類するための分類 器を構築する手法を提案する.分類器の入力は,時系列である.時系列には,フーリエ変換や正規化などの処理を適用する.分 類器の学習時に用いる教師データは,典型的な周期を持つ6タ イプの時系列とそのタイプ番号の組を用いる.教師データに用 いる時系列は,以下で定義する人工モデルから生成する.分類 器の出力は,人工モデルの各パターンに割り当てたタイプ番号 である. 2. 1 時系列データの前処理 時間tと共に変化する特徴量をtの関数で表す.これをf (t) と定義する.f (t)はt次元の特徴を持つため,フーリエ変換を 用いて次元数を削減する.以下に,次元数を削減するために時 系列データに適用する処理手順を示す. (1) f (t)に対してハミング窓関数を合成 (2) (1)をフーリエ変換し,パワースペクトルを得る (3) (2)を0から1の値で正規化 フーリエ変換は,時間が変数の関数を,周波数が変数の関数 に変換する手法である.時間をt,周波数をfとすると式1が 与えられる. H(f ) =
∫
∞ −∞ h(t) exp(−i2πft)dt (1) 2. 2 分類器の構築 時系列データを分類するための多クラス分類器を構築する. 分類器の構築にはSVMを用いる.SVMは分類問題や回帰問題 に対するパターン識別のための教師あり学習機械である.SVMは2値分類器であるが,一対他分類法(One against rest)や一
対一分類法(One against one)等の方法により多クラス分類へ
適用することが可能である.本研究では,一対他分類と一対一 分類による分類器を構築し,学習時間と分類精度を確認し分類 法を選択する.分類器の学習には人工モデルで生成した時系列 とラベルの組を用い,学習データ数を変化させて交差検定を行 うことで学習データ数と分類法を決定する. 2. 3 人工モデルについて 分類器の学習で用いる訓練データとして,典型的な周期を持 つ時系列を人工モデルを式2に定義する.
y(t) = sin((2− a)π)t + b) (2)
人工モデルのパラメータ aを変化させることで,波形の周 期を操作し,7日(タイプ1),14日(タイプ2),21日(タイプ 3), 28日(タイプ4), 35日(タイプ5), 42日(タイプ6)の周期 を持つ時系列を作成する.bは以下で説明する処理過程におい てゆらぎを適用するパラメータである.6種類の人工モデルに 対して,以下の処理を適用することで,分類器の学習に用いる 学習データを生成する. (1) aを変化させた波形を作成 (2) bに−0.5∼0.5の擬似乱数を適用 (3) ガウス分布に従う擬似乱数を波形に合成 (4) 2. 1で説明した時系列の前処理を適用 図 1 人工モデルの例 これらの処理により生成した人工モデルに基づく時系列を, 分類器の教師データとして用いる.実際に生成される時系列の 一例を図1に示す.
3.
評 価 実 験
提案手法の有効性を示すために,家計簿サービスの購買履歴 の一部を用いて評価実験をする. 3. 1 分析対象データ 本研究の評価実験では,家計簿サービスに蓄積された購買履 歴を使用し,2015年1月1日から2015年12月31日の期間 における消費行動と家計簿記録行動を用いる.消費行動は,1 日におけるレシートの数を特徴量とするものであり,家計簿記 録行動は1日におけるレシートの記録回数を特徴量とするもの である. 当期間における全ての利用者を考えた場合,数回の利用に留 まった利用者の時系列には周期が確認できると考えにくい.一 方で極端に利用の多い利用者は,事業者などが利用しているな ど一般的な消費者の利用履歴ではない場合が考えられる.今回 は,家計簿サービスにおける一般的な利用者を評価対象とする ため,購買行動回数nがLOG10(n) > 2, LOG10(n) < 3の利 用者を選択し,分類の対象として採用することとする. 3. 2 分類器の構築 家計簿サービスの利用者を,時系列の周期性に基づいて分類 するための分類器を構築する.分類器の学習に用いる教師デー タには,時系列とラベルの組から成る人工モデルを用いる.人 工モデルにより生成した時系列とラベルを用いて交差検定を行8 16 32 64 128 256 512 1024 2048 4096 8192 Train-data size(per a type)
0.0 0.2 0.4 0.6 0.8 1.0 Accuracy rate
One against rest
One against one
図 2 学習データ数と正答率
8 16 32 64 128 256 512 1024 2048 4096 8192
Train-data size(per a type)
10-3 10-2 10-1 100 101 102 103 Learning Time[s]
One against rest
One against one
図 3 学習データ数と学習時間 うことで,分類精度と学習時間から,分類法(一対一分類法, 一対多分類法)と教師データ数を決定する.横軸を教師データ 数,縦軸をテストデータでの正解率としてプロットした図2を 示す.横軸を教師データ数,縦軸を学習時間としてプロットし た図3を示す.横軸の教師データ数は,各モデル毎の時系列生 成回数を示している. 本研究の評価実験では,一対一分類法,教師データ数512で 学習した分類器を用いて実データの分類を行う. 3. 3 消費行動周期の分類 学習した分類器を用いて,消費行動の時系列512件を分類し た.各タイプと分類されたユーザ数を図4に示す.横軸がタイ プ名,縦軸がユーザ数の値を示している. 分類結果によれば,7日周期のモデルであるタイプ1が最も 多くの時系列が分類されている.次に多くの時系列が分類され たのは,42日周期のタイプ6である.タイプ6に分類された 時系列データを観察すると,42日周期と見受けられる時系列だ けでなく,時系列の記録が対象期間の途中で途絶えているもの や対象期間の途中から記録が開始された時系列なども含まれて いた.タイプ6の次に多くの時系列が分類されたのは21日周 期のタイプ3であった. 0 1 2 3 4 5 6 7 Type 0 50 100 150 200 number of users 図 4 消費行動周期の分類結果 0 1 2 3 4 5 6 7 Type 0 50 100 150 200 250 number of users 図 5 家計簿記録行動周期の分類結果 3. 4 家計簿記録行動周期の分類 学習した分類器を用いて,家計簿記録行動の時系列512件を 分類した.各タイプと分類されたユーザ数を図5に示す.横軸 がタイプ名,縦軸がユーザ数の値を示している. 分類結果によれば,21日周期のモデルであるタイプ3が最 も多くの時系列が分類されている.次に多くの時系列が分類さ れたのは,7日周期のタイプ1である.
4.
考
察
提案手法により構築した分類器を用いて購買行動と家計簿記 録行動の時系列を分類した結果について考察する. 4. 1 消費行動周期の分類結果 人工モデルを教師データとして構築した多クラス分類器を用 いて,家計簿サービスの利用者における消費行動の時系列を分 類した.消費行動の時系列を分類したところ,7日周期や21日 周期,42日周期などに多くの時系列が分類される結果となっ た.これらのモデルに分類された時系列の数は,14日周期や 35日周期のモデルと比較すると多いことが分かる.42日周期 に分類された時系列を観察すると,特徴量が途中で途絶えたり, 途中から変化し始める時系列が多く分類されている.長期的な0 1 2 3 4 5 6 7 AccountBookAction Type 0 1 2 3 4 5 6 7 ConsumptionAction Type 17 1 4 3 10 4 3 3 5 5 16 12 17 8 1 21 1 3 4 1 1 1 3 2 3 1 11 group B group A group C 図 6 消費行動周期と家計簿記録行動周期の関係 周期の分析をするためには評価対象とする利用者の選定方法を 改善する必要があると考えられる. 4. 2 家計簿記録行動周期の分類結果 人工モデルを教師データとして構築した多クラス分類器を用 いて,家計簿サービスの利用者における家計簿記録行動の時系 列を分類した.家計簿記録行動の時系列を分類したところ,21 日周期に最も多くの時系列が分類される結果となった. 家計簿記録行動の分類において最も多くの時系列が分類され たモデルは,消費行動の分類において最も多くの時系列が分類 されたモデルとは異なること.大衆において家計簿記録行動の 周期は消費行動の周期よりも長い事が確認できる. 4. 3 消費行動周期と家計簿記録行動周期に関係について 本研究における評価実験により,消費行動と家計簿記録行動 の時系列を分類することで,それらの特徴と差異について分析 した.両者の関係を確認するために,利用者毎の消費行動の分 類結果と家計簿記録行動の分類結果を特徴量としてプロットし たバブルチャートを図6を示す.円の大きさは該当する利用者 の数を示している. 図からは,大きく分けて3つのグループが確認できる.グ ループAは消費行動,家計簿記録行動共に比較的短い周期を持 つグループである.特に,消費行動と家計簿記録行動のタイプ がそれぞれ1の消費者は消費行動と家計簿記録行動の周期の差 異が少ないグループである. グループBは購買行動回数の特徴量が少ない時系列が多く該 当している.このグループに該当する時系列の多くは,普段の 消費行動と家計簿記録行動は記録されず,家計簿サービスにお いて銀行口座やクレジットカードなどの記録が自動的に記録さ れているものと考えられる. グループCには,特徴量の記録が途中で途絶えた,または途 中から変化し始めた時系列が該当している.特に,消費行動と 家計簿記録行動のタイプがそれぞれ6の消費者は数回の行動の みが記録された時系列の多くが該当する.
5.
関 連 研 究
購買履歴を用いた消費行動の分析として,POSシステムや 各企業が展開するポイントカード,電子マネーなどの利用履歴 を用いた研究が広く行われている.中山[1]は,百貨店のカー ド会員の購買履歴を利用して,顧客の行動傾向と顧客の属性が 行動に与える影響を分析している.石原ら[2]は,電子マネー の決済ログに基づき,利用者の購買行動の類似性に着目した分 析をしている.この研究では,ユーザと店舗のクラスタリング によりマーケティングに有効なクラスターの抽出が可能である ことを示している. 家計簿サービスに関連する研究として,清輝らは,レシート をユーザ自身がライフログとして記録できるレシートログサー ビスの提案をしている[3].また清輝らは,提案したレシートロ グサービスによって蓄積された購買履歴を用いてユーザに付加 ある情報を提供するためのレシートログ分析サービスの提案も 行っている[4].竹内らは,購買履歴の周期性に基づく未来の購 買行動を予測するアプリケーションを開発し,消費者に予測を 提示することで,消費者の消費行動に与える影響を評価してい る[5]. 2値分類器を多クラス分類器へ適用するための手法として, 久須田らの研究がある[6].久須田らは,1対他分類法(Oneagainst rest)や1対1分類法(One against one)に代わる手法 として,学習データの分布に基づいて階層的に分類する手法を 提案した. 時系列データの分類に関する手法として,小山らの研究があ る[7].小山らは,周波数成分の大きさに基づく非類似度を提案 した.
6.
終 わ り に
本研究では,消費者の消費行動が典型的な周期を含む時系列 から構成されていると仮定し,消費者の時系列を分類するため の典型的な周期に基づく多クラス分類器を構築する手法を提案 した.典型的な周期を持つ時系列を生成する人工モデルを定義 し,分類器の教師データとして用いた.評価実験では,構築し た分類器を用いて,家計簿サービスにおける利用者の購買行動 と家計簿記録行動の時系列を分類し,分類器の性能を確認した. 消費者毎に購買行動と家計簿記録行動の時系列を分類し,それ らを特徴量することで,購買行動と家計簿記録行動の関係につ いて,幾つかのグループの存在を確認した. 構築した分類器を用いることで,消費者の消費行動の時系列 を典型的な周期に分類することが出来る.これにより,消費者 それぞれの周期に基づいた家計簿の集計結果の提示や行動ター ゲティング広告などへの応用が考えられる.消費行動と家計簿 記録行動の関係から,消費者それぞれの周期に基づいて家計簿 の記録を促す通知などを提示することにより,家計簿の継続率 の改善にも繋がると期待できる. 今後の課題として,本研究で提案した分類器を用いた情報推 薦を行い,消費者の消費行動や家計簿記録行動に与える影響を 確認する.本研究では一日を単位とする時系列を扱ったが,時 間帯や曜日等の単位を用いた時系列を分析することで,より詳 細に行動を分析することが出来る.全ての購買履歴ではなく, 例えば食品や衣類に絞り込んだ時系列を分析することで,あるカテゴリに特徴的な周期などの特徴を発見することも期待でき る.また,提案手法の実用化に向けた課題として,分類器で得 られるラベルとWebサイトやアプリケーションへのアクセス 数等の情報との関係性を明らかにすることで,分類器や情報推 薦の仕組みを単純化することも考えられる.考察ではユーザご との消費行動と家計簿記録行動から3つのグループを確認した が,時系列においてグループ間を行き来するユーザに注目する ことで,消費者に家計簿記録行動が定着する過程を明らかにす ることが期待できる. 謝辞 本研究は,JSPS科研費25280110の助成を受けたも のである.ここに記して謝意を示す. 文 献 [1] 中山 厚穂. 百貨店の購買履歴データを用いた顧客像の把握 (研 究部会 (1)).日本オペレーションズ・リサーチ学会秋季研究発表 会アブストラクト集, 2003:190–191, sep 2003. [2] 石原 洋, 遠藤 聡, 當間 愛晃, 岡崎 威生, 宮城 渉, 大城 翔, 植木 宏, 高野 敦伸, 稲荷 幹雄, 比嘉 徹. 電子マネー決済ログによる 消費行動パターン分類 : マーケティングプラットフォームの提 案と解析事例報告 (学生セッション, 一般). 電子情報通信学会 技術研究報告. KBSE, 知能ソフトウェア工学, 105(652):13–18, mar 2006. [3] 徳永 清輝, まつ本 真佑, 中村 匡秀. レシート蓄積による消費者 向けライフログサービスの考察 (情報セキュリティ, ライフログ 活用技術, ライフインテリジェンス, オフィス情報システム, 一 般).電子情報通信学会技術研究報告. ISEC, 情報セキュリティ, 110(281):95–100, nov 2010. [4] 徳永 清輝, まつ本 真佑, 中村 匡秀. Rfm に基づく一般消費者向 けレシートログ分析サービスの実装 (ライフログ, ライフログ活 用技術, オフィスインフォメーションシステム, ライフインテリ ジェンス, 一般).電子情報通信学会技術研究報告. LOIS, ライフ インテリジェンスとオフィス情報システム, 111(470):189–194, mar 2012. [5] 竹内 俊貴, 鳴海 拓志, 西村 邦裕, 谷川 智洋, 廣瀬 通孝. レシー トログと消費行動に関する未来予測 (ライフログ, 人工現実感). 映像情報メディア学会技術報告, 34(25):99–104, jun 2010. [6] 久須田 樹哉, 渡邉 真也, 施 建明, Paul Horton. 多クラス分類 のためのデータ分布に基づく階層化手法の提案.研究報告数理モ デル化と問題解決(MPS), 2011(13):1–6, sep 2011. [7] 小山 克正, 宝珍 輝尚, 中西 秀哉, 小嶋 護. 時系列データの周波 数に基づく類似度について. 情報処理学会研究報告情報学基礎 (FI), 2006(118):53–60, nov 2006.