節スーパーマーケットの POS データに対する実験

本節では, 関東および中部のスーパーマーケット9店舗の, 顧客属性データと購買履歴データを利用する. データ期間は2013年7月1日から2015年6月30日までの約2年間である. スーパーマーケットは、食料品を中心として人々の暮らしに密接に関わる商品を販売している. そのため取り扱う商品分類も多く, 提供データには, 表 17に示す25の商品分類が存在している. 図27は,中部A店舗の

表 19: 取り扱う商品分類分類1 分類2

農産野菜農産野菜加工品農産果物農産果物加工品水産鮮魚水産刺身類水産塩干加工品畜産牛肉畜産豚肉畜産鶏肉畜産精肉類畜産精肉加工品食品調味料食品穀物類食品乾物類食品加工食品食品即席食品惣菜半惣菜惣菜惣菜惣菜弁当嗜好食品菓子嗜好食品飲料嗜好食品酒類

顧客が, データ期間中に購買経験のある商品分類数の分布を示している. 商品分

類は分類2で集約している. 図から,多岐にわたる商品分類を1店舗で購買する顧

16,000

0 1 5 10 15 20 25

10,000

5,000

購買商品分類数

顧客数

図 27: 購買商品分類数

客は多く存在することが分かる. また, 購買商品分類の多様性をエントロピーで表現したとき,エントロピーと総購買金額の間には0.3から0.4の正の相関がみられる. 店舗ごとのエントロピーは表 20のとおりである. したがって, より多く購

表 20: エントロピーと総購買額の相関係数店舗相関係数

関東A 0.359 関東B 0.374 関東C 0.363 関東D 0.390 関東E 0.382 中部A 0.358 中部B 0.328 中部C 0.397 中部D 0.357

買してもらうだけではなく, より多様な商品分類を購買してもらうことが, スーパーマーケットの売上増加施策の方向性1つとして考えることができる. そこで

本節では, 2つの分析目的を設定した. 1つは, 店舗レベルで充実させるべき商品分類を導く指標の提案である. もう1つは, 上記指標から導かれた注力すべき商品分類の具体的な販促アプローチを, 実際の顧客の購買行動にもとづき提案することである.

提案指標の考え方は, 各顧客の潜在的な購買商品分類と購買量を店舗レベルで集約し, 店舗として注力すべき商品分類を決定するための参考指標の1つとする.

図28は, 中部Aの顧客を最初1年間の購買多様性と購買数量を軸とする空間にプロットしたものである. 店舗の立場からの理想としては, 次の1年間で全ての顧客

理想の移動方向

購買多様性 ( 正規化エントロピー ) 購買量

( 正規化購買数量 )

図 28: 指標の考え方のイメージ

が図の右上方向に移動することである. 移動距離は, 大きければ大きいほど良いが,現実は日常生活に必要な商品と必要な量は人それぞれであり,移動可能な範囲はある程度限られるだろう. そこで筆者は,顧客の移動可能距離rを定め, その範囲内にいる顧客を参考に, 商品分類ごとの成長目標を立てる. 図29は指標の算出フローである. ここで, 目標を設定する顧客をxとし,xの移動可能距離rは既に決まっているものとする. ある店舗の全ての顧客を, 顧客xを原点とするある期間の購買多様性と購買量の空間にプロットしたとき,第1象限に位置し,かつ距離

購買多様性購買量

対象顧客 x x の目標位置 t 距離r

牛肉加工食品野菜・・・菓子

牛肉加工食品野菜・・・菓子顧客 x の購買量

目標顧客集合の平均購買量

顧客 x の目標購買量

1.7 -0.5 1.4 0.4

0.1 1.2

-0.7 -1.5

3.2 0.2 0.2 0.3

図 29: 指標の算出フロー

r以下の空間にプロットされる顧客を,顧客xの目標顧客集合Tと定義する. 顧客 xの目標購買量は, 顧客xの購買量と目標顧客集合の平均購買量の差分と定める. この指標を実際に計算していく. 指標算出のデータ期間は, 提供データの2年目の2014年7月1日から2015年6月30日までとし, 対象顧客は, 期間中に毎月購買履歴のある顧客のみとする. 距離rは,今回は各顧客の1年間の移動距離の平均を当てはめている. 各店舗の距離rと顧客数を表21に示す. 指標の計算結果の 1つとして, 中部A店舗の結果を表22に示す. 目標は, 提供データの最初１年間の購買量と多様性空間にプロットした時,顧客がどの象限に位置するかによって4 つに分けて算出し,目標購買量が多かった5つの商品分類に絞って掲載している. この表から分かるように,同じ店舗でも象限によって結果は大きく異なっている. したがって, どの象限の顧客に注力するべきかも見定める必要がある. 以下では, 中部A店舗の第１象限の売上増加を狙いとして,最も目標購買量が多い刺身類の購買に積極的な顧客とそうでない顧客クラスの購買行動の違いを探っていく.

設定した分類問題は, 中部A店舗の第１象限に属する顧客のうち, 刺身類の購買量が平均以上である顧客クラス(以下, 積極購買クラスと呼ぶ)と, 購買量が平均以下である顧客クラス(以下, 消極購買クラスと呼ぶ)の2つのクラスを設定した. 各クラスのTID数は表23に記載している.

表 21: 指標の計算対象顧客数と距離r 店舗顧客数距離r

中部A 4,895 0.569 中部B 7,478 0.638 中部C 1,646 0.479 中部D 1,280 0.496 関東A 2,639 0.574 関東B 2,495 0.517 関東C 2,351 0.541 関東D 3,173 0.652 関東E 4,037 0.556

表 22: 目標購買量の計算結果

ランキング第1象限第2象限第3象限第4象限

1 刺身調味料野菜半惣菜

2 半惣菜精肉加工品加工食品精肉加工品 3 即席食品塩干加工品精肉加工品調味料 4 精肉加工品豚肉調味料豚肉

5 調味料牛肉果物即席食品

表 23: 各クラスのTID数

クラス名訓練データ検証データトータル積極購買 739 82 821 消極購買 401 44 445

トータル 1,140 126 1,266

この分類問題に対し, CAECPによって分類モデルの構築を行う. 説明変数は, 今回は購買商品名のみである. また, 前節と同様に比較実験としてCACPによる実験も行っている. CAECPの設定パラメータは表24のとおりである. 前節まで

表 24: 設定パラメータ最小パターン長 1 最大パターン長 2

θ 0.7

topK 10,000

最小サポート件数 2

η 0.99

β 2.5

α 10

γ 50

の実験と同様に, 予備実験を通して最も結果の良かったパラメータの組み合わせによる実験結果を掲載する. 本実験においても, ηは0.99, βは2.5と,だいたい似たようなパラメータ設定が適切であった. θやα, γも同様に, ある程度最適な値の範囲が決まっているように思える. この辺りは, さらに実験を重ねることで,ある程度範囲を絞った上で最適解を自動的に設定できるようにしていきたい.

実験結果のCACPとの比較を表 17に示す. 今回も, どちらの分類問題に対し表 25: 評価値の比較

正答率パターン数

CAECP 0.679 27

CACP 0.657 74

ても, 正答率と利用パターン数の両方の指標でCACPを上回ることに成功している. 特に利用パターン数では2倍以上の改善が見られ, より実用的なモデルとなっている.

その他の計算結果を表26に示す. 計算時間を確認すると, どちらの問題でも現実的な時間でモデル構築が可能であることが分かる. カバー率と平均カバー回数

表 26: 計算結果

計算時間 334.9

正答率(訓練) 0.739 正答率(検証) 0.679

カバー率(訓練) 0.991

カバー率(検証) 0.999 平均カバー回数(訓練) 6.021 平均カバー回数(検証) 6.178

も同様に, どちらの分類問題においても訓練データと検証データの間に偏りはみられないが, 平均カバー回数は比較的多くなっている. 1つ1つのCPの説明力が弱ければ, 多くのCPを必要とすることになるが,正答率が訓練データと検証データの間でやや偏りがみられることから,過学習の可能性があり,より適切な選択があるかもしれない.

各TIDがカバーされた回数の分布は,図30のようになる. ベンチマーク実験の

カバーされた回数

TID数の全体に占める割合

0 20

訓練検証

(%)

2 3 4 5 6 7 8 9 10 11 12 13 14

図 30: カバー回数分布

BCデータで起きた現象と同様に,検証データ側でカバーされた回数が1回のTID と多くカバーされているTIDが増えてしまっている. また, 選択CPのサポート分布は図31のようにプロットされる. 今回は候補CPの説明力が弱く, 予測が難しい問題であった. このようなケースでは,商品名だけではなく,分類階層などを

購買クラスのサポート

未購買クラスのサポート

0 1

図 31: 選択パターンの分布

説明変数に取り入れることで, より説明力の強い候補CPを発生させるなどで,より少ないカバー回数でモデル構築ができるのではないかと考えられる.

最後に, 出現したパターンを考察していく. 設定した分類問題で出力されたモデルをCRPDによって視覚化した図が図32である. 積極購買クラスに特徴的なパターンは, 既に調理されたもの, 特に何も調理を加えることなく食べることができる商品や,水産物系の商品がよく出現している. まだ刺身を購買しておらず, これらのパターンに該当する顧客は,刺身類の潜在購買顧客の可能性が高いため, メインターゲットにすることで効率的なマーケティングが可能になると思われる. 一方の消極購買クラスには,アボカドや生しいたけなどの生野菜類や,はんぺんや冷凍野菜などの同じ加工食品でもひと手間加える必要があるもの, マーガリンやはちみつなどの調味料が出現している. このことから,消極購買クラスは, 自分で調理をしたい顧客層が浮かんでくる. このような顧客にも刺身を購買してもらうためには,単に刺身として提供するだけではなく,刺身を調理するレシピ提案も同時に行っていく必要があるのかもしれない.

ドキュメント内必須コントラストパターンを利用した分類モデルに関する研究 (ページ 48-63)

節 スーパーマーケットの POS データに対する実験