• 検索結果がありません。

節 製造小売業データに対する実験

2 k n a r 3

k n a r breast-quad_right_up

deg-malig_2

node-caps_yes deg-malig_3

inv-nodes_3-5

irradiat_no

rank1 tumor-size_20-24

tumor-size_30-34

rank0 tumor-size_15-19

deg-malig_1

menopause_premeno age_30-39

breast-quad_left_up

node-caps_no

rank-1 irradiat_yes

inv-nodes_6-8

inv-nodes_0-2 breast_right

node-caps_?

tumor-size_25-29 breast_left

menopause_ge40

tumor-size_45-49 breast-quad_left_low

tumor-size_5-9 age_60-69

rank-2 age_50-59

rank-3 age_40-49

no-recurence に強いノード recurence に強いノード

図 20: BCデータの出力モデル

ト商品を生み出すためのヒントとなるだろう. 逆に,継続的に購買していたが,あ る時を境に長期間行わなくなってしまった顧客の購買行動は, 質の悪い商品の発 見や, 適切なプロモーションのタイミングなど, 価値ある改善のための多くの示 唆を与えてくれる. 当該データの特徴としては, 衣料品や食品,さらには家庭用品 といったように, 取り扱う商品分類が多岐にわたり, それらの商品分類の購買の 共起も考慮することでより興味深い知見が得られる可能性があることが挙げられ る. また, 季節性のある商品の存在や, 季節による購買量の変化なども考慮すると なると, 変数の組み合わせは膨大なものとなる. したがって分析に用いる手法は, 変数が独立して説明力を持つだけでなく, 本稿で提案するCAECPのような, 変 数間の組合せによる説明力も併せ持つ手法のほうが望ましいと考えられる.

本節では, ロイヤルティの高い顧客とそうでない顧客の商品購買行動の差別的 な要因を明らかにすることで, 適切なマーケティングを実施するための示唆を得 ることを目的に分類問題を設定する. 当該企業には,毎年3月1日から1年間の購 買金額に応じて顧客ステージが更新され, 毎年2月末でリセットされる仕組みの 顧客システムがり,最上位ステージの顧客になるためには20万円以上の購買が必 要となる. そこで本節では, 下記の2つの分類問題を設定した. 1つは, 2013年3 月1日〜2014年2月末までの期間で最上位ステージであった顧客のうち, 2014年 3月1日以降も購買履歴がある顧客(以下, 継続クラスと呼ぶ)とそうでない顧客 (以下,休眠クラスと呼ぶ)を分類する問題である. 以下ではこの問題を分類問題1 と呼ぶ. もう1つは, 分類問題1で継続クラスであった顧客のうち, 2014年3月1 日以降の購買日数が平均以上である顧客(以下, 高頻度クラス)とそうでない顧客 (以下,低頻度クラス)を設定した. 以下ではこの問題を分類問題2と呼ぶ. 各分類 問題の各クラスのTID数はそれぞれ表 13と表 14にまとめている.

表 13: 分類問題1の各クラスのTID数 クラス名 訓練データ 検証データ トータル

継続 7,978 887 8,865

休眠 1,948 217 2156

トータル 9,926 1,104 11,030

基礎集計の結果より,最上位ステージ会員の多くはシリーズ商品の同時購買を

表 14: 分類問題2の各クラスのTID数 クラス名 訓練データ 検証データ トータル 高頻度購買 3,152 350 3,502 低頻度購買 4,827 536 5,363

トータル 7,979 886 8,865

行っていることが明らかになった. また, 家具のある特定の分類Aや比較的高価 な家具などの購買により, ある期間に累積購買数量や累積購買額が急激に伸びる ユーザーが一定数存在していた. この累積購買数量と累積購買金額それぞれでク ラスタリングを実施した結果, どちらのクラスタリング結果でも, 比較的等間隔 で上昇していくクラスタと, 春, 夏, 秋, 冬のいずれかで急激に伸びるクラスタの 4つのクラスタに分類することができた. 以上のことから,説明変数には性別や年 代といった属性や購買日数カテゴリーに加え,上記のクラスターidと,家具A,家 具, シリーズ商品の月ごとの累積購買数量と累積購買金額を設定した. 説明変数 は表15にまとめている.

表 15: 説明変数リスト

説明変数 ラベル

生年 西暦

性別 男性, 女性,不明 チェックイン回数 1以上の整数

購買日数 大, 中, 小 季節クラスター 春, 夏, 秋, 冬 家具A購買金額 大, 中, 小 家具A購買数量 大, 中, 小

家具A購買時期 購買年月と購買量クラスタ(大,中,小)の組み合わせ 家具購買金額 大, 中, 小

家具購買数量 大, 中, 小

家具購買時期 購買年月と購買量クラスタ(大,中,小)の組み合わせ シリーズ商品購買金額 大, 中, 小

シリーズ商品購買数量 大, 中, 小

シリーズ商品購買時期 購買年月と購買量クラスタ(大,中,小)の組み合わせ

以上のような分類問題と説明変数を作成して, CAECPによる分類モデルの構 築を行う. また, 比較手法としてCACPによる実験も行っている. CAECPの設

表 16: 設定パラメータ

パラメータ 分類問題1 分類問題2 最小パターン長 1 1 最大パターン長 3 3

θ 0.3 0.3

topK 800,000 800,000

最小サポート件数 2 2

η 0.99 0.99

β 1.75 1.75

α 10 10

γ 50 50

定パラメータは表 16のとおりである. ベンチマーク実験時と同様に,予備実験を 通して最も結果の良かったパラメータの組み合わせによる実験結果を掲載する. ベンチマークや本節の実験を通して, ηβなどの一般的な最適値の範囲が明ら かになってきた. ηは直感的には, 1.000がベストであると予想していたが, 訓練 データの中には,ほとんど候補CPにカバーされない,もしくは説明力が極端に弱 いCPしかカバーされないようなTIDが一定数存在している. したがって, η

1.000にしてしまうと, 平均カバー回数が上昇し, 結果として予測精度が悪くなる

ため, ηは0.99か0.98あたりが適切のようだ. βも, 他のパラメータの値が何であ れ, 1.75 ˜3.00あたりが適切な範囲に思われる. CPは, 単体では分類決定のために は弱いことが多く, 2, 3のCPにカバーされている状態が理想的であるようだ. と はいえ, 1つのパラメータの値を変えてしまうと,その他のパラメータの最適値が 変わってしまうため, 現状ではいくつかのパラメータの組み合わせを事前計算し, 最適なパラメータ設定を求める必要がある.

実験結果のCACPとの比較を表17に示す. 今回は,どちらの分類問題に対して も, 正答率とパターン数の両方の指標でCACPを上回ることに成功した. 特に分 類問題1は, 予測が難しい問題ということもあり, CACPで意味のある予測精度 を出すモデルを構築するためには数万のCPを必要とするようだ. 提案手法によ

表 17: 評価値の比較

分類問題1 分類問題2 正答率 パターン数 正答率 パターン数

CAECP 0.830 54 0.789 35

CACP 0.809 21,421 0.784 75

るモデルでも, 54パターンと比較的多くのCPが必要としている. 分類問題2で は, 正答率はほぼ変わらないが, 利用CP数は半分以下に抑えられており, 今回の 分類問題に対しても提案手法の有効性を確認することができた.

その他の計算結果を表18に示す. 計算時間を確認すると, どちらの問題でも現 表 18: 計算結果

分類問題1 分類問題2

計算時間 468.2 662.6

正答率(訓練) 0.836 0.802

正答率(検証) 0.830 0.789

カバー率(訓練) 0.997 0.996

カバー率(検証) 0.998 0.995

平均カバー回数(訓練) 2.707 2.358 平均カバー回数(検証) 2.798 2.512

実的な時間でモデル構築が可能であることが分かる. 正答率は, 訓練データと検 証データの間の差が少なく, 安定的なモデルであることも確認できる. カバー率 と平均カバー回数も同様に, どちらの分類問題においても訓練データと検証デー タの間に偏りはみられず,適切な学習である様に思われる.

図 21および図 22は, は, 分類問題1と2それぞれのモデルにおける, TIDが CPにカバーされた回数の分布を棒グラフによって図示したものである. これら の図からも,分布のばらつきが少なく,かつ訓練データと検証データの分布がほぼ 同じという理想的な状態であり, 適切な学習であることが分かる.

実際にどのようなCPが選択されているのかを確認するために, 分類問題ごと に候補CPと選択CPをサポート空間上にプロットしたものが図23と図 24であ

2 3 4 5 カバーされた回数

1

TID数の全体に占める割合

0 50

訓練 検証

(%)

図 21: 分類問題1のカバー回数分布

カバーされた回数 1

TID数の全体に占める割合

0 50

訓練 検証

2 3 4 5

(%)

図 22: 分類問題2のカバー回数分布

る. 図 23の特に休眠クラスでは, 説明力の非常に高いCPが1つ選択されてお

継続クラスのサポート

0 1

1

図 23: 分類問題1の選択パターンの分布

り, それ以外はスコアの低いCPが採用されている. 一方の図 24では, スコアの 高いCPが比較的多く採用されている. 表 17の比較結果と合わせて考察すると, 分類問題1で採用されたスコアの低いCPが, 実際は予測結果に大きな影響を及 ぼしており, 従来のCACPではこれらのCPを選択するために数万のCPを選択 する必要があったと思われる. このような状況に陥るデータセットに対して, 提 案手法は特に効果を発揮する. 分類問題2のように, 提案手法でもスコアの高い CPがいくつも選択されるようなケース, つまりスコアの高いCPの冗長性が少な く, カバーしているTID集合が都合よく異なっているケースでは, CACPでも比 較的少ないCPでモデル構築が可能となる. しかし, このような比較的予測が容易 な問題でも, スコアの高いCPにカバーされないTIDは一定数存在するため, 提 案手法は予測精度を落とさず, かつより少ないCPでモデル構築が可能であると 筆者は考える.

最後に, 各問題で出現したパターンを考察していく. 図25, 図26 はそれぞれ,

高頻度購買クラスのサポート

0 1

1

図 24: 分類問題2の選択パターンの分布

2 k n a r 3

k n a r

性別̲女性

性別̲男性

rank1 rank0 rank-1

生年̲不明

rank-2 rank-3

性別̲不明

継続クラスに強いノード 休眠クラスに強いノード

衣類 ̲ 金額 ̲ 中

生活雑貨 ̲ 金額 ̲ 高

日数 ̲ 高

衣類 ̲ 金額 ̲ 高

生活雑貨 ̲ 金額 ̲ 中

金額 ̲ 家具 ̲2 月 ̲ 高

冬クラスタ

日数 ̲ 中

食品 ̲ 金額 ̲ 中

衣類 ̲ 金額 ̲ 中

日数 ̲ 低

秋クラスタ

生活雑貨 ̲ 金額 ̲ 低 夏クラスタ 家具 A̲ 量 ̲8 月 ̲ 低

家具 ̲ 量 ̲10 月 ̲ 中

家具 ̲ 金額 ̲11 月 ̲ 高

春クラスタ

家具 ̲ 量 ̲6 月 ̲ 高

家具 ̲ 金額 ̲4 月 ̲ 低

家具 A̲ 金額 ̲10 月 ̲ 高

家具 ̲ 量 ̲10 月 ̲ 低

家具 A̲ 金額 ̲10 月 ̲ 低

シリーズ ̲ 量 ̲11 月 ̲ 高

図 25: 分類問題1のCRPD

関連したドキュメント