節製造小売業データに対する実験

2 k n a r 3

k n a r breast-quad_right_up

deg-malig_2

node-caps_yes deg-malig_3

inv-nodes_3-5

irradiat_no

rank1 tumor-size_20-24

tumor-size_30-34

rank0 tumor-size_15-19

deg-malig_1

menopause_premeno age_30-39

breast-quad_left_up

node-caps_no

rank-1 irradiat_yes

inv-nodes_6-8

inv-nodes_0-2 breast_right

node-caps_?

tumor-size_25-29 breast_left

menopause_ge40

tumor-size_45-49 breast-quad_left_low

tumor-size_5-9 age_60-69

rank-2 age_50-59

rank-3 age_40-49

no-recurence に強いノード recurence に強いノード

図 20: BCデータの出力モデル

ト商品を生み出すためのヒントとなるだろう. 逆に,継続的に購買していたが,ある時を境に長期間行わなくなってしまった顧客の購買行動は, 質の悪い商品の発見や, 適切なプロモーションのタイミングなど, 価値ある改善のための多くの示唆を与えてくれる. 当該データの特徴としては, 衣料品や食品,さらには家庭用品といったように, 取り扱う商品分類が多岐にわたり, それらの商品分類の購買の共起も考慮することでより興味深い知見が得られる可能性があることが挙げられる. また, 季節性のある商品の存在や, 季節による購買量の変化なども考慮するとなると, 変数の組み合わせは膨大なものとなる. したがって分析に用いる手法は, 変数が独立して説明力を持つだけでなく, 本稿で提案するCAECPのような, 変数間の組合せによる説明力も併せ持つ手法のほうが望ましいと考えられる.

本節では, ロイヤルティの高い顧客とそうでない顧客の商品購買行動の差別的な要因を明らかにすることで, 適切なマーケティングを実施するための示唆を得ることを目的に分類問題を設定する. 当該企業には,毎年3月1日から1年間の購買金額に応じて顧客ステージが更新され, 毎年2月末でリセットされる仕組みの顧客システムがり,最上位ステージの顧客になるためには20万円以上の購買が必要となる. そこで本節では, 下記の2つの分類問題を設定した. 1つは, 2013年3 月1日〜2014年2月末までの期間で最上位ステージであった顧客のうち, 2014年 3月1日以降も購買履歴がある顧客(以下, 継続クラスと呼ぶ)とそうでない顧客 (以下,休眠クラスと呼ぶ)を分類する問題である. 以下ではこの問題を分類問題1 と呼ぶ. もう1つは, 分類問題1で継続クラスであった顧客のうち, 2014年3月1 日以降の購買日数が平均以上である顧客(以下, 高頻度クラス)とそうでない顧客 (以下,低頻度クラス)を設定した. 以下ではこの問題を分類問題2と呼ぶ. 各分類問題の各クラスのTID数はそれぞれ表 13と表 14にまとめている.

表 13: 分類問題1の各クラスのTID数クラス名訓練データ検証データトータル

継続 7,978 887 8,865

休眠 1,948 217 2156

トータル 9,926 1,104 11,030

基礎集計の結果より,最上位ステージ会員の多くはシリーズ商品の同時購買を

表 14: 分類問題2の各クラスのTID数クラス名訓練データ検証データトータル高頻度購買 3,152 350 3,502 低頻度購買 4,827 536 5,363

トータル 7,979 886 8,865

行っていることが明らかになった. また, 家具のある特定の分類Aや比較的高価な家具などの購買により, ある期間に累積購買数量や累積購買額が急激に伸びるユーザーが一定数存在していた. この累積購買数量と累積購買金額それぞれでクラスタリングを実施した結果, どちらのクラスタリング結果でも, 比較的等間隔で上昇していくクラスタと, 春, 夏, 秋, 冬のいずれかで急激に伸びるクラスタの 4つのクラスタに分類することができた. 以上のことから,説明変数には性別や年代といった属性や購買日数カテゴリーに加え,上記のクラスターidと,家具A,家具, シリーズ商品の月ごとの累積購買数量と累積購買金額を設定した. 説明変数は表15にまとめている.

表 15: 説明変数リスト

説明変数ラベル

生年西暦

性別男性, 女性,不明チェックイン回数 1以上の整数

購買日数大, 中, 小季節クラスター春, 夏, 秋, 冬家具A購買金額大, 中, 小家具A購買数量大, 中, 小

家具A購買時期購買年月と購買量クラスタ(大,中,小)の組み合わせ家具購買金額大, 中, 小

家具購買数量大, 中, 小

家具購買時期購買年月と購買量クラスタ(大,中,小)の組み合わせシリーズ商品購買金額大, 中, 小

シリーズ商品購買数量大, 中, 小

シリーズ商品購買時期購買年月と購買量クラスタ(大,中,小)の組み合わせ

以上のような分類問題と説明変数を作成して, CAECPによる分類モデルの構築を行う. また, 比較手法としてCACPによる実験も行っている. CAECPの設

表 16: 設定パラメータ

パラメータ分類問題1 分類問題2 最小パターン長 1 1 最大パターン長 3 3

θ 0.3 0.3

topK 800,000 800,000

最小サポート件数 2 2

η 0.99 0.99

β 1.75 1.75

α 10 10

γ 50 50

定パラメータは表 16のとおりである. ベンチマーク実験時と同様に,予備実験を通して最も結果の良かったパラメータの組み合わせによる実験結果を掲載する. ベンチマークや本節の実験を通して, ηやβなどの一般的な最適値の範囲が明らかになってきた. ηは直感的には, 1.000がベストであると予想していたが, 訓練データの中には,ほとんど候補CPにカバーされない,もしくは説明力が極端に弱いCPしかカバーされないようなTIDが一定数存在している. したがって, ηを

1.000にしてしまうと, 平均カバー回数が上昇し, 結果として予測精度が悪くなる

ため, ηは0.99か0.98あたりが適切のようだ. βも, 他のパラメータの値が何であれ, 1.75 ˜3.00あたりが適切な範囲に思われる. CPは, 単体では分類決定のためには弱いことが多く, 2, 3のCPにカバーされている状態が理想的であるようだ. とはいえ, 1つのパラメータの値を変えてしまうと,その他のパラメータの最適値が変わってしまうため, 現状ではいくつかのパラメータの組み合わせを事前計算し, 最適なパラメータ設定を求める必要がある.

実験結果のCACPとの比較を表17に示す. 今回は,どちらの分類問題に対しても, 正答率とパターン数の両方の指標でCACPを上回ることに成功した. 特に分類問題1は, 予測が難しい問題ということもあり, CACPで意味のある予測精度を出すモデルを構築するためには数万のCPを必要とするようだ. 提案手法によ

表 17: 評価値の比較

分類問題1 分類問題2 正答率パターン数正答率パターン数

CAECP 0.830 54 0.789 35

CACP 0.809 21,421 0.784 75

るモデルでも, 54パターンと比較的多くのCPが必要としている. 分類問題2では, 正答率はほぼ変わらないが, 利用CP数は半分以下に抑えられており, 今回の分類問題に対しても提案手法の有効性を確認することができた.

その他の計算結果を表18に示す. 計算時間を確認すると, どちらの問題でも現表 18: 計算結果

分類問題1 分類問題2

計算時間 468.2 662.6

正答率(訓練) 0.836 0.802

正答率(検証) 0.830 0.789

カバー率(訓練) 0.997 0.996

カバー率(検証) 0.998 0.995

平均カバー回数(訓練) 2.707 2.358 平均カバー回数(検証) 2.798 2.512

実的な時間でモデル構築が可能であることが分かる. 正答率は, 訓練データと検証データの間の差が少なく, 安定的なモデルであることも確認できる. カバー率と平均カバー回数も同様に, どちらの分類問題においても訓練データと検証データの間に偏りはみられず,適切な学習である様に思われる.

図 21および図 22は, は, 分類問題1と2それぞれのモデルにおける, TIDが CPにカバーされた回数の分布を棒グラフによって図示したものである. これらの図からも,分布のばらつきが少なく,かつ訓練データと検証データの分布がほぼ同じという理想的な状態であり, 適切な学習であることが分かる.

実際にどのようなCPが選択されているのかを確認するために, 分類問題ごとに候補CPと選択CPをサポート空間上にプロットしたものが図23と図 24であ

2 3 4 5 カバーされた回数

TID数の全体に占める割合

0 50

訓練検証

(%)

図 21: 分類問題1のカバー回数分布

カバーされた回数 1

TID数の全体に占める割合

0 50

訓練検証

2 3 4 5

(%)

図 22: 分類問題2のカバー回数分布

る. 図 23の特に休眠クラスでは, 説明力の非常に高いCPが1つ選択されてお

継続クラスのサポート

休眠クラスのサポート

0 1

図 23: 分類問題1の選択パターンの分布

り, それ以外はスコアの低いCPが採用されている. 一方の図 24では, スコアの高いCPが比較的多く採用されている. 表 17の比較結果と合わせて考察すると, 分類問題1で採用されたスコアの低いCPが, 実際は予測結果に大きな影響を及ぼしており, 従来のCACPではこれらのCPを選択するために数万のCPを選択する必要があったと思われる. このような状況に陥るデータセットに対して, 提案手法は特に効果を発揮する. 分類問題2のように, 提案手法でもスコアの高い CPがいくつも選択されるようなケース, つまりスコアの高いCPの冗長性が少なく, カバーしているTID集合が都合よく異なっているケースでは, CACPでも比較的少ないCPでモデル構築が可能となる. しかし, このような比較的予測が容易な問題でも, スコアの高いCPにカバーされないTIDは一定数存在するため, 提案手法は予測精度を落とさず, かつより少ないCPでモデル構築が可能であると筆者は考える.

最後に, 各問題で出現したパターンを考察していく. 図25, 図26 はそれぞれ,

高頻度購買クラスのサポート

低頻度購買クラスのサポート

0 1

図 24: 分類問題2の選択パターンの分布

2 k n a r 3

k n a r

性別̲女性

性別̲男性

rank1 rank0 rank-1

生年̲不明

rank-2 rank-3

性別̲不明

継続クラスに強いノード休眠クラスに強いノード

衣類 ̲ 金額 ̲ 中

生活雑貨 ̲ 金額 ̲ 高

日数 ̲ 高

衣類 ̲ 金額 ̲ 高

生活雑貨 ̲ 金額 ̲ 中

金額 ̲ 家具 ̲2 月 ̲ 高

冬クラスタ

日数 ̲ 中

食品 ̲ 金額 ̲ 中

衣類 ̲ 金額 ̲ 中

日数 ̲ 低

秋クラスタ

生活雑貨 ̲ 金額 ̲ 低夏クラスタ家具 A̲ 量 ̲8 月 ̲ 低

家具 ̲ 量 ̲10 月 ̲ 中

家具 ̲ 金額 ̲11 月 ̲ 高

春クラスタ

家具 ̲ 量 ̲6 月 ̲ 高

家具 ̲ 金額 ̲4 月 ̲ 低

家具 A̲ 金額 ̲10 月 ̲ 高

家具 ̲ 量 ̲10 月 ̲ 低

家具 A̲ 金額 ̲10 月 ̲ 低

シリーズ ̲ 量 ̲11 月 ̲ 高

図 25: 分類問題1のCRPD

ドキュメント内必須コントラストパターンを利用した分類モデルに関する研究 (ページ 39-48)

節 製造小売業データに対する実験