状態空間モデルによるインターネット広告のクリック率予測

(1)

c

オペレーションズ・リサーチ

論文・事例研究

状態空間モデルによるインターネット広告のクリック率予測

本橋永至

^∗

，磯崎直樹

^†

，長尾大道

^‡

，樋口知之

^‡

1. はじめに

インターネットは，ショッピング，情報収集，コミュニケーションなどのさまざまな手段として消費者の生活に欠かせないものとなってきた．一方，企業サイドにとってインターネットは，消費者とのコミュニケーション・ツールの一つとして重要な要素となってきている．

企業がインターネットを用いて消費者とコミュニケーションをとる手段は，バナー広告やモバイル広告等のインターネット広告，企業が直接所有するサイト，

SNS

（

Social Networking Service

）等のソーシャル・メディアなどさまざまである．インターネットが十分に普及した今日，これらの手段を適切に利用することにより安価で効率的なマーケティングを展開することが可能になってきた．特に，インターネット広告費は年々拡大し続けており，今やテレビ広告費に次ぐ規模となった．学術的にもインターネット広告への関心は高まっており，

バナー広告の効果を実証的に検証する研究

[3, 5, 12]

を中心に，近年多数の研究が報告されている．

インターネット広告の目的は，大きく

3

つに分類できる．

1

つ目は，消費者にブランドを認知・理解させることを目的とするブランディングである．これまで，

ブランドの知名度を向上させるためには，テレビ

CM

等のマス広告が主に用いられてきたが，近年インターネット広告もそのための手段として広く用いられるよ

∗もとはしえいじ

総合研究大学院大学複合科学研究科統計科学専攻

〒

190–8562

東京都立川市緑町

10–3 E-mail: [email protected]

†いそざきなおき

ソネット・メディア・ネットワークス株式会社

〒

141–6009

東京都品川区大崎

2–1–1

‡ながおひろみち，ひぐちともゆき統計数理研究所

〒

190–8562

東京都立川市緑町

10–3

受付

12.5.3

採択

12.7.24

うになってきた．バナー広告によるブランディングには，より多くの消費者にメッセージを伝えることので

きる

Yahoo

！などのポータル・サイトへの配信が効果

的である．

2

つ目は，消費者の関心を実際の購買に結びつけるプロモーションである．商品の購入サイトをインターネット広告にリンクし，サイト上で購買プロセスの最終段階である購買まで結びつけることも可能である．商品の購買が達成される割合自体は高くないが，近年アフィリエイト広告¹やアド・ネットワーク²など効率的に広告を配信できる環境が整備されてきており，配信方法の最適化次第では売上の飛躍的増加も可能である．

3

つ目は，ソーシャル・マーケティングである．消費者は，購買意思決定において企業が発信する情報よりも実際に商品を利用した消費者の声を重視する傾向がある（口コミ効果）．そのため，消費者をインターネット広告から自社のコミュニティ・サイトに誘導することにより，消費者間の情報交換を促進したり，実際の利用者の感想を収集することも可能である．

マイナス面としてはネガティブな反応があったとしてもそれらをコントロールできない点が挙げられる．

インターネット上にはさまざまなサイトがあり，同じバナー広告でもどのサイトに配信するかでその効果は大きく異なる．そのため，過去のサイトの閲覧履歴をもとに広告を配信する対象者を限定する手法の開発が進んでいる．その方法の

1

つが，リターゲティング広告と呼ばれる，過去に自社のサイトを訪れた消費者に限定して広告を配信する方法である．過去に自社のサイトに訪れた消費者は，自社の商品に興味を持っている確率が高いため極めて効率的な方法である．また，

自社の商品に興味を持っていると思われる消費者が訪

1 広告を企業や個人が運営するサイトに掲載し，そのサイトから資料請求や商品購入が発生した際に，その成果の内容と件数に応じて広告料を支払う仕組み．

2 多数の媒体サイトをネットワーク化し，広告販売や広告配信を一元的に管理する仕組み．

32

(2)

れるサイトを特定し，そのサイトに訪れた消費者に広告を配信する方法もある．この方法は，一般にコンテンツ連動型広告と呼ばれる．例えば，パソコンの広告であれば，パソコンに関する情報を提供しているサイトを訪れた消費者に広告を配信するなどが考えられる．

さらに，閲覧者の居住地域により対象者を限定する地域特定型広告と呼ばれるものもある．

インターネット広告に対する期待が高まるにつれ，その効果の予測および適切な効果測定を行うための手法が求められてきている．例えば，バナー広告の効果は，

広告が配信される時間帯や曜日によって違いがあることが経験的に知られている．本研究では，バナー広告のクリック率を予測するモデルを状態空間モデルをベースに構築し，実際の配信データを用いてモデルの有用性を示す．過去に，マーケティングにおいて状態空間モデルは，市場の時間的な変化の様子をとらえるためにさまざまな領域で用いられてきた

[1, 2, 16, 18]

．モデルの状態推定には，あらゆる非線形もしくは非ガウス型の状態空間モデルに適用可能な粒子フィルタを用いる．

本稿の残りの部分は以下ように構成される．第

2

節では，本研究で提案するモデルの説明と定式化を行う．

第

3

節では，モデルの推定方法について概説する．第

4

節では，提案したモデルを実際の配信データに適用し，その結果を考察する．最後に，第

5

節で本研究のまとめをする．

2. モデル

2.1

分析の目的

バナー広告の効果を測定するための指標として以下のようなものがある．

•

インプレッション数：

バナー広告がサイト上に表示された回数

•

クリック数：

バナー広告がクリックされた回数

•

コンバージョン数：

バナー広告を経由して購買に至った回数

•

クリック・スルー・レート（

CTR

）

:

（クリック数／インプレッション数）

× 100

•

コンバージョン・レート（

CVR

）

:

（コンバージョン数／クリック数）

× 100

バナー広告の配信計画を策定する際，その目的がブランディングであれば，より多くの消費者に広告を見てもらいたいため，インプレッション数や，そこから同一ユーザーの重複を除いたユニーク・ユーザー数を目標

として設定することが多い．一方，目的が消費者の購買を直接促すプロモーションであれば，通常クリック数やコンバージョン数を目標として設定する．バナー広告の配信方式はさまざまであるが，最も一般的なのがインプレッション保証型広告³と呼ばれる

1

インプレッションあたりの単価が設定される広告である．このタイプの広告では，目標がインプレッション数の場合，それを達成するための費用は不変である．一方，目標がクリック数やコンバージョン数の場合，

CTR

や

CVR

の低いサイトにばかり配信してしまうと目標を達成するまでの費用が増大してしまう．つまり，バナー広告をプロモーションのツールとして用いる際には，

いかに

CTR

や

CVR

の高いサイトに広告を配信できるか，またはいかにそれらが高いタイミングで配信できるかが効率的な配信を行うために重要となる．プロモーションを目的とした場合，コンバージョン数がクリック数よりも重視されることが多いが，コンバージョン数はクリック数に比して極めて少ないため，本研究ではバナー広告のクリック数を観測変数としてモデル化を行う．

バナー広告の

CTR

に影響を与える要因として，まずバナー広告自体に消費者を引きつける魅力があるか否かが挙げられる．近年，バナー広告の形態はバラエティに富んでおり，例えば，動画を用いた広告は静止画に比べ消費者を引きつける効果が圧倒的に高い．また，配信先のサイトが広告のターゲットにマッチしているか否かも重要な要因であろう．若い女性をターゲットとした広告を訪問者のほとんどを高齢の男性が占めるようなサイトに配信してもその効果は極めて低いと予想される．さらに，バナー広告の配信とテレビや雑誌等のマス広告の出稿が重なる時は，相乗効果により広告の効果は増加すると考えられる．そのため，現在の

CTR

が長期的に見て高い傾向にあるのかそれとも低い傾向にあるのかといったトレンドも注視すべき要因であろう．

2.2

モデルの定式化

本研究で提案するモデルは，バナー広告がインターネット上に存在する多数のサイトに配信されることを前提とし，観測期間中の第

t

日に，あるカテゴリーのサイトに配信されたバナー広告のクリック数

y

t

( t = 1 , . . . , T )

は，

IM P S

t，

π

tをパラメータとする二項分布

y

t

∼ binomial(IM P S

t

, π

t

) (1)

3

1

クリックあたりの単価もしくは

1

コンバージョンあたりの単価が設定される広告は，それぞれクリック保証型広告，コンバージョン保証型広告と呼ばれる．

2012 10 33

(3)

に従うと仮定する．ここで，

IM P S

t，

π

tはそれぞれ第

t

日に配信されたバナー広告のインプレッション数およびクリック率⁴である．インプレッション数

IM P S

t

は，広告主側で比較的容易に操作が可能なため所与として扱う．クリック率

π

tは，トレンド成分

µ

t，曜日成分

w

t，祝日効果項

h

t，誤差項

v

tにより説明できると仮定し，ロジスティック関数を用いて

π

t

= exp(µ

t

+ w

t

+ h

t

+ v

t

)

1 + exp( µ

t

+ w

t

+ h

t

+ v

t

) (2)

と定式化する．これ以降，それぞれの成分を順に説明していく．まず，トレンド成分

µ

tは，

2

階差分のトレンドモデル

[9, 10]

に従うと仮定し

µ

t

= 2µ

t−1

− µ

t−2

+ δ

t

, δ

t

∼ N(0, σ

_δ²

) (3)

と定式化する．式

(3)

は，

(µ

t

−µ

t−1

)−(µ

t−1

−µ

t−2

) ∼ N(0, σ

²_δ

)

と書き直すことができる．つまり，トレンド成分の第

t − 1

日から第

t

^{日の変化量と第}

t − 2

日から第

t − 1

日の変化量の差が平均

0

，分散

σ

δ²の正規分布に従うと仮定しているのと同じである．したがって，

σ

²δ

≈ 0

の時，トレンド成分の傾きはほぼ一定となる．

トレンド成分は，テレビや雑誌等の観測されない要因による長期的な傾向をとらえていると解釈できる．また，クリック率は曜日によっても異なる傾向があると考えられる．週の周期変動をとらえるために，曜日成分

w

tを周期

7

の季節成分モデル

[9, 10]

w

t

= −

6 j=1

w

t−j

+

t

,

t

∼ N (0 , σ

²

) (4)

により表現する．式

(4)

は，

₆

j=0

w

t−j

∼ N (0 , σ

²

)

と書き直すことができる．つまり，曜日成分の直近

1

週間分の和が平均

0

，分散

σ

²の正規分布に従うと仮定しているのと同じである．したがって，

σ

²

≈ 0

の時，曜日成分の同じ曜日の日はすべてほぼ同じ値となる．さらに，祝日のクリック率は日曜のそれに近いだろうという期待から祝日効果項

h

tを

h

t

= I

t

· (w

t,sun

− w

t

) (5)

と定式化する．ここで，

I

t

∈ {0 , 1}

は第

t

^日が月〜

金の祝日であれば

1

，そうでなければ

0

を取る

2

値変

数，

w

t,sun は直前の日曜の曜日成分である．つまり，

第

t

日が月〜金の祝日であれば，式

(2)

の指数内部は

µ

t

+ w

t,sun

+ v

tとなる．最後に，誤差項

v

tは平均

0

，

4 クリック率は，CTRと同じ意味で定義されることがあるが，本稿では，CTRは実際に観測されたインプレッション数に対するクリック数の比率，クリック率はモデルのパラメータとして区別する．

分散

σ

v²の正規分布に従うと仮定する．

2.3

状態空間表現

前節で提案したモデルは，状態ベクトルを

8

次元ベクトル

t

= [ µ

t

, µ

t−1

, w

t

, w

t−1

, . . . , w

t−5

]

(6)

とすることにより，状態空間モデル

[9, 10, 17]

システムモデル t

= F

t t−1

+ G

tt

(7)

観測モデル

y

t

∼ binomial ( IM P S

t

, π

t

) (8)

として表現できる．ここで，システムモデルは状態ベクトル tの時間的な変化の様子を表し，観測モデルは第

t

^{日において観測変数}

y

tが観測される様子を表している．具体的には，行列

F

tは

F

t

=

F

µ

O O F

w

(9)

と書くことができ，

F

µと

F

wはそれぞれ以下のように表される．

F

µ

=

2 −1

1 0

, F

w

=

⎡

⎢ ⎢

⎢ ⎣

−1 −1 · · · −1

1 O 0

. .. .. .

O 1 0

⎤

⎥ ⎥

⎥ ⎦ (10)

さらに，

G

tとtは

G

t

=

G

µ

G

w

,

t

=

δ

t

(11)

と書くことができ，

G

µと

G

wはそれぞれ以下のように表される．

G

µ

= 1 0

0 0

, G

w

=

⎡

⎢ ⎢

⎢ ⎣ 0 1 0 0 0 0 0 0 0 0 0 0

⎤

⎥ ⎥

⎥ ⎦

(12)

3. 推定方法

観測期間中の第

1

日から第

n

日までの観測値1:n

≡ {y

1

, . . . , y

n

}

に基づいて状態ベクトル tを推定することは一般に状態推定と呼ばれる．本研究では，粒子

34

(4)

フィルタ

[4, 8]

を用いて状態推定を行う⁵（詳細については付録を参照せよ）．推定される状態ベクトルの分布

p (

t

|

1:n

)

は

n

と

t

の大小関係により以下の

3

つに分類される．

n < t

^の場合

:

予測分布

n = t

^の場合

:

フィルタ分布

n > t

の場合

:

平滑化分布

過去に得られた観測値に基づいて将来の状態を確率分布で表現したものが予測分布であり，今日までに得られた観測値に基づいて今日の状態を表現したものがフィルタ分布である．さらに，明日以降の数日間，もしくはすべての観測値が得られた下で今日の状態を修正したものが平滑化分布である．

モデルを規定するパラメータ・ベクトル

= [σ

v

, σ

δ

, σ

]

については，適当な範囲と刻み幅を設定しグリッド・サーチにより推定する．まず，第

n

日の尤度は

p(y

n

|

) =

IM P S

n

y

n

π

^ynn

(1 − π

n

)

^{IMP Sn−yn}

(13)

と表すことができる．したがって，第

1

日から第

N

^日までの観測値1:N

≡ {y

1

, . . . , y

N

}

が与えられたとき，

Q (

) ≡

N n=1

p ( y

n

|

1:˜n

,

) (14)

を最大化するパラメータを推定値とする．ここで，

n ˜ = n − 1

のとき，

Q (

)

はモデルの尤度

L (

)

となり，

それを最大化するパラメータは最尤推定値

ˆ

MLEとなる．将来の予測において，最尤推定値は今日までに得られた観測値に基づいて明日の状態を予測する

1

期先予測の能力を最大化するが，明日以降の予測を目的とする長期予測のための最適解にはならない

[9, 11]

．長期予測において良い予測値を得るためには，

˜ n

を実際に時刻

n

の状態の予測を行う時刻として

Q(

)

を定義し，パラメータを最適化しなければならない．

5 線形ガウス型の状態空間モデルでは，カルマンフィルタと呼ばれる効率的な方法を用いて状態推定が可能だが，非線形もしくは非ガウス型の状態空間モデルでは，状態推定に粒子フィルタのようなモンテカルロ近似を用いた計算アルゴリズムが必要となる．

4. 実証分析

4.1

データの概要

インターネットマーケティング事業者のソネット・

メディア・ネットワークス株式会社によって配信されたバナー広告のインプレッション数とクリック数がサイトごとに日単位で記録されたデータを用いて実証分析を行う．観測期間は，

2011

年

4

月

1

日から

9

月

30

日までの

6

カ月間である．

分析には，配信方法がリターゲティング広告（

RTA

），

インプレッション保証型広告（

CPM

），地域特定型広告（

AREA

）の

3

つのパターンを使用する（表

1

）．

いずれのパターンもインターネット上のさまざまなサイトに配信されているが，本研究ではインプレッション数が多い「パソコン」

,

「ゲーム」，「ニュース」，「スポーツ」のいずれかのカテゴリーに含まれるサイトを分析対象とする．すべてのパターンが，観測期間中

4

つのカテゴリーすべてに毎日配信していた．表

2

は，各パターンの観測期間中の総インプレッション数（

Imps

），

総クリック数（

Click

），

CTR

をカテゴリー別に表したものである．

総インプレッション数については，パターン

1

の

「ニュース」が最も多く，パターン

1

の「スポーツ」が最も少なかった．

CTR

については，パターン

2

の「パソコン」が最も高く，パターン

1

の「ゲーム」が最も低かった．パターンによって

CTR

が最も高いカテゴリーや最も低いカテゴリーは異なっており，集計値からはパターン間の共通性は見られない．

4.2

分析方法

本研究で提案したモデルの有用性を示すために，予測精度の検証と平滑化分布の考察を行う．まず予測精度の検証では，前半

3

カ月間のデータをパラメータの推定期間とし，後半

3

カ月間のデータを予測精度の検証期間とする．実際の配信計画の策定プロセスを考慮すると，実務では将来

1

週間程度の予測能力が高いモデルが求められる．したがって，式

(14)

における

˜ n

を第

n

日の直前の日曜としてパラメータの最適化を行

表

1

分析対象広告の要約広告カテゴリー配信方法パターン

1

パソコン関連

RTA

パターン

2

飲食品関連

CPM

パターン

3

自動車関連

AREA

2012 10 35

(5)

表

2

データの集計値

パソコンゲームニューススポーツ

パターン

1 Imps 4, 347, 030 2, 588, 155 27, 171, 452 483, 605 Click 5, 709 2, 714 83, 931 1, 165

CTR 0.131 0.105 0.309 0.241

パターン

2 Imps 1, 895, 268 6, 077, 004 23, 781, 748 711, 401 Click 15, 531 47, 810 121, 209 2, 992

CTR 0.819 0.787 0.510 0.421

パターン

3 Imps 11 , 762 , 188 16 , 124 , 995 14 , 759 , 922 672 , 266 Click 28 , 184 41 , 224 63 , 496 3 , 310

CTR 0.240 0.256 0.430 0.492

表

3

予測誤差の標準偏差

パソコンゲームニューススポーツパターン

1 0.000523 0.000372 0.000430 0.000875 (0.000691) (0.000548) (0.000656) (0.001159)

パターン

2 0.001290 0.002618 0.001316 0.001438

(0.001599) (0.003171) (0.001843) (0.001744)

パターン

3 0.000277 0.000578 0.001790 0.001997

(0.000374) (0.000714) (0.002650) (0.002741)

う．また，グリッド・サーチの範囲を

0.05 ≤ σ

v

≤ 0.5

，

−10 ≤ log(σ

δ

), log(σ

) ≤ −1

とし，刻み幅をそれぞれ

0.05

，

1

とする．検証期間中は，毎週日曜にその日までに得られたデータを用いて翌日から次の日曜までの

1

週間の長期予測を行い，得られた予測分布を用いてクリック率の予測値

ˆ π

を計算するという手続きを繰り返す．

次に，

6

カ月間すべてのデータを用いて，粒子フィルタを拡張したアルゴリズムである粒子スムーザ

[6]

によりパラメータの最尤推定値，および状態ベクトルの平滑化分布を求める．グリッド・サーチの範囲と刻み幅は，予測精度の検証における設定と同じにする．平滑化分布について考察する際，すべてのデータに基づく平滑化分布

p(

t

|

1:T

)

を用いるのが理想であるが，

サンプルの復元抽出の繰り返しによって生じるアンサンブルの退化によりそれを求めることは困難なため，

ラグ数

L = 28

の平滑化分布

p (

t

|

1:t+L

)

を代わりに求める．ただし，

t + L > T

の場合，

p(

t

|

1:T

)

を求める．

4.3

分析結果

4.3.1

予測精度の検証

本研究のモデルの予測精度を検証するために，まず予

測精度の基準となる予測方法を設定する．簡易なクリック率の予測方法として，クリック率の予測値にちょうど

1

週間前の

CTR

を用いる方法が考えられる．したがって，本研究のモデルとこの方法の予測誤差を比較することでモデルの予測精度の検証を行う．表

3

は，本研究のモデルから得られた予測値と

CTR

の観測値から計算された

3

カ月分の予測誤差

e

t

= y

t

/IM P S

t

− π ˆ

t

の標準偏差をパターンごとカテゴリーごとに表したものである（括弧内の数値は，比較対象から得られた予測誤差の標準偏差）．表

3

において，本研究のモデルから得られたすべての数値が対応する比較対象から得られた数値よりも小さいため，すべてのデータにおいて本研究のモデルが比較対象よりも予測の観点から優れているといえる．

本研究のモデルと比較対象の間で最も予測誤差の標準偏差の差が大きかったのは，パターン

3

の「ニュース」である．したがって，このデータを用いて両者がどのような予測を行っていたかを詳しく見ることにする．図

1

は，

CTR

の観測値と本研究のモデルおよび比較対象から得られた予測値を時系列で表したものである．比較対象では，誤差の影響で予測が大きく外れているのがところどころに見られるのに対して，本研

36

(6)

表

4

パラメータの最尤推定値

ˆ

_MLE

パソコンゲームニューススポーツ

パターン

1 σ

v

0 . 20 0 . 25 0 . 10 0 . 10

σ

δ

exp(−5) exp(−5) exp(−4) exp(−7) σ

exp(−10) exp(−10) exp(−8) exp(−7)

パターン

2 σ

v

0 . 10 0 . 15 0 . 20 0 . 20

σ

δ

exp(−8) exp(−3) exp(−6) exp(−8) σ

exp(−9) exp(−6) exp(−8) exp(−8)

パターン

3 σ

v

0.05 0.15 0.30 0.25

σ

δ

exp(−5) exp(−4) exp(−5) exp(−8) σ

exp(−6) exp(−8) exp(−6) exp(−8)

図

1 CTR

の観測値（実線）と本研究のモデル（上段）および比較対象（下段）から得られた予測値（点線）．縦軸は，検証期間中の

CTR

の平均を基準とする比率．

究のモデルは，短期的な変動を必要以上に追従することなく，長期的な傾向を適切にとらえることで精度の高い予測を実現している．

4.3.2

平滑化分布の考察

次に，観測期間すべてのデータを用いて得られた平滑化分布の考察を行う．表

4

は，各パターンにおいてカテゴリーごとに得られたパラメータ

= [σ

v

, σ

δ

, σ

]

の最尤推定値である．

σ

v はトレンド成分，曜日成分，

祝日効果項ではクリック率を説明できない誤差

v

tの標準偏差であり，

σ

δと

σ

はそれぞれトレンド成分と曜

日成分のシステムノイズ

δ

t，

tの標準偏差である．

図

2

は，

CTR

の観測値とトレンド成分

µ

tの平滑化分布の

95%

確率区間をロジスティック関数の逆関数

（ロジット関数）により変換した値を同時に表している．

図

2

から，データによってトレンド成分の変化のしかたに違いがあることがわかる．例えば，パターン

2

の

「スポーツ」は，トレンド成分の変動が小さいが，同じパターンの「ゲーム」は，その変動が大きい．また，パターン

1

はすべてのカテゴリーにおいて，観測期間初期ではクリック率が高くその分散が大きいが，時間が経つにつれクリック率は低くなり，分散は小さくなるという傾向がある．

3

つのパターン共通の特徴として，

「スポーツ」のサイトは，すべてのカテゴリーの中で最もトレンド成分の変動が小さいという点が挙げられる．

トレンド成分の変動の大小は，システムノイズの大きさに依存しており，クリック率の時間的な変化の特徴を良く表しているといえる（表

4

の

σ

δを参照せよ）．

図

3

は，曜日成分

w

tの平滑化分布の平均を日別に求め，それらの曜日ごとの平均を表したものである．

全体の傾向として，パターン

1

は曜日ごとの変動が比較的大きく，反対にパターン

2

は小さい．パターンごとに各カテゴリーを個別に見てみると，パターン

1

の

「ニュース」やパターン

3

の「ゲーム」では，土日の値が平日に比べ顕著に高くなっているのが特徴的である．

この結果は，消費者のインターネット広告に対する反応が平日と休日で異なる場合があることを示唆している．分析に使用したデータからはその原因まではわからないが，このような特徴は本研究のモデルを用いることにより情報抽出が可能になった知見である．

5. まとめ

本研究では，バナー広告のクリック率を予測するモ

2012 10 37

(7)

図

2 CTR

の観測値（×印）とトレンド成分の

95%確率区間をロジット変換した値（実線）．縦軸は，観測期間中の CTR

の平均を基準とする比率．

38

(8)

図

3

曜日成分の平滑化分布の曜日別平均

デルを状態空間モデルをベースに構築し，実際の配信データを用いて実証分析を行った．本研究のモデルは，

クリック率に影響を与える要因をトレンド成分，曜日成分，祝日効果項，誤差項に分解し，クリック率の将来の予測および時間的な変化に関する情報抽出を行うことが可能である．実証分析の結果，将来のクリック率を十分な精度で予測でき，かつ長期的な傾向の変化や曜日によって異なる特徴をとらえることができた．

本研究で提案したモデルは，実際のバナー広告の配信において以下のように活用することができる．企業はバナー広告の配信計画を策定する際，限られた予算やインプレッション数の中で，いつ，どのサイトに広告を配信するかを決定する．

CTR

が低いサイトばかりに配信してしまうと費用対効果が悪くなるため，いかに

CTR

の高いサイトに配信できるかが効率的な配信を行うために重要である．本研究のモデルを用いて将来のクリック率を予測し，クリック率が高いと予想される曜日またはカテゴリーのサイトに重点的に広告を配信することにより，効率的な配信が可能となる．

本研究の課題を

3

つ挙げる．

1

つ目は，インプレッション数とクリック率の関係についてである．本研究で

は，両者は独立であると仮定したが，インプレッション数が増えれば消費者の広告に対する関心が高まり，クリック率は上昇すると予想される．しかしながら，あるラインを超えると過剰な配信によりクリック率は反対に下降すると予想される．これらの関係を適切にモデルに取り込むことができれば，より精度の高い予測が可能になるであろう．

2

つ目は，誤差分布についてである．本研究では，誤差分布に正規分布を仮定したが，

観測値には正規分布の仮定には相応しくない値も確認された．誤差分布に正規分布以外の分布を用いることも検討すべきであろう．

3

つ目は，インターネット広告とマス広告の関係についてである．近年，テレビ，雑誌，インターネットなどの複数のメディアを同時に用いることによりコミュニケーション効果の促進を目指すクロス・メディア戦略が注目を集めている．本研究の分析に用いたデータについても観測期間中，何らかのマス広告によるプロモーションが行われていた可能性があり，トレンド成分の変化はその影響によるものかもしれない．これまで，メディア・プランニング⁶において，インターネット広告とマス広告の効果は別々に検証されることが多かったが，両者は互いに影響し合っていると考えるのが自然である．インターネット広告とマス広告の相乗効果を明らかにすることは，今後の重要な研究課題であろう．

本研究で採用した状態空間モデルと粒子フィルタを用いれば，これらの課題に柔軟に対応することが可能である．粒子フィルタは，マーケティング以外でも地球科学

[14]

やバイオインフォマティクス

[13, 15, 19]

などさまざまな領域で応用されており，その汎用性と有用性が示されている．さらに，状態推定およびパラメータ推定の際に必要な並列分散処理をクラウドコンピューティングにより実行する技術の開発も進んでおり

[7]

，近い将来，クラスタ計算機を持たない研究者や実務家にとっても実装が可能になるであろう．

インターネット広告はマス広告と異なり，広告の成果が配信と同時に自動的に観測される．そのため，得られたデータを適切に分析し精度の高い予測ができれば，効率的かつ自動的に広告を配信することが可能である．この分野の研究はまだ始まったばかりであるが，

インターネット広告の技術の進歩と共に今後ますます注目されることが予想される．

6 決められた予算内でターゲットとなる消費者に対して効果的にメッセージを伝えるために，利用するメディアや出稿タイミングの最適化を図ること．

2012 10 39

(9)

A. 付録：粒子フィルタ

状態空間モデルにおいて，時刻

t − 1

のフィルタ分布から時刻

t

の予測分布を求める一期先予測と，時刻

t

^{の予測分布から時刻}

t

のフィルタ分布を求めるフィルタリングを交互に行う操作は，逐次ベイズフィルタ，

もしくは非線形フィルタリングと呼ばれる．粒子フィルタは，多数の粒子で確率分布を近似する逐次ベイズフィルタ手法の一つである．

まず，粒子フィルタにおける一期先予測について説明する．時刻

t

の予測分布

p (

t

|

1:t−1

)

は，時刻

t − 1

のフィルタ分布

p(

t−1

|

1:t−1

)

を用いて

p(

t

|

1:t−1

) =

p(

t

|

t−1

)p(

t−1

|

1:t−1

)d

t−1

(15)

と表すことができる．ここで，

p(

t

|

t−1

)

はシステムモデルである．フィルタ分布

p(

t−1

|

1:t−1

)

を

M

個のサンプルの集合

{

⁽ⁱ⁾_t−1|t−1

}

^Mi=1とディラックのデルタ関数

δ

を用いて

p (

t−1

|

1:t−1

) ≈ 1 M

M i=1

δ

t−1

−

⁽ⁱ⁾_t−1|t−1

(16)

のように近似されるとしよう．すると，各粒子について ⁽ⁱ⁾_t|t−1

= F

t (i)

t−1|t−1

+ G

t(i)

t を計算して得られる予測アンサンブル

{

⁽ⁱ⁾_t|t−1

}

^Mi=1を用いて，予測分布

p (

_t

|

1:t−1

)

は

p (

_t

|

1:t−1

) ≈ 1 M

M i=1

δ

t

−

⁽ⁱ⁾_t|t−1

(17)

のように近似される．

次に，フィルタリングについて説明する．時刻

t

^のフィルタ分布

p (

t

|

1:t

)

は，時刻

t

^{の予測分布}

p (

t

|

1:t−1

)

を用いて

p(

t

|

1:t

) = p(

t

|

t

)p(

t

|

1:t−1

)

p (

t

|

t

) p (

t

|

1:t−1

) d

t

(18)

と表すことができる．ここで，

p (

t

|

t

)

は観測モデルである．予測分布

p(

t

|

1:t−1

)

の近似である式

(17)

を式

(18)

に代入すると，

p(

t

|

1:t

) ≈

M

i=1

w

t⁽ⁱ⁾

δ

t

−

⁽ⁱ⁾_t|t−1

(19)

を得る．ここで，

w

⁽ⁱ⁾t

= p (

_t

|

⁽ⁱ⁾_t|t−1

)

_M

j=1

p(

t

|

^(j)_t|t−1

) (20)

である．さらに，

{

⁽ⁱ⁾_t|t−1

}

^M_i=1から重み

w

t⁽ⁱ⁾による

M

個の復元抽出によって得られるアンサンブル

{

⁽ⁱ⁾_t|t

}

^Mi=1

を用いると，フィルタ分布

p(

t

|

1:t

)

は

p(

t

|

1:t

) ≈ 1 M

M i=1

δ

t

−

⁽ⁱ⁾_t|t

(21)

のように近似される．

時刻

t

において時刻

s

（ただし，

t < s

）の状態ベクトルの分布

p(

s

|

1:t

)

を推定することは長期予測と呼ばれる．つまり，

s = t + 1

のとき，一期先予測に対応する．時刻

s

^{の予測分布}

p (

s

|

1:t

)

は

p(

s

|

1:t

) =

· · ·

p(

s

|

s−1

) · · · p(

t+1

|

t

) p (

t

|

1:t

) d

s−1

· · · d

t

(22)

と表すことができる．つまり，この式は一期先予測の手続きを

s − t

回繰り返し適用すれば，

s − t

期先予測ができることを示している．

粒子フィルタの手続きを少し拡張することにより，簡単にラグ数

L

の平滑化分布

p(

t

|

1:t+L

)

を求めることができる．このアルゴリズムは，粒子スムーザと呼ばれる．粒子スムーザの説明については，文献

[6]

が詳しい．

参考文献

[1] F. M. Bass, N. Bruce, S. Majumdar and B. P. S.

Murthi, “Wearout Eﬀects of Diﬀerent Advertis- ing Themes: A Dynamic Bayesian Model of the Advertising-sales Relationship,” Marketing Science, 26 (2007), 179–195.

[2] N. Bruce, “Pooling and Dynamic Forgetting Eﬀects in Multitheme Advertising: Tracking the Advertising Sales Relationship with Particle Filters,” Marketing Science, 27 (2008), 659–673.

[3] P. Chatterjee, D. L. Hoﬀman and T. P. Novak,

“Modeling the Clickstream: Implications for Web- Based Advertising Eﬀorts,” Marketing Science, 22 (2003), 520–541.

[4] A. Doucet, N. D. Freitas and N. Gordon (eds.), Se- quential Monte Carlo Methods in Practice, Springer, 2001.

[5] A. Goldfarb and C. Tucker, “Online Display Adver- tising: Targeting and Obtrusiveness,” Marketing Sci- ence, 30 (2011), 389–404.

[6]

樋口知之（編著），『データ同化入門』，朝倉書店，2011.

[7]

石垣司，中村和幸，本村陽一，「クラウドコンピューティングを用いた粒子フィルタのための

MapReduce

アルゴリズム」，『情報論的学習理論テクニカルレポート』，

2009．

[8] G. Kitagawa, “Monte Carlo Filter and Smoother for Non-gaussian Nonlinear State Space Models,” Journal of Computational and Graphical Statistics, 5 (1996), 1–25.

[9]

北川源四郎，『時系列解析入門』，岩波書店，2005．

40

(10)

[10] G. Kitagawa, Introduction to Time Series Model- ing, Chapman & Hall/CRC, 2010.

[11]

北川源四郎，川崎能典（著），福田慎一，粕谷宗久（編）

「時系列モデルによるインフレ率予測」，『日本経済の構造変化と経済予測』，東京大学出版会，2004．

[12] P. Manchanda, J-P. Dub´ e, K. Y. Goh and P. K.

Chintagunta, “The Eﬀect of Banner Advertising on Internet Purchasing,” Journal of Marketing Research, 43 (2006), 98–108.

[13] M. Nagasaki, R. Yamaguchi, R. Yoshida, S. Imoto, A. Doi, Y. Tamada, H. Matsuno, S. Miyano and T. Higuchi, “Genomic Data Assimilation for Estimat- ing Hybrid Functional Petri Net from Time-Course Gene Expression Data,” Genome Informatics, 17 (2006), 46–61.

[14] K. Nakamura, N. Hirose, B. H. Choi and T. Higuchi, “Particle Filtering in Data Assimila- tion and its Application to Estimation of Boundary Condition of Tsunami Simulation Model,” S. K. Park and L. Xu, (eds.), In Data Assimilation for At-

mospheric, Oceanic and Hydrologic Applications, Springer, 2009, 353–366.

[15] K. Nakamura, R. Yoshida, M. Nagasaki, S. Miyano and T. Higuchi, “Parameter Estimation of in silico Bi- ological Pathways with Particle Filtering Towards a Petascale Computing,” The Proceedings of 14th Pa- cific Symposium on Biocomputing, 2009, 227–238.

[16] H. J. Van Heerde, C. F. Mela and P. Manchanda,

“The Dynamic Eﬀect of Innovation on Market Struc- ture,” Journal of Marketing Research, 41 (2004), 166–

183. [17] M. West and J. Harrison, Bayesian Forecasting and Dynamic Models, Springer, 1997.

[18]

山口類，土屋映子，樋口知之，「状態空間モデルを用いた飲食店売上の要因分解」，オペレーションズ・リサーチ，49

(2004), 316–324.

[19] R. Yoshida, M. Nagasaki, R. Yamaguchi, S. Imoto, S. Miyano and T. Higuchi, “Bayesian Learning of Bi- ological Pathways on Genomic Data Assimilation,”

Bioinformatics, 24 (2008), 2592–2601.

2012 10 41

状態空間モデルによるインターネット広告の クリック率予測

c

論文・事例研究