1.は じ め に
近年,スマートフォンを中心としたモバイル端末の拡 大に伴い,モバイル広告(モバイル端末向けのインター ネット広告)の成長が顕著である.モバイル広告の市場 規模は 2020 年には 7,500 億円を超えると予測され,と りわけ,主に広告枠内に画像や動画などのクリエイティ ブが表示されるバナー型広告である「ディスプレイ広告」 が,その大半を占めると予測されている [CyberZ 15]. ディスプレイ広告の拡大は,モバイル広告を出稿する広 告主のプロモーション目的や手法が多様化していること が牽引している.従来の CPC*1や CPI*2による広告の 評価だけではなく,広告主の KPI やプロモーションの 段階に合わせた CPA*3により広告を評価し,より質の 高いユーザを獲得したいというニーズが高まっている. 一方,広告の評価を行うための計測手法においても従 来のインストールなどの単純なコンバージョンを計測す るだけでなく,多様性が求められている.インストール 以後のユーザの行動や,デバイスをまたいだ計測をする ために,よりユーザの推定精度が求められるだけでなく, その後のユーザの行動を予測するなど,機械学習を筆頭 にした AI の要素技術が求められている. 本稿では,広告効果計測ツール「F.O.X」*4をはじめ とした,モバイル広告における広告効果計測技術の現状 と,AI の要素技術を用いた取組みを紹介する.2.広告効果計測手法
ユーザがモバイル広告をクリックし,その後のコン バージョンに至った際に,どの広告から流入したかを計 測するための手法はいくつか存在する.本項では主要な 計測手法の紹介をする. 2・1 Cookie 計測手法 図 1 が Cookie 計測手法の概要図である.ユーザが広告 をクリックした際のリダイレクトを利用し,ブラウザの Cookieに広告情報を書き込む.Cookie に書き込まれた 情報は,アプリケーションのインストール後の初回起動 時にブラウザを立ち上げることで取得し,どの広告から 流入したユーザかを判定する.事前に書き込まれた情報 をもとに広告の成果判定を行えるため,Cookie の有効 期限が続く限りの長期間で高精度な計測が可能となる. しかしながら,計測の仕組み上,ブラウザが立ち上がっ てしまうため見栄えが悪く,広告クリック時のブラウザ と立上げ時のブラウザが同じでなければ計測できないな どの課題がある.ユーザエクスペリエンスを重要視する Appleはこうした挙動を行うアプリケーションをアプリ ケーション審査時のリジェクトの対象としており,こうスマートデバイスアプリケーションにおける
効果計測への取組みと展望
An Approach to Ad-Tracking and Analyzing for Smart Device
Applications
玉川 奨
株式会社 CyberZSusumu Tamagawa Cyber Z inc.
[email protected], https://cyber-z.co.jp/
Keywords:
advertising, tracking, analytics, fingerprinting, machine learning.「広告と AI」
*1 Cost Per Click,クリック数に応じてかかるコスト *2 Cost Per Install,インストール数に応じてかかるコスト *3 Cost Per Acquisition,特定の成果に応じてかかるコスト
した点からも,以前は最も利用される計測手法であった が,近年では徐々に減少傾向にある. 2・2 広告 ID 計測手法 図 2 が広告 ID 計測手法の概要図である.広告での利用 目的の ID として,Apple(iOS 端末)では Identification For Advertisers(IDFA),Google(Android 端末)では Google Advertising ID(AdID)と呼ばれる広告 ID を提 供している.広告 ID 計測は,この広告 ID をユーザが 広告クリック時に取得可能な場合に,広告配信者側から 計測サーバに送ってもらい,ユーザの初回起動時の ID と照会することで,どの広告から流入したユーザかを判 定する手法である. プラットフォームである Apple や Google が提供する IDであるため信頼性は高いが,ユーザの設定により, 取得できないようにしたり,変更したりすることが可能 である.加えて,広告 ID はブラウザから取得できない ため,Web に表示される広告には利用できないという課 題がある. 2・3 リファラ計測手法 図 3 がリファラ計測手法の概要図である.Google が 提供している Google Play Store に遷移した際にリファ
ラ情報*5を付与することで,アプリケーションインス
トール時に付与した情報を受け取ることができる機能を 利用した計測手法である.ユーザが広告をクリックし, Google Play Storeに遷移した際に,広告の情報を付与 しておき,アプリケーションインストール時に事前に付 与したリファラ情報を取得することで,ユーザの流入情 報を特定することが可能となる. Googleのみが提供する機能であるため,iOS 端末で は利用できないが,信頼性が高いため,Android 端末で は主要な計測手法となっている. 2・4 Fingerprint 計測手法 図 4 が Fingerprint 計測手法の概要図である.個人情 報を用いずに,通信時に取得可能な情報を利用して,端 末を推定する Device Fingerprinting 技術*6が注目され
ている [Nikiforakis 13].この Device Fingerprinting 技 術を広告効果計測に利用した手法が Fingerprint 計測手 法である.広告クリック時に取得可能な端末に関する情 報とアプリケーションインストール時に取得可能な端末 に関する情報を照会し,その整合性から広告をクリック したユーザを推定することでユーザの流入情報を計測す る.これまでの計測手法と違い,ユーザを推定するに過 ぎないため,精度の問題があり,機械学習により精度向 上を行うことが一般的になっている. § 1 コリジョンとディビジョン Fingerprint計測では,図 4 の A と B でユーザが同一 であるかどうかを推定し,ひも付けを行うが,ひも付け が不正に行われてしまう事象として,コリジョンとディ ビジョンに大別される.コリジョンは異なるユーザであ り,本来ひも付けがされるべきでない A と B がひも付 かれてしまう事象のことであり,ディビジョンは同一の ユーザであり,本来ひも付けされるべきである A と B がひも付かれない事象のことである.基本的に,コリジョ ンとディビジョンはトレードオフの関係となっており, Fingerprint計測ではコリジョンとディビジョン双方の 発生をいかに減らすかが計測精度向上の鍵となる. コリジョンが発生してしまうケースとして,特徴量と 図 2 広告 ID 計測手法の概要図 図 4 Fingerprint 計測手法の概要図 図 3 リファラ計測手法の概要図 *5 アクセスログの一種で,リンクにより画面遷移した際のリン ク元のページ情報. *6 端末から取得可能な個人情報にならない情報を利用し,端末を推測により特定する技術.
して扱う変数の範囲が小さい場合があげられる.例えば iOS端末は Apple のみが提供しているため,端末の種類 が限られており,Android 端末に比べて,圧倒的に端末 の種類数が少ない.加えて,iOS バージョンのメジャー アップデートの普及率は Android に比べて非常に早い という傾向がある.図 5 に iOS の普及率の推移を示し た(CyberZ 調べ).リリース後 2 週間で全体の 25%,4 週間で全体の 50%のユーザはアップデートを行ってい ることがわかる.Android の場合はアップデートを行う ユーザは 1 年間で全体の 25%程度であり,iOS との差 が顕著に見受けられる.こうした背景もあり,特徴量の 一つとして端末の差異を定義した場合,端末のモデルや OSバージョンの違いによるユーザの識別が難しく,必 然的に iOS の場合にコリジョンは増加する. ディビジョンが発生してしまうケースとしては,時間 経過などの要因により,重み付けが強い変数が変化して しまう場合などがあげられる.IP アドレスはその最た るものである.モバイル通信における IP アドレスは接 続地点や時間によって変化してしまうため,広告クリッ ク時とアプリケーションインストール時で IP アドレス が違うことで,別のユーザとして判定されてしまう.そ のため,一般的には判定時の時間間隔が長ければ長いほ どディビジョンは増加する. § 2 Fingerprint 計測の事例と検証 Bodaらは,異なるブラウザ間で,ブラウザから取得 可能な IP アドレス,フォントセット,タイムゾーン, 画面解像度などから,ユーザを識別する手法を提案して おり,主要な Web ブラウザのほとんどにおいて,これ らの項目はユーザを一意に識別するのに十分であること を証明した [Boda 11]. Kurtzらは,iOS から取得可能な 29 の異なる個人の 設定情報から,ユーザを推定する手法を提案しており, 教師あり学習アプローチにより,97%という高い精度で, 端末を識別可能であると証明している [Kurtz 16]. 図 6 に IP アドレスと時間を特徴量とした非常にシン プルなモデルを適用し,10 000 件のひも付けに対する正 誤を判定した際の精度を示した.x 軸は精度,y 軸は広 告クリック時からアプリケーションインストールまでの 日数を示している.IP と時間のみを特徴量とした際も, 期間が短い場合は 7 割近い精度があるが,日数が経つに つれ指数関数的に精度が低下していることがわかる.国 内でのモバイル通信時に 4G/LTE を利用している場合に 限っていえば,IP アドレスはひも付け精度向上には強 い影響力があるといえる. しかしながら,最近はフリー Wi-Fi スポットが広がり を見せており,アプリケーションをインストールする際 に Wi-Fi 経由でインストールする傾向が増えており,そ うした際には,IP アドレスやネットワークの情報が同 一になってしまうため,コリジョンとして誤ってひも付 かれてしまう可能性がある.加えて,IP の変動はキャ リアによって特徴が違うことも課題としていえる.図 7 に各キャリアでの IP アドレスの変動を検証するために, 広告クリック時とインストール成果発生時の IP アドレ スをサンプリングし,その一致割合を示した.x 軸は一 致割合〔%〕,y 軸は分単位での時間の間隔を示してい る.docomo や softbank に比べ,au では IP の変動間隔 は早いことがわかる. 広告効果計測に Device Fingerprinting 技術を適用す る際は,特徴量として何を選択するかだけでなく,市場 の変化に適用しやすいように,変化が激しいモバイル広 告の特性に合ったモデルを適用しなければならない.加 えて,広告効果計測は即時性と精度を求められる領域で あるため,学習にかかるコストを極力低く抑えつつ,精 度向上をしていくことが今後の課題といえる. 2・5 広告効果計測手法のまとめ 本稿で紹介した手法以外にも,広告配信面であるメ
図 5 iOS の普及率の推移 図 6 IP と時間を特徴量とした Fingerprint 精度
ディアが独自に提供している手法や本稿で紹介した手法 から派生した手法がいくつか存在する.しかしながら, 現状,すべての計測手法はメリットとデメリットが存在 しており,単一の計測手法を用いるのではなく,用途に 応じて選択ないし複数を組み合わせて広告効果を計測す ることが一般的となっている. とりわけ,プラットフォームなどによる依存性が低く, 個人情報保護の観点で安全であり,今後学習モデルの向 上により,さらなる精度向上が見込まれる Fingerprint 計測手法は注目されている.
3.広 告 効 果 予 測
近年,ビッグデータを分析するための情報インフラが 比較的安価で提供されるとともに,TensorFlow を筆頭 にした機械学習系ライブラリが数多く提供されることで, 機械学習への参入障壁が下がっている.これに伴い,機 械学習を用いた広告の効果予測への需要が高まっている. 本章ではモバイル広告の効果予測の事例として,テレ ビ CM 効果予測と売上予測についての事例を紹介する. 3・1 テレビ CM 効果予測 近年,モバイルアプリケーションのテレビ CM は増 加傾向にある.ユーザの購買行動の促進や企業のブラン ディング戦略としてのテレビ CM 配信だけでなく,より 直接的にテレビ CM を配信したことでどれだけのユーザ がアプリケーションをインストールしたのかを計測した いという需要が高まっている.しかしながら,ユーザの モバイル端末上で広告クリックからアプリケーションイ ンストールまでを一貫するモバイル広告と大きく違い, モバイル端末とテレビというデバイスをまたいだ効果の 計測は難易度が高いといえる. 従来のテレビ CM の効果計測に関する研究はアンケー トやインタビューにより,テレビ CM のイメージを計測 するものが多い [Aaker 81,Schlinger 79].これに対し, 上原らは,SNS などのオンラインコミュニティから得 られる関心度と時間的な変動からテレビ CM の効果計測 を試みている [上原 08].しかしながら,インストール 数などのより具体的な数値としてテレビ CM の効果を分 析している研究はほとんどない. § 1 自然流入数の予測 テレビ CM による広告効果を予測するために,自然流 入数を下記の仮説のもとに予測した.ここで自然流入数 とは前章の広告効果計測によるモバイル広告以外からの 新規インストールのことをいう. ● テレビ CM により自然流入数が増加する. ● 自然流入数はテレビ CM 放送回数もしくは GRP*7 に依存する. ● 自然流入数はストアのランキングに依存する. ● 自然流入数はリリース日からの経過日数に依存する. これらの仮説から,被説明変数である自然流入数は下 記の説明変数から求められると定義し,自然流入数を重 回帰分析により推測する.リワード*8広告による露出が 間接的にランキング上昇に影響を与えるため,ランキン グへの影響値を算出するための代替的な数値として,リ ワード広告からの流入数を説明変数として加えている. ● テレビ CM 放送回数 or GRP ● リワード広告からの流入数 ● リリース日からの経過日数 図 8 に,上記により算出した結果を示す.激しくスパ イクして最高到達点が見切れている線(黒色)が実際に 計測した自然流入数,その次にスパイクが激しい線(青 色)がリワードからの流入数,グラフ中間から右肩下が りに下がっている線(赤色)が重回帰分析で推測した自 然流入数,一番下に 6 月末から 7 月中頃にかけて上昇が 見られる線(緑色)がテレビ CM 流入数の推測値である. 実際の自然流入数と重回帰分析で推測した自然流入数を 比べると,波形の傾向として近しくはなっているが,実 際のスパイクを吸収しきれておらず,上記説明変数だけ では,まだまだ不十分であるといえる. 実際の自然流入の傾向を見ていると,季節的な要因の 影響は大きい.休日は平日に比べてインストールが伸び る傾向があるためである.こうした時系列情報を加える 必要がある. § 2 テレビ CM 効果予測と展望 図 9 に実際のサービスイメージとして,広告効果計測 ツール「F.O.X」での管理画面の画面を示した.時系列 情報を考慮するために,実際のサービスでは状態空間モ デルを適用し,テレビ CM による流入数を予測している. どの程度がテレビ CM からの流入数なのか計測する方 法がないため,残念ながら,実際にどの程度正確なのか を判断するすべは現状のところない.しかしながら,こ *7 一定期間に流した CM1 本ごとの視聴率の合計(延べ視聴率). *8 成果報酬型広告の一種. 図 8 重回帰分析による自然流入数の予測れまで定性的にしか評価できなかったテレビ CM による 影響値を数値として,試験的ではあるが,提供を行って いる点が重要である. 今後はテレビ CM の地域別の配信情報を利用して,地 域別に効果を予測したり,リアルタイムなストアのラン キング情報を利用してストアランキングからの自然流入 数を予測したりすることで,テレビ CM による流入数の 精度を高めていきたい. 3・2 売 上 予 測 アプリケーションをインストール後のユーザの動向 を予測することは,広告活動時の検討事項として重要で ある.とりわけ売上は企業活動での最重要な KPI とし て利用されることが多く,売上の予測は今後どういった ユーザを獲得するべきかの判断材料として有用である. § 1 売上変動予測 今回の実験では,売上を数値の予測ではなく,売上が 「上がる」,「下がる」,「変わらない」のラベルの問題と 置き換えて,n 日間の売上からその後 n 日間の売上がど のようになるかを予測した.対象データとして表 1 の各 指標を 1 日ごとに取得し,倍率 1.2 倍以上の場合を「上 がる」,倍率 0.8 倍以下の場合を「下がる」と定義している. 図 10 に F 値により,各日数を評価した結果の一部を 示す.いくつかの学習器を利用してみたが,あまり大き な違いは見られず,平均的に F 値 0.6 近辺での推定精度 となった.全体の傾向として,7 の倍数日の精度が高く なる傾向があり,おそらく休日はインストールと同じく 売上が伸びやすいという曜日による傾向があるためだと 考えられる.評価値が良いアプリケーションと悪いアプ リケーションがあり,配信期間によって,リリース後ま もないアプリケーションは変動も大きく,リリース後し ばらくたったアプリは安定してくる傾向があるためだと 考えられる.また,評価値が良いが分類がうまくいって いないケースがいくつか見られたが,事前に定義した倍 率をラベルと定義したため,「上がる」もしくは「下がる」 の分類に特化してしまったものと,「変わらない」に特 化してしまったものが多く見られたためである. 決定木による特徴量選択を行い,今回利用した指標の 中でどの特徴量の重要度が高いかを算出した.図 11 に その結果を示した.伸びている指標は「合計課金額」,「課 金回数」,「課金ユーザ数」と課金周りの特徴量の重要度 が高い結果となった.逆にインストールユーザ数はあま り重要ではないことがわかった. § 2 売上予測の展望 今回は,売上の実数値を予測することはせず,売上 の傾向を予測した.F 値も 0.6 近辺とあまり高くはない
*9 Average Revenue Per Paid User
図 10 売上傾向予測の評価結果の一部 図 11 決定木による特徴量選択の結果 図 9 テレビ CM 効果予測サービス(F.O.X) 表 1 売上予測に利用した指標一覧 総ユーザ数 総セッション数 一人当たりの平均セッション数 課金ユーザ数 総課金額(売上) 課金ユーザ当たりの平均課金額(ARPPU*9) 総課金回数 課金ユーザ当たりの平均課金回数 インストールユーザ数 広告経由のインストールユーザ数
結果となっている.売上は休日やアプリケーションごと のイベントなどが変動に大きな影響を与えるため,今回 のラベルのように,条件をよりアプリケーションごとに 最適化する必要がある.加えて,指標についても今回は 10個程度の指標を利用したが,よりデータを細分化し てやる必要があるといえる. 実際に,当月 5 日までの売上から月末の売上を予測す るといった別の実験では,アプリケーションごとの特性 と指標を最適化することで 90%以上の精度で月末の売 上を予測できている.今後もこうしたアプリケーション をインストール後のユーザの動向を予測することで,広 告のプロモーション時のサポートを行っていきたい.
4.お わ り に
本稿では,モバイル広告における広告効果計測技術の 現状と,AIの要素技術を用いた取組みを紹介した.スマー トフォンをはじめとしたスマートデバイスでのモバイル 広告の市場は毎日のように新しい商品が生み出されてお り,広告主のニーズもどんどん変化している.この高速 な変化に対応し,広告効果計測も既存サービスの向上だ けでなく,新しい取組みをしていかなければならない. 精度が高く,計測漏れが少ない従来の手法だけでなく, Fingerprint計測のような推定が必要なものや,デバイ スを横断したユーザの行動,売上などの未来のユーザの 行動を予測するといった確実でない事象の計測について は機械学習をはじめとした AI の要素技術が生きる領域 であり,まだまだ始まったばかりの分野である. 膨大なデータがあり,情報インフラが整ってきた広告 効果計測の領域で,どのような需要があり,どう仮説を 立て,どういうデータを利用して,どうモデル化し,ど ういう形でサービスを提供していくのかを考えると選択 肢が多く,無限の可能性を秘めているといえる.変化の 流れが激しいこの市場を理解し,時に愚直に,時に柔軟 に研究に取り組める臨機応変な研究者が求められてい る.そのうえで,研究と開発の PDCA を高速に回して いくことが勝利鍵になることは間違いない.◇ 参 考 文 献 ◇
[Aaker 81] Aaker, D. A. and Bruzzone, D. E.: Viewer perceptions of prime-time television advertising, J. Advertising Research (1981)
[Boda 11] Boda, K., Földes, Á. M., Gulyás, G. G. and Imre, S.: User tracking on the web via cross-browser fingerprinting,
Nordic Conf. on Secure IT Systems, pp. 31-46, Springer Berlin
Heidelberg(2011)
[CyberZ 15] 2015年のスマートフォン広告市場規模は 3,717 億円, 前年比 123.6% 2020 年の市場規模は 2015 年の約 2 倍,7,527 億円と予測,https://cyber-z.co.jp/news/research/ 2016/0420_3573.html(2015)
[Kurtz 16] Kurtz, A., Gascon, H., Becker, T., Rieck, K. and Freiling, F.: Fingerprinting mobile devices using personalized configurations, Proc. on Privacy Enhancing Technologies, Jan. 4-19, 2016(2016)
[Nikiforakis 13] Nikiforakis, N., Kapravelos, A., Joosen, W., Kruegel, C., Piessens, F. and Vigna, G.: Cookieless monster: Exploring the ecosystem of web-based device fingerprinting,
IEEE Symp. on Security and privacy(SP) 2013, pp. 541-555 (2013)
[Petris 09] Petris, G.: dlm: An R Package for Bayesian Analysis of
Dynamic Linear Models, University of Arkansas(2009) [Schlinger 79] Schlinger, M.: A profile of responses to
commercials, J. Advertising Research, Vol. 19, pp. 37-46(1979) [上原 08] 上原 宏,藤 忠彦,吉田健一:インターネット・コミュニ ティ・データを使ったテレビ CM の商品イメージ形成効果測定, 人工知能学会論文誌,Vol. 23, No. 3, pp. 205-216(2008) 2017年 5 月 21 日 受理