情報掲載サイトのコンテンツ順序決定評価モデル
An Evaluation Model for Order-decision Methods of Contents in Information
Publication Sites
森 正人
1*倉橋 節也
1Masato Mori
1, Setsuya Kurahashi
11
筑波大学
1
University of Tsukuba
Abstract: Web sites called an information publication site provide information to people looking for a job,
a home and so forth. Companies that want to display their products or services on the sites pay adver-tisement rates for administration companies of the sites, such as a job offer site and a real estate site.
In this study, we consider how to decide the display order of products for publication on list pages of contents in information publication sites. The order should be desirable not only for advertisers, but likewise for users.
First, we show a result of a regression analysis between display order and page views. Second, we de-fine User Popularity Degree using the analysis. Finally, we employ agent-based modelling to simulate the websites in which web contents are defined as agents bidding advertisement rates for getting the op-timised or effective display orders autonomously.
1 はじめに
1.1 情報掲載サイトとは
情報掲載サイトと呼ばれる Web サイトがある.情 報コンテンツの掲載に対して課金するもので,求人 や不動産サイトが代表的である.採用意欲のある企 業や不動産会社等の情報コンテンツを持つ企業が, 情報集合サイト運営企業に広告料金を支払い,その コンテンツを掲載する仕組みとなっている.本研究 は,情報掲載サイトのコンテンツ一覧ページにおい て,ユーザーと広告主にとって望ましく,サイト運 営社にもメリットのあるコンテンツ順序決定方法を 探求する. これらのサイトは,ある一定期間の掲載を申し込 む形で商品を提供している.1 ヶ月や 3 ヶ月などの 契約期間だけ,広告主の情報コンテンツが掲載され る.いわば広告掲載である.この商品はパッケージ 化されており,各広告主が掲載できる最大文字数や 写真数,アピール項目の設定数は同一である.価格 も同一である.ただし,プレミアムな高額商品と簡 易な低額商品という差はあり,高額商品の方が多く の情報や写真を掲載できる.バナー掲載等のオプシ ョン商品もあるが,オプションに触れることは本筋 ではないため省略する. サイト運営社は多数の広告主から集めた掲載料金 をもとに大規模なマーケティング活動を行い,ユー ザーを集めている.各広告主が個別にマーケティン グ予算を費やすよりも費用対効果のよい集客を提供 しているのである.このコンテンツ掲載広告型のビ ジネスは,業界では情報掲載ビジネスと呼ばれてい る.そして,その Web サイトを情報掲載サイトと呼 ぶ.1.2 不動産情報サイトの特徴
情報掲載サイトのビジネスモデルは,求人情報サ イトも不動産情報サイトも基本的に同じである.そ のため,以降は不動産情報サイトについて述べるこ とにする. 居住物件を探しているユーザーが Web 検索やイン ターネット広告等の何らかの経路で不動産情報サイ トを見つけ,アクセスする.そして自分が希望する 物件の住所や価格,間取り等により絞り込みを行う. ―――――――――― *連絡先:筑波大学大学院 ビジネス科学研究科経営システム科学専攻 〒112-0012 東京都文京区大塚 3 丁目 29-1 E-mail:[email protected]その状態で検索をかけると,絞り込んだ条件に合致 する物件一覧が表示される.その一覧ページには物 件の名称や写真,価格,最寄り駅,詳細情報へのリ ンク等が表示されている.間取り図や設備等の詳細 な情報を確認したい物件があれば,そのリンクをク リックする.詳細情報のページを確認した後,資料 請求や内覧したい場合は,個人情報を送信するペー ジへと遷移する.この個人情報の送信が完了するこ とをコンバージョンと言う(図 1 参照).広告主が最 も欲しいのは,このコンバージョンである.次に求 めるのは,ユーザーがコンテンツを閲覧した(PV) 数を増やすことによる物件認知度向上である. 前述したように,情報掲載ビジネスは広告掲載型 である.ここ数年はコンバージョンに対して課金す る成果課金型ビジネスのサイトも出現しているが, 本研究は広告掲載型サイトについてのものであるこ とを明記する.
1.3 掲載順序
Web サイトではページの上部の方が下部よりも面 積当たりの価値が高い.一般的な Web サイトを考え て欲しい.ユーザーに対して最初に表示されるのは, ページの最上部である.画面をスクロールすると, 徐々にページ下部が表示される.そのため,画面の 上部の方が下部よりもユーザーの目に留まりやすい. これは Web サイトを管理運営する者にとっては共通 認識であるが,一般の方でも想像に易いのではない だろうか. 図. 1 にあるように,情報掲載サイトのコンバージ ョンは詳細ページを経て達成されることが多い.ま た,一覧ページから詳細ページを経ずに達成される 構造のサイトもある.つまり,一覧ページはコンバ ージョンへとつながる重要な経路となっている.そ の一覧ページにおいても,ページ上部に表示される コンテンツの方が,下部に表示されるものよりもユ ーザーの目に留まりやすい.また,コンテンツの数 が多くて 1 ページに収まらない場合は複数ページに わたって一覧が続くことになるが,1 ページ目の方 が 2 ページ目以降よりもユーザーの目に留まりやす い.つまり,掲載位置が上部であり,掲載ページが 前である方が,広告効果は高いということになる. 当然であるが,広告主はより上部に,より前のペ ージに掲載して欲しい.だが,順序は 1 から最後ま でついてしまうから,全部が最上位というわけには いかない.そのため,1 位のコンテンツと最下位の コンテンツでは,その広告効果には大きな差が出る. 同一価格の同一商品を購入した広告主からすれば, 幸運に上位掲載されて喜ぶこともあれば不満を持つ こともある.この不均等な広告効果をなるべく均一 化するため,サイト運営側は掲載順序の工夫をして いる.1.4 情報掲載サイトのコンテンツ掲載順序
以降で述べる掲載順序は初期設定の状態である. ユーザーによる並べ替え機能を使わない状態である ことに注意して欲しい. 情報掲載サイトの掲載順序において,最もよく見 られるのは新着順と呼ばれるものである.掲載を開 始した日が直近のものが上位に並び,以前からある ものは下位に沈んでいく.例えば,今月から掲載さ れたものの方が先月から掲載され続けているものよ りも上位に掲載される.どのコンテンツも新着であ る期間はあるため,上位表示される機会を均等にす るという面では機能する.しかし,同じ時期に掲載 開始したコンテンツ同士では,同一価格の広告主が 上位と下位に振り分けられてしまう.また,ユーザ ーの希望条件にどれくらい近いかどうかは考慮され ていない. 新着順と並んでよく見られるのが,商品価格順で ある.1.1 節で述べたように商品はパッケージ化され ている.その高額商品を上位に掲載し,低額商品は 下位に掲載するというのが価格順の掲載順序である. 広告主は経済的な理由から納得できる順序である. だが価格区分は多くのサイトでせいぜい 2,3 種類し かないため,多くの広告主が同じ価格である.その ため,根本的な解決にはならない.また,ユーザー の視点が欠けている点は新着順と変わらない. おすすめ順という掲載順序もある.これはサイト 運営側が推薦する順であり,恣意的な要素が大きい. 知名度やブランド価値が高いコンテンツを上位に並 べて華やかさを出すサイトがあるかもしれない.詳 細非公開の機械学習を行っていることもある.推薦 順序を決定するアルゴリズムが公開されていない以 上,評価は難しい. 最近は減っているが,五十音順を採用しているサ イトもある.広告主の企業名や物件名等による五十 音である.当然ながら不満を持つ広告主は多い上, TOPページ 一覧ページ 詳細ページ ユーザー コンテンツ1 コンテンツ2 コンテンツ3 … コンバー ジョン 絞 り 込 み 図 1: 不動産情報サイトユーザー視点も入っていない. ランダムに掲載順序を入れ替えているサイトも存 在しているだろう.だが,不遇を託つ広告主は多く, ユーザー視点も欠けていると言わざるをえない. 情報掲載サイトのコンテンツ一覧ページにおける 掲載順序はこのような状況であり,広告主やユーザ ーにとって必ずしも望ましいとは言えない.本研究 では ABM(Agent-Based Model)によるシミュレー ションを行い,この順序決定方法を考察する.コン テンツをエージェントとし,エージェントが自動入 札を行うことで掲載順序を決定する.コンテンツの ユーザー人気度や類似度も考慮し,ユーザーと広告 主に望ましい順序決定方法を見いだすことを目的と する.
2 先行研究
掲載順序が重要だとされるサービスで広く知られ ているもののひとつに,インターネット検索がある. 日本においては,Yahoo! JAPAN や Google の利用者 が多い.Search Engine Optimization(SEO)と呼ばれ る検索エンジン最適化は,その検索結果ページにお ける上位掲載を目的とした施策である.それは,上 位表示された方がユーザーの目に留まりやすく,ク リックされる確率が高いからである. この検索結果一覧ページには,広告表示枠が存在 する(図 2 参照).これは検索連動広告と呼ばれ,広 告主がキーワードに対して入札を行うものである. ユーザーが検索すると,その検索ワードに入札を行 った広告が表示される.そして広告がクリックされ ると広告主に対して課金される.検索連動広告は複 数表示される仕組みになっており,その表示順序は 入札価格やクリック率(CTR)によって決定される と言われている.この検索連動広告においても,広 告主は上位掲載を求めて入札価格を決めている.櫻 井らは,検索連動広告のアルゴリズムについての研 究を行っている[1].通常の第二価格秘密入札では正 直入札が最良の策であるが,検索連動広告に使用さ れ て い る 一 般 化 セ カ ン ド プ ラ イ ス オ ー ク シ ョ ン (GSP)では,過少申告によって期待効用が増加す る可能性があることを示している. 入札による表示順序決定方法は,別のインターネ ットサービスでも使用されている.AdNetwork と呼 ばれる広告配信ネットワークである.AdNetwork は, 広告掲載によって収益を得たい Web サイトを多数集 めてネットワークと化し,ネットワーク全体を広告 表示の対象とする.広告を出稿する側は AdNetwork 運営会社と契約すれば,個別サイトに広告掲載の申 込を行わなくてもネットワーク全体に対する広告掲 載が可能となる(図 3 参照). Mookerjee らは,米国の AdNetwork 運営企業であ る Chitika 社のサービスについて分析している[2]. Chitika 社は 10 万以上の Web サイトからなる巨大ネ ットワークを確立しており,その広告はクリック課 金である.Chitika 社は,サイト運営社が自サイトに 掲載する広告の平均クリック率(CTR)の閾値を設 定し,それを下回らないよう広告配信するサービス を提供した.クリック課金の広告の CTR が低いとい うことは,その広告が生む収益は少ないということ である.また,ユーザーが興味ない広告にスペース を割くことは,媒体価値の毀損である.高い平均 CTR を実現するためには,その広告に興味がある人に対 してしか広告を表示しないことになってしまう.そ うするとクリック数は少なくなり,収益も小さくな るというジレンマが生じる.Chitika 社は,収益の責 任を AdNetwork 運営側からサイト運営側へと移した のである.ジレンマの決定権をサイト運営側に持た せたこのモデルは非常に興味深い. 表示課金型の AdNetwork において,入札戦略につ いての研究を行ったのが Ghosh らである[3].ある入 札機会において落札できなかったとき,次回の入札 価格を 2 倍に増加させる戦略,自分が出せる最高価 格で入札する戦略,入札価格を指数的に増加させて いく戦略を用意した.1 回の広告表示に対して支払 える単価設定が低い場合,広告表示の獲得目標シェ アが高くなるにつれて,2 倍増加戦略の落札機会が 少なくなることを示した.また,最高価格入札と指 数増加戦略では,目標表示単価が低くても獲得単価 が高額になり過ぎることを示した.AdNetwork の環境を ABM(Agent-Based Model)で 構築し,入札戦略の違いによる結果をシミュレーシ ョンしたのは鍋田らである[4].Real-Time Bidding (RTB)というオークション取引において,どのよ うな戦略をとれば,より少ない金額で多くの商品を 検索結果ページ 広告枠 検索結果 広告枠 広告枠 広告枠 広告枠 図 2: 検索結果ページ AdNetwork Webサイト Webサイト Webサイト 広告 ユーザー 広告主 図 3: AdNetwork
落札できるのか考察している.RTB とは,ユーザー が Web サイトに訪れた際,そのユーザーのクリック 履歴や広告主の業種等の情報を加味して自動入札を 行うもので,多くの AdNetwork で採用されている. 鍋田らはエージェントに正直モデル,確率モデル, 競り上げモデル,学習モデルといった入札戦略を設 定し,シミュレーション実験を行った.
3 データ
本研究の目的は,情報掲載サイトのコンテンツ一 覧ページにおいて,ユーザーと広告主にとって望ま しく,サイト運営側にもメリットのある掲載順序を 研究することである.1 章で説明したコンテンツを エージェントとし,ABM のモデルを構築して入札に よる順序決定手法を検証する.データは以下の 2 種 類用意する.3.1 物件データ
コンテンツの掲載内容と獲得している掲載順位を 取得するため,Web スクレイピングのプログラムを 作成した.簡易的な Web クローラーである.そのク ローラーを 1 日おきに実行し,ある不動産サイトの 東京都の物件情報を取得した.そのデータの一部が 図 4 である.物件 ID,物件名称,住所,最寄り駅, 戸数,価格,間取り等を取得している.また,クロ ーラーはコンテンツ掲載順序が上のものから順番に 取得しているため,このデータは掲載順位順となっ ている.3.2 ページビュー(PV)データ
次に,この不動産サイトのページビュー(PV)数 のサンプルデータを用意した.物件 ID 単位で日次の 数字である.3.3 データの加工
3.1 節で取得した物件データから,掲載順位を知る ことができる.3.2 節の PV 数データと合体させるこ とで,何番目に掲載されていた日に,どのくらいの PV 数を獲得したかを導くことができる.これにより, 上位の掲載順位を得ていたにも関わらず PV 数が少 ない物件は,ユーザーにとって人気がないと言うこ とができる. 図 5 は,ある日の掲載順位(rank)とサンプル PV 数をプロットした散布図である.rank が大きくなる ことは,掲載順位が下がることを意味する.掲載順 位が下がると PV 数が減っていることが分かる.回 帰直線とその式も図 5 に示している.この直線より PV 数が多い,つまり上部にある物件はユーザー人気 度が高いと言うことができるだろう.例えば rank10 であれば,回帰値は y=-0.0054*10+6.2664 で 6.2124 となる.そして,(10 位の物件の PV)/(6.2124)をユー ザー人気度とする.この手法を用いることで,コン テンツがユーザー全体にどの程度人気があるのか知 ることができる. 取得したデータには,図 4 のように物件データも 含まれている.このデータをもとにクラスター分け し,物件をいくつかのカテゴリに分類しておく.こ の作成は今後取り組む予定である.4 シミュレーションモデル
本研究は,先行研究のモデルとは以下の点におい て異なる. まず,オークション対象の財が多数ある点である. AdNetwork の研究で言及されている財はディスプレ イ広告である.これは Web サイトの 1 ページに限ら れた数しか表示枠がない.そのため,落札できる広 告主も限られる.また,検索連動広告も表示枠数に 上限がある.それに対して,情報掲載サイトは全て の広告を表示するため,購入された広告の数だけ財 が存在する.全ての広告がいずれかの順位を得て, 財を獲得することになる. 次に,ユーザー人気度である. AdNetwork は個別 ユーザーのサイト訪問履歴やクリック履歴から入札 図 4: Web スクレイピング取得 data y = -0.0054x + 6.2664 R² = 0.2454 0 1 2 3 4 5 6 7 8 9 0 50 100 150 200 250 300 350 400 log_ PV rank 図 5: 掲載順位と PV の散布図価格を判断している.1 人のユーザーのクリック履 歴が十分な数の蓄積をされているとは限らず,誤差 が出やすいと言わざるを得ない.本モデルでは,3.3 節で述べた手法でユーザー人気度を算出する. そして,本研究で考察する入札モデルは図 6 のよ うな形で動くものとする.まずユーザーのアクセス が発生する.すると入札リクエストが発生する.そ れを受けたコンテンツエージェントは,入札価格を 決定して入札する.
4.1 簡易モデル
シミュレーションに際し,まずは簡易的なモデル を作成した.エージェント数は 10,入札発生回数は 10 とした.その 10 回の入札で使用できる予算はエ ージェント番号 1 から 6 が 1,000,7 から 10 が 500 とした.高額商品と低額商品をイメージしている. 各入札において,入札価格順に掲載順位を与えるも のとし,掲載順位 1 位には報酬 10,以降 1 ずつ減ら して 10 位が 1 とした.各エージェントの予算と入札 方法をまとめたのが表 1 である. この設定で 10 回実験を行ったところ,その報酬は 表 2 のようになった.右に列を進むごとに,1 回目 の実験,2 回目の実験となり,値は 1 回の実験当た り 10 回の入札を行った累積報酬である.そして,右 端に全 10 回の実験の合計を計算している. これを見ると,いずれも均等価格での入札を行っ たエージェント 1 の累積報酬が最大となっており, 一番の勝者ということになる.予算が少ないエージ ェント 7 から 10 の中でもエージェント 7 の累積報酬 が多く,均等価格での入札が最も優れているようだ.4.2 実験モデル
現在は実際のエージェントを設定し,実験用のモ デルを作成している.入札価格だけで掲載順位を決 定するモデル 1(表 3 参照)と,入札価格とユーザ ー人気度によって掲載順位を決めるモデル 2(表 4 参照)を作成した. まず,入札価格だけで掲載順位を決定するモデル 1 について説明する.最初に予算から入札価格を決 一覧ページ 掲載枠1 コンテンツ エージェント1 コンテンツ エージェント2 コンテンツ エージェント3 1 2 3 掲載枠2 掲載枠3 ユーザー 図 6: 入札発生フロー 表 1: 予算と入札方法 Agent No 予算 入札方法 1 1,000 予算を 10 回の入札に均等配分 2 1,000 均等価格に平均 0,標準偏差 1 の正規分布 乱数を乗算 3 1,000 均等価格に平均 0.5 の指数分布乱数を乗算 4 1,000 均等価格に平均 1.0 の指数分布乱数を乗算 5 1,000 均等価格に平均 1.5 の指数分布乱数を乗算 6 1,000 ランダムに入札価格を決定 7 500 予算を 10 回の入札に均等配分 8 500 均等価格に平均 0,標準偏差 1 の正規分布 乱数を乗算 9 500 均等価格に平均 1.0 の指数分布乱数を乗算 10 500 ランダムに入札価格を決定 表 2: 累積報酬一覧 1 2 3 4 5 6 7 8 9 10 合 計 エージェント 1 77 82 80 82 83 78 80 81 79 79 801 エージェント 2 73 72 75 68 69 73 64 63 74 68 699 エージェント 3 52 65 52 55 58 62 50 73 52 53 572 エージェント 4 64 52 56 61 66 68 65 46 54 61 593 エージェント 5 60 50 64 65 57 64 70 55 59 63 607 エージェント 6 54 55 32 44 41 34 37 52 47 45 441 エージェント 7 53 57 54 54 60 54 63 59 54 59 567 エージェント 8 46 49 56 43 53 51 53 50 47 47 495 エージェント 9 44 58 51 44 49 47 47 46 50 52 488 エージェント 10 49 29 47 38 39 38 35 35 37 38 385 表 3: 入札結果サンプル 1 物件 ID 予算 カテ ゴリ カテゴリ の過去 人気度 人気 度 入札 価格 係数 α ウェ イト 掲載 順位 PV期 待値 1 1,000 1 1.2 1.3 100 2 8.132 2 1,000 3 0.9 0.8 70 3 5.000 3 1,000 2 0.7 0.7 120 1 4.383 4 1,000 1 1.2 1.2 40 5 7.487 5 500 2 0.7 0.7 60 4 4.371 sum 4,500 4.7 4.7 390 15 29.37 4 1 2 3 4定するのだが,均等価格に一様分布の乱数を乗算し て算出する.そして,求めた入札価格が大きい順に 掲載順位を与える.それを 3.3 節で述べた回帰直線 の数式に代入して,掲載順位による PV 想定値を出 す.さらにその値にユーザー人気度を乗算して物件 別の PV 期待値を出す.3.3 節の数値を使って表現す ると,{(−0.0054)*(自分の掲載順位)+(6.2664)}*(自分 の人気度)という数式になる.なお,初回入札ではユ ーザー人気度が不明のため,その物件が属するカテ ゴリの過去人気度平均を使う. 入札価格とユーザー人気度によって掲載順位を決 定するモデル 2 では,入札価格とユーザー人気度を 用いてウエイトを算出する. ウエイトは (入札価 格)*(係数α)+(人気度)*β*{1-(係数α)}の数式にあ てはめるものとし,価格と人気度の数値スケールを 調整するための補正値βも用いる.そして,ウエイ トの大きい順に掲載順位を与える.以降はモデル 1 と同様である. 現在は,状況に応じた入札価格を強化学習してい くエージェントを作成している.ある時点での入札 価格とその結果としての掲載順位によって,次にユ ーザーが訪れたときに発生する入札での最適な入札 価格設定を学んでいくものである.この強化学習す るエージェントがユーザー人気度の高い物件なのか 低い物件なのか,そして学習エージェント数の設定 も変えてシミュレーションしたい.
5 むすび
実験を行った後,本モデルで考察した掲載順序決 定方法の結果を実際の掲載順序と比較する.そして ユーザーと広告主,情報掲載サイト運営社にとって より望ましいものとなっているか,またそれはどの ようなモデルかを検証する. ユーザーと広告主,サイト運営側の 3 者が望まし い状態とは,物件詳細ページの PV 数が最大化され た状態であるとする.広告主とサイト運営側は多く の PV を望むものである.そして PV 数が多い状態と は,ユーザーの気になる物件が多くて,閲覧した物 件詳細ページが増加した状態である.これは PV 数 が少ない状態よりもユーザー満足度が高い状態だと 言うことができる. 現在のところ大きな収益を生んでいる情報掲載ビ ジネスであるが,そのビジネスは成熟し模倣され, 大手各社は次の一手を模索している.だが,その大 きな収益があるがために,ビジネスモデルを変更し て課金モデルを変えることは難しい. 本研究の検証結果が有益なものとなれば,このよ うな市場環境にある情報掲載ビジネスをより成長へ と導く一つの可能性を指し示すことができる.参考文献
[1] 櫻井, 横尾: キーワード広告におけるゲーム理論・オ ークション理論, 人工知能学会誌, Vol. 136, No. 24(4), pp. 472- 480, (2009)[2] Mookerjee, Kumar, and S.Mookerjee: To Show or not Show: Using User Profiling to Manage Internet Advertisement Campaigns at Chitika, Interfaces, Vol. 42, No. xx, 5. 449- 464, (2012)
[3] Ghosh, Rubinstein, Vassilvitskii, and Zinkevich: Adaptive bidding for display advertising, Proceedings of the 18th international conference on World wide web, ACM, pp. 251 -260, (2009) [4] 鍋田, 山本, 吉川, 寺野: WEB 広告における実時間オ ークションのシミュレーションモデル, 計測自動制 御学会社会システム部会研究会資料, Vol. 5, pp. 13-22, (2014) 表 4: 入札結果サンプル 2 1 2 3 4 5 物件 ID 予算 カテ ゴリ カテゴリ の過去 人気度 人気 度 入札 価格 係数 α ウェ イト 掲載 順位 PV期 待値 1 1,000 1 1.2 1.3 100 0.5 83 1 8.139 2 1,000 3 0.9 0.8 70 0.5 55 3 5.000 3 1,000 2 0.7 0.7 120 0.5 78 2 4.379 4 1,000 1 1.2 1.2 40 0.5 50 4 7.494 5 500 2 0.7 0.7 60 0.5 48 5 4.368 sum 4,500 4.7 4.7 390 15 29.38 0