• 検索結果がありません。

Blog情報を利用した書籍需要予測モデル

N/A
N/A
Protected

Academic year: 2021

シェア "Blog情報を利用した書籍需要予測モデル"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

Blog

情報を利用した書籍需要予測モデル

Book Sales Prediction Model using Blog Information

菊田 剛

文 健哲

山田 隆志

吉川 厚

寺野 隆雄

Go Kikuta

Geun Chol Moon

Takashi Yamada

Atsushi Yoshikawa

Takao Terano

東京工業大学大学院総合理工学研究科

Abstract: 本稿では Blog 情報を先行指標とした書籍需要予測システムを作る事により, 書籍の適正需要数を把 握するシステムの構築を行う事を目的とする. そのため, 書籍売上数と書籍名を利用した Blog 検索 ヒット数との相互相関分析を行い, 両者の間には何らかの相関がある事を確認した. また, 本によって は先行指標になる可能性があるものの, 書籍名だけでは不十分なものもある事が分かった.

1

はじめに

出版業界には再販価格制度と委託制度という独自の 制度が存在する. 再販価格制度は書店側が書籍の値下 げが出来ないというもので, その結果在庫を抱えていて も値下げをして売りさばくという事は出来ない. 一方, 委託制度は書店は販売の委託をされているのであり, 書 店が本を購入して販売しているわけではない. その結 果, 書店側は品切れによる機会損失を減らすために安易 に過剰在庫策を採用する傾向がある. この結果, 図 1 に 示すように返品率は常に 40%程度になっている [1]. 返 品率を削減する事は出版元の損失のみならず, 書店側が 在庫コストを減らし経営的に安定するためにも重要な 課題である. 書店側が返品率を下げるためには, 制度的な面では無 理だとしても, 書籍の需要予測が可能になれば書店が入 荷数を調整し過剰在庫を抑え, 書店の経営コストを削減 する事ができる. このため, 書店が入手できる情報だけ で書籍の需要予測をする事が大切となる. 従来, 書店からの需要予測方法としては POS データ から予測するもの, 店頭でのアンケートやインタビュー で予測するものがあったが, 近年様々な商品の需要予測 をするにあたり Blog 情報を利用する手法が注目を浴び ている [3, 4, 5]. Blog には, 商品に関する話題や, 商品 購買者による商品の評判に関する記事などが多く含ま れており, それを見て購買する人が増えているといわれ ている. そのため Blog 情報を売上の先行指標として利 用する事ができると考えられる. そこで本研究では Blog 情報がどのくらい先行指標と して利用できるか, またどのような情報の整理をしない と有効に使えないかをまず調べることにした. 図 1: 書籍販売と返品率の推移 [1]

2

背景

出版業界は現在非常に厳しい状況にある. 市場規模 は 1996 年の 2 兆 6563 億をピークに減少が続き,2008 年には 2 兆 0117 億円にまで落ち込んだ. 市場縮小に加 え書店の店頭で売れないまま出版社へ戻される返品率 も上昇しており業界を圧迫している [2]. 出版社は売上が減少する中で上昇する返品率が利益 を圧迫しており, 返品率引き下げによるコスト構造改善 が必要になっている. また, 取次, 書店も同様の問題を抱 えている. 現在, 出版業界では “出版社”,“取次”,“書店” の三社 の利益を同時に改善することを目標に掲げており, その 中でも返品率の改善は絶対に取り組まなければいけな いテーマであるとされている [2]. 人工知能学会研究会資料 SIG-DMSM-A902-01 (10/18)

(2)

3

関連研究

Blog 情報を利用した書籍の売上ランキング予測の研 究は Gruhl ら [3] がある. この研究では Amazon1にお ける 2340 冊の書籍の 2004 年 7 月から 2004 年 10 月ま でのセールスランキングデータと Blog 情報とを利用し 以下の三項目にわたる研究を行っている. 第一に適切に生成したクエリから取得した Blog 情報 と Amazon のセールスランキングとの相関についての 解析, 第二にクエリの自動生成方法, 第三に需要予測シ ステムの開発である. 第一の結果として, 適切に加工し たクエリから得られるブログ情報は書籍の売上の先行 指標と成る事を確認している. 第二の自動クエリジェ ネレータは著者名を利用している. 英語の書籍の場合 著者名が同じ場合が多いため, 著者数が一人の場合と二 人の場合に分け, それに名字の頻出度を条件として利用 し著者の名字と名前を組み合わせたクエリを作成しな いと有用な結果が得られない. この結果, 手動でクエリ を作った場合と比較し全般的に低いものの, 場合によっ ては強い相関を示すものも出た. 第三の項目である需 要予測システムの開発では, 隠れ Markov モデルとバー スト手法 [6] を利用した書籍売上ランキングおよび書籍 ランキング急騰予測モデルの作成を行っている. 作成 した予測モデルをもとに Amazon におけるランキング を予測し実際の Amazon のランキングを用い, そのモ デルの検証を行っている. その結果, ランキングが如何 なる状況において急上昇するか把握する事にはある程 度成功している. 需要予測をするにあたりブログの検索ヒット数のみ を利用するだけでなく, 周囲のテキストコーパスを利用 する事により精度の良い予測を出来る事が Mishne ら [4] の研究により明らかになりつつある. この研究では 映画に対して好意的だと解釈している Blog 情報のヒッ ト数は単純な Blog 検索ヒット数を利用した場合と比較 して映画の売上げと強い相関関係がある事を確認して いる. Blog 情報と数理モデルを用いた需要予測に関する研 究としては吉田ら [5] がある. この研究の対象は映画で あり,Bass モデル [7] に Blog の口コミ情報を加えた数 式モデルを立てている. また,Blog 情報のポジネガ分析 を行いそれらの情報と興行収入との関わりについて解 析を行っている. Gruhl ら [3] の研究では Amazon における書籍売上 ランキングと Blog 情報との相関性について調査をして いるが, 書籍の売上数と Blog 情報に関する相関調査は 調べていない. また, クエリジェネレータおよび需要予 測モデルの作成を行っているが, これらの精度はそれほ ど高くは無く, また英語特有のものとして考えられるの で日本語に対応させる事が必要である. Mishne ら [4] 1http://www.amazon.com の研究では映画の需要予測をするにあたり,Blog のテキ ストコーパスを利用する事により精度が上がる事を示 しているが映画以外の対象においても適用可能かどう かは調査していない. そのため, 映画以外の対象にも調 査の枠を広げ汎用性のある現象かどうかを検証する必 要がある. こういった背景を踏まえ今回は Blog 情報が書籍需要 予測モデルを作成するにあたっての先行指標として役 に立つかどうかの検証を行う事にした. そこで, 今回は 書籍の売上数と Blog のキーワードヒット数との関係を 調べた.

4

書籍売上数と

Blog

情報の関係

4.1

利用データ

4.1.1 書籍売上データ 書籍売上数データは書籍取次会社から提供された夏 文庫売上データを用いた. 書籍数は 319 点, 期間は 2007/7/1 から 2008/9/30 までの 458 日, 書店数は 2477 書店である. 書籍は取次会社一社から仕入れたもので あり, 該当期間前に発売された書籍, 該当期間中に発売 された書籍の両方が含まれている. 表 1 に夏文庫売上数の概要を記す. また, 図 2 に上位 売上数から始まる夏文庫の書籍売上数の片対数グラフ を記す. 図 2 からはグラフの上位売上書籍の勾配が急 である事, その範囲は上位 5 書籍の 20000 から 60000 の範囲にある事が分かる. 今回の分析では上位売上 5 書籍に幅を持たせ, 全売上数の 20%に相当する上位売 上 10 書籍を解析の対象とした. 表 1: 夏文庫の書籍売上数 項目 売上数 (冊) 総売上本数 1407012 最大売上本数 56825 最小売上本数 292 平均売上本数 4411 4.1.2 Blog ヒット数

今回 Blog 検索を利用するにあたり,Yahoo! Blog 検

索2の日付指定検索を利用する事にした. 検索クエリに は書籍のタイトルを利用し, 書籍売上データとして存在 する 319 冊全てのタイトルをクエリとして適用した. な お,319 冊の内, タイトルが同じであり出版社が違う本が 16(8 × 2) 冊存在していたため, それらの重複を除き合 2http://blog-search.yahoo.co.jp

(3)

図 2: 夏文庫の書籍売上数の片対数グラフ 計 311 クエリを検索対象とした. 期間は書籍売上デー タと同じ 2007/7/1 から 2008/9/30 日までの合計 458 日. 取得データは各日付毎のクエリのヒット数とした. 表 2 に Blog 検索から取得した情報を記す. また, 図 3 に上位 Blog 検索ヒットクエリから始まる夏文庫書籍 名の Blog 検索ヒット数の片対数グラフを記す. 表 2: 夏文庫書籍名の Blog 検索ヒット数 項目 Blog ヒット数 総ヒット数 1545623 最大ヒット数 360228 最小ヒット数 0 平均ヒット本数 4970 図 3: 夏文庫書籍名の Blog 検索ヒット数の片対数グ ラフ

4.2

分析結果

4.2.1 上位 10 書籍売上数と Blog ヒット数 まず, 上位 10 書籍売上と書籍名を用いて Blog 検索 をした際のヒット数を表 3 に記す. また, 上位 10 書籍 の売上数と書籍タイトル名を用いて Blog 検索をした際 のヒット数との相関係数を表 4 に記す. 表 3 より見て 分かる事としては書籍の売上数が多いからといって必 ずしも Blog 上で話題になっているとは限らない, 例え ば “黒笑小説” の Blog ヒット数は 149 と書籍売上数の 19488 と比較すると相当少ない. 表 4 において. 最も相関係数が高かった項目は “憑 神” の 0.826, 低かった項目は “約束” の 0.152 である. 相関係数が高かった “憑神”,“西の魔女が死んだ”,“しゃ ばけ” はそれぞれ特徴的なクエリであり, 検索ヒット数 もそれぞれ 2408, 2321, 2408 と高い. また, 最も相関係 数が 0.152 と低かった “約束” は Blog 検索ヒット数は 211606 と高かったが一般的なクエリであるため, 該当 書籍に関わりの無い情報も多く取得してしまい相関係 数が低くなったのだと考えられる. 表 3: 上位 10 書籍売上数と Blog ヒット数 書籍名 書籍売上数 ヒット数 西の魔女が死んだ 58825 2322 さまよう刃 43982 416 グラスホッパー 34564 1278 蟹工船・党生活者 33530 244 重力ピエロ 21908 687 黒笑小説 19488 149 しゃばけ 18506 2413 憑神 18082 1188 サウスバウンド 上 17941 203 約束 17251 211987 表 4: 上位 10 書籍売上数と Blog ヒット数との相関係数 書籍名 相関係数 西の魔女が死んだ 0.784 さまよう刃 0.549 グラスホッパー 0.312 蟹工船・党生活者 0.587 重力ピエロ 0.274 黒笑小説 0.405 しゃばけ 0.725 憑神 0.826 サウスバウンド 上 0.330 約束 0.152

(4)

4.2.2 上位 10Blog ヒット数と書籍売上数 次に上位 10Blog ヒット数と書籍売上数を表 5 に示す. 表 5 を見て分かる事としては, 上位 Blog ヒット数を記 録したクエリは “恋”, “約束”,“GO” のように一般的に 使われる単語が殆どである事があげられる. これらの クエリを用いて取得した Blog データの中で該当書籍に ついて触れている Blog 数はそれほど多くないと考えら れる. 書籍に該当したデータを精度よく取得するため には, クエリに適宜書籍に関わりのある “著者名” や “ 出版社名” などをつけたす必要があると考えられる. 表 5: 上位 10Blog タイトルヒット数と書籍売上数 クエリ ヒット数 書籍売上数 恋 360228 1109 約束 211987 17251 GO 200263 3044 キッチン 99851 2241 ふたり 91565 1178 こころ 69604 10481 バッテリー 51552 11897 友情 42737 1134 ナイフ 40270 4158 バッテリー 2 30182 9914 4.2.3 書籍の個別解析 次に特定の本についての日付毎の売上げと Blog ヒッ ト数との関わりについての解析を行う. 使用するデータ としてまず, 最も書籍の売上数の多かった “西の魔女が 死んだ” を利用する事にする. 解析したものは, 書籍売 上と Blog ヒット数との時系列グラフ, 散布図,Blog ヒッ ト数を基準とした相互相関係数グラフ, および相互相関 係数表である. 結果を図 4,5,6, および表 6 に示す. 書籍 の売上数と Blog 検索ヒット数の相互相関係数を意味し ている表 6 は, Blog 検索ヒット数を基準としているの で Lag がマイナスの傾向が強いのであれば Blog が先 行している事を意味する. 相互相関係数のピークは-14 日の時で値は 0.846 である. また, 相互相関係数が 0.6 以上の区画は-47∼15 であり先行指標として 47 日前か ら利用できる可能性がある. 表 6: “西の魔女が死んだ” の相互相関係数表 ピーク 相互相関係数 0.846 0.6 0.7 0.8 Lag(日) -14 -47∼15 -36∼6 -28∼0 次に上位 10 売上書籍の中で最も相関係数の高かった “憑神” の解析を行う. 結果を図 7,8,9, および表 7 に示 図 4: “西の魔女が死んだ” の書籍売上と Blog ヒット数 図 5: “西の魔女が死んだ” の散布図と回帰曲線 す. 図 7 から見て分かる事としてまず, “西の魔女が死 んだ” と同様書籍の売上数と Blog 検索ヒット数とのグ ラフの形状はよく似た時間変動をする事が挙げられる. 次に, 相互相関係数に関する解析を表 7 により行う. 憑 神は相互相関係数のピークが 0 日にあり値は 0.811, つ まり同期して起きている事が分かる. また, 相互相関係 数が 0.6 以上の区画は-9∼7 であり先行指標として 9 日 前から利用できる可能性がある. 表 7: “憑神” の相互相関係数表 ピーク 相互相関係数 0.811 0.5 0.6 0.7 Lag(日) 0 -15∼10 -9∼7 -5∼2 次に上位 10 売上書籍の中で “約束” の次に 0.312 と 相関係数が低かった “グラスホッパー” の解析を行う. 結果を, 図 10,11,12, および表 8 に記す. グラフ 10 をみ て分かる事としては書籍売上数は 2007/7/1 付近でピー クであり, それ以降は急下降している事,Blog 検索ヒッ ト数のグラフはあまり特徴的な傾向は見られない事が

(5)

図 6: “西の魔女が死んだ” の相互相関係数グラフ 図 7: “憑神” の書籍売上と Blog ヒット数 挙げられる. 次に, 相互相関係数に関する解析を表 8 に より行う. グラスホッパーは相互相関係数のピークが-1 日にあり値は 0.293 である. また, 相互相関係数が 0.3 以上の区画は存在せず先行指標として利用できる可能 性は少ない. 表 8: “グラスホッパー” の相互相関係数表 ピーク 相互相関係数 0.293 0.1 0.2 Lag(日) -1 -24∼22 -11∼9 4.2.4 上位 10 書籍売上数と Blog ヒット数との最大 相互相関係数 次に, 表 9 に上位 10 書籍売上数と Blog ヒット数との 最大相互相関係数表を示す. 表 9 から見て分かる事と 図 8: “憑神” の散布図と回帰曲線 図 9: “憑神” の相互相関係数グラフ しては,“西の魔女が死んだ” のように最大相互相関係数 のピークが 0.846 と高く, その時の Lag が-14 日と Blog が売上に先行しているものがあること, また全体傾向 として最大相互相関係数が高い “西の魔女が死んだ”,“ しゃばけ”,“憑神”, “蟹工船・党生活者” などは Lag0 以 下の時に最大相互相関係数を得ている事から, 先行指標 として使えそうな事が分かる. “さまよう刃”,“黒笑小 説”,‘サウスバウンド 上 ‘などは今回の情報だけでは傾 向が把握しきれないのでクエリを調整して再度実験を 行う必要がある. また,“グラスホッパー” と “約束” は Blog 取得情報にノイズが多く, 書籍に該当する情報は 少ないと考えられるので最大相互相関係数が低かった 事, また “重力ピエロ” のようにノイズ情報少なさそう なクエリにも関わらず最大相互相関係数が低いものの 存在が確認された. 以上の事から, 上位 10 書籍の中で 先行指標として利用できそうなものが 4 つ, クエリを調

(6)

図 10: “グラスホッパー” の書籍売上と Blog ヒット数 図 11: “グラスホッパー” の散布図と回帰曲線 整して再度検討を行う必要があるものが 3 つ, ノイズが 多く分析の意味をなさないものが 2 つ, 全く相関が無 かったものが 1 つ確認された. 今後更に調査をするにあたっては, クエリの調整や書 籍の販売日などを考慮した解析が必要になると考えら れる.

5

結論と今後の展望

本研究では書籍売上数と書籍タイトルを利用して取 得した Blog ヒット数との関係を調べた. その結果, 書 籍売上数と書籍タイトルを検索クエリとした際の Blog ヒット数とはそれなりに相関関係がある事が判明した. また, 書籍需要予測システムを作るにあたり,Blog 情報 の先行指標としての可能性も見い出す事ができた. 今後 Blog 情報を用いた本の需要予測モデルを作成す るにあたり重要となる事は以下の三点に有ると考えら れる. まず第一に書籍売上数と Blog 情報の統計解析および 図 12: “グラスホッパー” の相互相関係数グラフ 表 9: 上位 10 書籍売上数と Blog ヒット数との最大相 互相関係数 書籍名 最大相互相関係数 Lag(日) 西の魔女が死んだ 0.846 -14 さまよう刃 0.566 9 グラスホッパー 0.293 -1 蟹工船・党生活者 0.608 -3 重力ピエロ 0.275 0 黒笑小説 0.556 6 しゃばけ 0.773 -1 憑神 0.811 0 サウスバウンド 上 0.467 29 約束 0.137 13 機械学習手法の適用である. 今回は両者のデータの関係 性についての相互相関解析を行ったが, 今後は時系列解 析などを行う事などして, より詳細な解析をしていく必 要がある. 第二に適切なクエリを用いた Blog 情報の取得およ び Blog テキストデータの解析. 今回 Blog 情報を取得 するにあたって, 書籍のタイトルをそのままクエリとし て利用したが, この手法では該当書籍に関わりのない Blog 情報を多く取得してしまうという欠点が有る事が 分かった. よって該当書籍に関わりにのない Blog 情報 はサブクエリをつけたすなどしてフィルタリングを行 う必要が有る. また, データの関係を把握するにあたり 今回は Blog のヒット数を利用するに留まったが周辺の テキストの解析を行う事により, より有用なデータを取 得する事ができると考えられる. 第三に数式モデルなどを利用した需要予測モデル作 成, およびそのモデルの実データを用いた検証である. 今回は書籍売上数と Blog ヒット数とのデータの関係性

(7)

についての関わりを見るだけに留まり, 実際に需要予 測モデルを構築するという所までには到達しなかった. そのため今後は既存の需要予測モデルを利用した需要 予測モデルの作成およびそのモデルの検証を行い, その 結果を元に適切な書籍需要予測モデルの作成を行う必 要がある. これらの課題をクリアする事が今後書籍の需要シス テムを作る上で重要になると考えられる.

参考文献

[1] 2008 出版指標年報, 出版法人全国出版協会 出版 科学研究所, pp.3-5, 2008. [2] 週刊 東洋経済 2009 年 8/29 号, 東洋経済新報社 ,pp.77-81, 2009.

[3] Daniel Gruhl, R. Guha, Ravi Kumar, Jasmine Novak, Andrew Tomkins.: The predictive power of online chatter. In KDD ’05: Proceedings of the

eleventh ACM SIGKDD international conference on Knowledge discovery in data mining, pp.

78-87, 2005.

[4] G. Mishne and N. Glance.: Predicting movie sales from blogger sentiment. In AAAI 2006

Spring Symposium on Computational

Ap-proaches to Analysing Weblogs (AAAI-CAAW 2006), 2006.

[5] 吉田就彦, 新垣久史, 石井晃, 林隆文, 梅村早苗: ヒッ

ト現象の数理モデル∼ 映画ヒットにおける Blog

分析∼, 日本マーケティング・サイエンス学会 第

83 回研究大会, 2008.

[6] J.Kleinberg.: Burstly and hierarchical structure in streams. In Proc. 8th ACM SIGKDD Intl.

Conf. on Knowledge International World Wide Web Conference, pp. 491-501, 2004.

[7] Frank M. Bass.: A new-product growth model for consumer durables. Management Science, Vol. 15, No.5, pp. 215-227, 1969.

図 2: 夏文庫の書籍売上数の片対数グラフ 計 311 クエリを検索対象とした. 期間は書籍売上デー タと同じ 2007/7/1 から 2008/9/30 日までの合計 458 日
図 6: “西の魔女が死んだ” の相互相関係数グラフ 図 7: “ 憑神 ” の書籍売上と Blog ヒット数 挙げられる. 次に, 相互相関係数に関する解析を表 8 に より行う
図 10: “グラスホッパー” の書籍売上と Blog ヒット数 図 11: “ グラスホッパー ” の散布図と回帰曲線 整して再度検討を行う必要があるものが 3 つ, ノイズが 多く分析の意味をなさないものが 2 つ, 全く相関が無 かったものが 1 つ確認された

参照

関連したドキュメント

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

荒天の際に係留する場合は、1つのビットに 2 本(可能であれば 3

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報

基準の電力は,原則として次のいずれかを基準として決定するも

いてもらう権利﹂に関するものである︒また︑多数意見は本件の争点を歪曲した︒というのは︑第一に︑多数意見は

右の実方説では︑相互拘束と共同認識がカルテルの実態上の問題として区別されているのであるが︑相互拘束によ