博士論文概要

(1)

早稲田大学大学院基幹理工学研究科

博士論文概要

論文題目

統計的学習に基づく推薦方式に関する研究 A Study on the Recommendation Method

based on Statistical Learning

申請者

桑田修平

Shuhei KUWATA

数学応用数理専攻情報理論研究

2012 年 5 月

(2)

これまで，産学両面において，推薦（レコメンデーション）システムに関する様々な研究が盛んに行われてきた．そこでは，過去に購入された商品等によって表現される大量の履歴から，機械学習やデータマイニング等のデータ分析技術を利用して，ユーザごとに推薦商品を決定するためのルール（推薦ルール）を自動で導出する研究が進められている．

ここで，殆どの従来手法に共通する点は，推薦を行いたいユーザ（推薦対象ユーザ）と商品の購入履歴が類似している他のユーザ（もしくはユーザグループ）

の購入商品履歴に基づいて，推薦対象ユーザに対する推薦商品を決定することにある（ユーザではなく商品を軸にした手法も考えられている）．従って，推薦対象ユーザへの推薦商品を考える際に，そのユーザの購入商品履歴だけでなく，他のユーザの購入商品履歴も利用しているという点で，ユーザに関する広がりがあると捉えることができる．言うなれば，従来手法は，“空間的”な視点に基づく推薦方式であると意味づけることができる．また，他の共通点として，次に推薦する商品は，ある時点までの購入商品履歴をもとに決定される点が挙げられる．

つまり，1回のみの推薦を想定した方式であり，“時間的”な要素は見られない．

しかし，推薦システムが実際に適用されることの多い電子商取引サイトを考えると，商品の推薦は1 回きりではなく，同じユーザに対して推薦を複数回に渡って行うことが想定される．そこでは，当該サイトをより長く利用して貰うことが重要となる．そのため，推薦ルールの導出にあたっては，次に示すような，“時間的”な視点を考慮する必要がある：推薦対象ユーザに対して，これまでどのような商品を推薦し，その結果，どのような反応が得られてきたか．つまり，ある時点までの購入商品履歴（これまでの反応結果）のみならず，過去の推薦商品履歴についても，それらの順序を踏まえた上で推薦ルールを導出する必要がある．

ただし，実際には，推薦対象ユーザ1 人分の購入商品履歴と推薦商品履歴は少ないことが殆どであり，少ない履歴から有用な推薦ルールを導出することは困難な場合が多い．そのため，履歴数の少なさを補うために，他のユーザの購入商品履歴と推薦商品履歴を利用することが必須となる．以上をまとめると，推薦ルールの導出時には，従来手法における“空間的”な視点と，今回新たに導入する“

時間的”な視点の両方に基づき，推薦ルールを履歴データから学習する方式を検討することが重要である．

そこで，本論文では，上記考えに基づいた推薦方式の例として，3 つの手法を提案する．1 つは，空間的な視点と時間的な視点の両方に基づく手法であり，残りの2 つは，空間的な視点に基づく手法である．ここで，空間的な視点に基づく 2 手法については，それぞれ単独でも推薦ルールが導出可能であるが，1 つ目に提案する手法（空間的／時間的な視点の両方を併せ持つ手法）に対するサブルーチンとしても転用可能な手法となっている．ここで，利用する履歴データは，個人が特定できないように事前処理済みであることを前提とする．

No.1

(3)

以降，提案する3 つの推薦手法の概要を述べる：

1 つ目の推薦手法として，“時間的”な視点を考慮した確率モデルを利用し，

かつ，推薦対象ユーザ以外の履歴も含めた統計的学習に基づいて推薦ルールを導出することで，“空間的”な視点を導入した手法を提案する．具体的には，時間的な視点を導入するため，マルコフ決定過程モデルを利用する．ここで，マルコフ決定過程モデルとは，今現在の“状態”と，その時に実施した“行動”に依存して，次の“状態”への遷移が確率的に定まり（このときの確率は状態遷移確率と呼ばれる），さらに，状態が遷移する度に，遷移後の状態に紐づく“利得”が得られることを表現した確率モデルである．そこで，“状態”を商品の購入等のユーザの反応結果，“行動”を商品の推薦，“利得”を商品が売れた時に得られる収入とすることで，マルコフ決定過程モデルを推薦問題へ適用する．

ただし，従来のマルコフ決定過程モデルは，上述した通り，次に遷移する状態は，直前の状態とその時に実施した行動にのみ依存するという制限を持つ．すなわち，次に購入する商品は，直前に購入した商品とその時に推薦された商品にのみ依存するモデルに限られる．しかし，実際には，2 つ前に購入した商品や，3 つ前に推薦された商品等，過去の様々な時点における履歴に依存して，次に購入する商品が定まると考える方がより自然である．故に，既存のマルコフ決定過程モデルを一般化したもとで，推薦問題へ適用する．ここで，一般化とは，直前の状態や行動だけでなく，状態と行動に関して過去の任意の時点の履歴に依存可能なモデルに拡張したことを意味する．

ここで，一般化したマルコフ決定過程モデルにおいて，何時点前の履歴に依存して次に購入する商品が決定するかを事前に把握することは通常困難である．そこで，マルコフ決定過程モデルにおける状態遷移確率の構造は事前には未知（条件付き確率の条件部に入る変数が未知）としたもとで，推薦対象ユーザ以外の履歴も利用した推薦ルールの導出法を提案する．具体的には，統計的決定理論（特にベイズ決定理論）に基づいて推薦ルールを学習する手法を提案することで，ベイズ決定理論のもとで最適な推薦ルールを導出する．既存の確率モデルを拡張しし，さらに，最適性を保証する推薦ルールを導出した点が提案手法の特長である

．人工データを用いた評価実験により，従来の推薦方式や，既存のマルコフ決定過程モデルを用いた場合よりも，より多くの収入が得られることを示す．

2 つ目の推薦手法として，商品の購入履歴ではなく，購入した商品に対する評価値（例えば，1 ～5 点満点評価などの離散値）を利用した手法を提案する．つまり，“空間的”な視点に基づき，推薦対象ユーザ以外のユーザの評価値履歴も利用して統計的学習を行うことで，推薦対象ユーザが未購入である商品に対する評価値を予測する．予測した結果，評価値（の予測値）が高い商品を推薦する．

従来手法が評価値の予測を商品ごとに独立に行うのに対して，提案法は予測対象の評価値に対する予測値を互いに依存させ，予測対象の評価値全てを一括して予

No.2

(4)

測できるという特長を持つ．具体的には，評価済みの履歴から算出されるユーザごとの評点分布，商品ごとの評点分布，および，全評点に対する評点分布（いずれも多項分布によって表現される）が，予測対象の未評価商品に対して同様に算出されるそれぞれの評点分布と類似しているとの仮定を置く．そこから，評点済みの履歴に対する各評点分布と，未評価商品に対する各評点分布との間の類似度を最小化する問題に帰着させることにより予測値を一括して求める．ここで，分布間の類似度として，分布間の擬距離を表すK L ダイバージェンスを用いる．映画に対する評価値履歴データを用いた実験の結果，予測精度は従来の代表的手法とほぼ同程度であるが，計算時間の面で顕著な優位性を持つことを示す．

3 つ目の推薦手法として，推薦対象ユーザ以外の商品購入履歴も含めたモデル学習に基づいて行う，“空間的”な手法を提案する．ここで，提案手法は，ユーザと商品を同時にクラスタリング（共クラスタリング）することができる確率モデルに基づく．共クラスタリングの結果，同じ商品を購入しているユーザクラスタと，同じユーザに購入されている商品クラスタが同時に得られ，得られたクラスタごとに推薦ルールを定めることができる．具体的には，ディリクレ過程混合モデルを用いてユーザと商品の共クラスタリングを行う．ここで，ディリクレ過程混合モデルとは，複数の分布を足し合わせることで表現される混合分布において，その混合数についても確率分布（ディリクレ過程事前分布）を仮定するモデルである．よって，各分布のパラメータと合わせてその混合数についても，履歴から統計的に学習可能である．提案手法は，ユーザ（もしくは商品）クラスタごとに商品（もしくはユーザ）クラスタ数次元の多項分布を仮定し，互いに同じクラスタを選択しあったときに購入行動が生じると仮定したモデルに基づいて共クラスタリングする．提案手法は，ユーザ（商品）クラスタ数を事前に設定することなく共クラスタリング可能であり，特に，購入商品履歴のような欠損値を含むデータに対して，より良いクラスタリング精度（推薦精度）を示す．実データを用いた実験により，ディリクレ過程混合モデルに基づく従来手法（無限関係モデル）と比べて，より精度の高い推薦ルールが得られることを示す．

商品を推薦した結果，ユーザにどのような反応（行動）を示して欲しいか，という，推薦すること自体の本来の目的について，当該分野ではこれまで殆ど考慮されてこなかった．しかし，推薦の本質とは，推薦対象ユーザとの1 対1 のやり取りの中で得た，当該ユーザのこれまでの反応をもとに，次の推薦商品を決定することにある．故に，本研究により，“真の推薦”が初めて実現可能となったと言える．また，推薦手法に関する研究が始まった頃は，ユーザの反応履歴を蓄積することは技術的に困難な面もあったが，ここ最近，推薦履歴やその反応履歴を蓄積する仕組みが整備されつつある．従って，本論文で主張する2 つの視点に基づく推薦方式の研究や実用化は今後さらに進んでいくものと考えられ，本研究は

，新たな研究の方向性における1 つの礎として意味のある研究であると言える．

No.3

(5)

Ｎｏ.1

早稲田大学博士（工学）学位申請研究業績書

氏名桑田修平印

（2012年7月現在）

種類別題名、発表・発行掲載誌名、発表・発行年月、連名者（申請者含む）

○1.論文

2.論文

3.論文

○4.論文

○5.論文

○6.講演

7.総説

8.講演

9.講演

10.講演

推薦システムのための状態遷移確率の構造を未知としたマルコフ決定過程情報処理学会論文誌(数理モデル化と応用)，（掲載決定）

桑田修平，前田康成，松嶋敏泰，平澤茂一

コンセプトと販売実績に基づくテナント・リバランス

オペレーションズ・リサーチ，Vol.56，No.2，pp.84-90（2011-02）

桑田修平，矢野順子，佐治美歩，佐藤新，中川慶一郎，生田目崇

バイヤーの入札行動を支援する情報提供フレームワークの提案オペレーションズ・リサーチ，Vol.54，No.2，pp.91-97（2009-02）

桑田修平，矢野順子，生田目崇，関根純

ディリクレ過程混合モデルに基づく離散データの共クラスタリング

情報処理学会論文誌(数理モデル化と応用)，Vol.1，No.1，pp.60-73（2008-09）

桑田修平，山田武士，上田修功

一括予測型協調フィルタリング

情報処理学会論文誌(数理モデル化と応用)，Vol.48，No.SIG 15(TOM 18)，pp.153-162

（2007-10）

桑田修平，上田修功

One-shot Collaborative Filtering

Proc. of the 2007 IEEE Symposium on Computational Intelligence and Data Mining (CIDM 2007), pp.300-307（2007-04）

Shuhei Kuwata and Naonori Ueda

CEPを用いたストリームデータ分析

桑田修平，中川慶一郎

推薦システムのための状態遷移確率の構造を未知としたマルコフ決定過程情報処理学会研究報告，MPS，Vol.2012-MPS-88, pp.1-6（2012-05）

推薦システムのためのベイズ決定理論に基づくユニバーサルマルコフ決定過程情報処理学会研究報告，MPS，Vol.2012-MPS-87, pp.1-6（2012-03）

次数が未知の状態遷移確率を仮定したマルコフ決定過程

第34回情報理論とその応用シンポジウム予稿集，pp.171-177（2011-11）

桑田修平，松嶋敏泰，平澤茂一

(6)

Ｎｏ.2

早稲田大学博士（工学）学位申請研究業績書

11.講演

12.講演

13.講演

14.講演

15.講演

16.講演

17.講演

18.講演

19.講演

20.講演

21.講演

顧客行動分析におけるCEPを用いたストリームデータの活用

電子情報通信学会技術研究報告，DE，Vol.110，No.107，pp.13-18（2010-06）

桑田修平，稲葉陽子，横川雅聡，生田目崇，中川慶一郎

落札価格決定モデルに基づくバイヤーへの入札支援情報提供フレームワーク日本OR学会秋季研究発表会アブストラクト集，pp.52-53（2008-09）

桑田修平，矢野順子，生田目崇，関根純

ディリクレ過程混合モデルに基づく離散データの共クラスタリング情報処理学会研究報告，MPS，Vol.2007-MPS-67, pp.9-12（2007-12）

ディリクレ過程混合モデルに基づく共クラスタリング

人工知能学会人工知能基本問題研究会，Vol.67，pp.65-70（2007-11）

桑田修平，上田修功，山田武士

ノンパラメトリックベイズモデルに基づくネットワークのクラスタリング情報処理学会ネットワーク生態学研究会第3回サマースクール，17（2007-08）

ノンパラメトリックベイズモデルによるグラフクラスタリング

一括予測型協調フィルタリング

情報処理学会研究報告，MPS，Vol.2007-MPS-19，pp.13-16（2007-03）

周辺評点分布に基づく協調フィルタリングにおける予測アルゴリズムについて電子情報通信学会技術研究報告，PRMU，Vol.106，No.429, pp.7-12（2006-12）

周辺評点分布に基づく協調フィルタリング

電子情報通信学会技術研究報告，AI，Vol.106，No.38，pp.13-18（2006-05）

属性抽出に基づく結果解釈を目的としたクラスタリング手法の検討

電子情報通信学会技術研究報告，PRMU，Vol.104，No.125, pp.13-18（2004-06）

桑田修平，西村正寿，原正巳，松永務

ベイズ決定理論に基づくロバストなパターン認識に関する一考察

第25回情報理論とその応用シンポジウム予稿集，pp.283-286（2002-12）

桑田修平，吉田隆弘，松嶋敏泰

(7)

Ｎｏ.3

早稲田大学博士（工学）学位申請研究業績書

22.講演

23.その他

（論文）

24.その他

（論文）

25.その他

（講演）

26.その他

（講演）

27.その他

（講演）

28.その他

（講演）

状態空間モデルを用いた時系列解析に関する一考察

－モンテカルロフィルタにおけるサンプリング方法について－

日本経営工学会秋季研究大会予稿集，pp.218-219（2001-11）

桑田修平，吉田隆弘，松嶋敏泰

Computational gene knockout reveals transdisease-transgene association structure Journal of Bioinformatics and Computational Biology，Vol.8, No.5, pp.1-24（2010-10）

Tsutomu Matsunaga, Shuhei Kuwata and Masaaki Muramatsu

食卓メニューデータに基づくメーカ主導のタイミングを考慮した販売促進のための分析フレームワーク

矢野順子，後藤和宏，桑田修平，恒松直幸，生田目崇

ID付きPOSデータを用いた経験価値の定量評価

日本OR学会秋季研究発表会アブストラクト集，pp.82-83（2011-09）

石井まゆ，桑田修平，中川慶一郎，生田目崇

コンセプトと販売実績に基づくテナント・リバランス

生田目崇，桑田修平，矢野順子，佐治美歩，佐藤新，中川慶一郎

タイミングを考慮した販売促進活動のための食卓データ活用

後藤和宏，桑田修平，矢野順子，中川慶一郎，生田目崇

ディリクレ混合過程モデルに基づく半教師有り学習

上田修功，山田武士，桑田修平

博 士 論 文 概 要

早稲田大学大学院 基幹理工学研究科