第 5 章 ベイズ決定理論に基づくユニバーサルマルコフ決定過程モデル 19
5.6 評価実験
5.6.2 結果と考察
先に示した実験手順を10回繰り返して得られた割引総利得の平均値を表5.1(真 のモデルを含む場合),表5.2(真のモデルを含まない場合)に示す.
表の各行は,第1列に示したモデルを真のモデルとしたもとで,1つのモデルを 固定的に使用した場合,及び,複数のモデルを重みづける提案手法によって得られ た割引総利得をそれぞれ表す.ただし,表の値は,真の状態遷移確率をベルマン方 程式に適用することで得られる推薦ルール(政策)を適用することによって得られ た割引総利得に対する比として表現している.従って,値が大きいほど平均的によ り多くの割引総利得が得られていることを示し,さらに,値が1に近いほど,理想 的な推薦が行えていると判断できる.また,各行において上位2つの割引総利得を 太字で表示しており,表5.1の最下行は,列ごとの平均値を表す.
表5.1より,モデルを1つに固定した結果において,真のモデルと一致している 場合には,他のモデルと比べて比較的より多くの割引総利得が得られていることが 分かる.また,真のモデルと一致していない場合には,真のモデルと一致したモデ ルを用いた結果と比べて,概ねより少ない割引総利得が得られていることも分かる.
その他,全体的な傾向として,状態遷移確率が高次のマルコフ連鎖によって表現さ れているほど,より多くの割引総利得が得られている.値が1を超えているものも あるが,これは,有限回のシミュレーション結果であることが原因と考えられる.
これに対して,提案手法は,モデルを1つに固定した場合と比べ,平均的により
第 5章 ベイズ決定理論に基づくユニバーサルマルコフ決定過程モデル 35
表5.1: 実験結果:モデルを1つに固定した場合と提案手法の割引総利得(真のモデ ルを含む場合.値は理論値に対する比を表す).
モデルを1つに固定した場合
真のモデル 1 2 3 4 5 6 提案手法 モデル1 0.99 0.99 1.03 0.98 1.01 0.93 0.97 モデル2 0.90 1.03 0.97 0.90 0.98 1.00 1.02 モデル3 0.90 0.90 1.02 0.84 0.88 0.96 0.99 モデル4 0.85 0.84 0.84 1.01 0.99 0.94 0.95 モデル5 0.82 0.89 0.91 0.91 0.99 1.01 1.01 モデル6 0.86 0.86 0.81 0.80 0.83 0.88 0.87 平均 0.89 0.92 0.93 0.91 0.95 0.96 0.97
表5.2: 実験結果:モデルを1つに固定した場合と提案手法の割引総利得(真のモデ ルを含まない場合.値は理論値に対する比を表す).
モデルを1つに固定した場合
真のモデル 1 2 3 4 5 6 提案手法 モデル1 - 0.99 1.03 0.98 1.01 0.93 0.97 モデル2 0.90 - 0.97 0.90 0.98 1.00 0.99 モデル3 0.90 0.90 - 0.84 0.88 0.96 0.91 モデル4 0.85 0.84 0.84 - 0.99 0.94 0.97 モデル5 0.82 0.89 0.91 0.91 - 1.01 0.93 モデル6 0.86 0.86 0.81 0.80 0.83 - 0.87
多くの割引総利得を得られていることが分かる.これは,真のモデルに合わせてモ デルやモデルパラメータに関する事後確率が適切に計算され,その結果,複数のモ デルで重み付けた状態遷移確率が真のモデルに近いものとなっていることを意味し ている.
次に,表5.2より,真のモデルを含まない場合には,概ね,モデルを1つに固定し た場合の中で最も良い結果が得られているモデルに次ぐ割引総利得が得られている ことが分かる.これは,仮定するモデル集合の中で,真のモデルに似たモデルの重 みは大きく,あまり似ていないモデルの重みは小さく設定されたと解釈できる.モ デル集合に含まれるマルコフ連鎖よりも,高次のマルコフ連鎖によって真の状態遷 移確率が表現される場合(真のモデルが5の場合)においても,提案手法が有用で あることが確認できる.つまり,真のモデルが含まれない場合においても,複数の モデルを重み付けることの有効性を示唆している.
表5.1,表5.2の実験結果は,過去に購入したことのある商品を再度購入する可能 性がある場合の結果である.これに対して表5.3は,一度購入された商品は二度と購 入されない状態遷移確率を設定値として用いた場合の結果である.表の見方は表5.1 と同様である.ここで,同一商品の購入は1回きりであるため,推薦対象ユーザへ の推薦回数は10とした.表5.3より,同一商品の購入が1回きりの場合であっても,
先の結果と同様に,提案手法の方が平均的により多くの割引総利得が得られている ことが確認できる.ユーザの購買傾向が状態遷移確率として正しく反映され,その 結果,有用な推薦ルールが導出できていると言える.
通常,真のモデルを知ることは困難である.そのため,真のモデルが自明でない 場合には,提案手法のように,複数のモデルを事前に用意しておき,得られた履歴 データからモデルの重みを適切に調節するアプローチが有効である.
最後に,モデルベールアルゴリズムとの比較結果を表5.4に示す.ここで,今回の 評価実験においては,多項分布に基づく手法をモデルベースアルゴリズムとして用 いた.具体的には,N人分の購入商品履歴のみを用いて多項分布のパラメータ(各 商品の購入確率)を最尤推定した後,最も購入される確率の高い順に商品を推薦し ていくものとした.表5.4より,真のモデルを含む場合においては,常に提案手法が より多くの割引総利得を得ていることが分かる.また,真のモデルを含まない場合 には,モデルベースアルゴリズムの方が良い結果を得ている場合があるものの,平
第 5章 ベイズ決定理論に基づくユニバーサルマルコフ決定過程モデル 37
表5.3: 実験結果:同じ商品を2回購入しない場合(真のモデルを含む場合.値は理 論値に対する比を表す).
モデルを1つに固定した場合
真のモデル 1 2 3 4 5 6 提案手法 モデル1 1.03 1.04 1.05 1.01 0.99 0.99 1.01 モデル2 0.92 1.03 1.03 0.94 1.00 0.98 1.04 モデル3 0.89 0.89 0.99 0.89 0.88 0.97 1.00 モデル4 0.91 0.87 0.91 1.00 0.99 0.96 1.01 モデル5 0.88 0.87 0.89 0.91 0.97 0.94 0.97 モデル6 0.87 0.87 0.87 0.87 0.86 0.96 0.90 平均 0.92 0.93 0.96 0.94 0.95 0.97 0.99
表5.4: 実験結果:モデルベースアルゴリズムとの比較結果(値は理論値に対する比 を表す).
真のモデルを含む場合 真のモデルを含まない場合 真のモデル 提案手法 モデルベース 提案手法 モデルベース
モデル1 0.97 0.87 0.97 0.95 モデル2 1.02 0.89 0.99 0.92 モデル3 0.99 0.86 0.91 0.92 モデル4 0.95 0.83 0.97 0.89 モデル5 1.01 0.89 0.93 0.95 モデル6 0.87 0.86 0.87 0.88
平均 0.97 0.87 0.94 0.92
均的には提案手法の方が良い結果を得ていることが分かる.以上の結果から,長期 的な視点に立ち,より多くの利益を得ようとする推薦目的のもとでは,購入される 確率が高い商品を推薦するだけでは不十分であることが分かる.