3.5 推薦システム
4.1.2 実験結果
表13 実験後アンケート
質問内容 回答形式
Q1: 状況に適した楽曲が推薦されていました
か? 5段階評価:1(そう思わない) - 5(そう思う) Q2: 意外性のある楽曲が推薦されていました
か? 5段階評価:1(そう思わない) - 5(そう思う) Q3: 未知の楽曲が推薦されていましたか? 5段階評価:1(そう思わない) - 5(そう思う)
Q4-1: 状況に適した楽曲を再生するのに適切
なシステムだと思いましたか? 5段階評価:1(そう思わない) - 5(そう思う)
Q4-2: Q4-1の理由を教えてください. 記述(必須回答)
Q5-1: 新たな楽曲と出会うのに適切なシステ
ムだったと思いますか? 5段階評価:1(そう思わない) - 5(そう思う)
Q5-2: Q5-1の理由を教えてください. 記述(必須回答)
Q6-1: 推薦された結果好きになった楽曲や
アーティストはありましたか? はい・いいえ Q6-2: Q6-1で「はい」と答えた場合はおおよ
その数を教えてください. 記述(自由回答)
Q7-1: 「状況」の選択肢は適切でしたか? 5段階評価:1(そう思わない) - 5(そう思う)
Q7-2: Q7-1の理由を教えてください. 記述(必須回答)
Q8-1: 「複合状況」は楽曲を探索する上で有
効でしたか? 5段階評価:1(そう思わない) - 5(そう思う)
Q8-2: Q8-1の理由を教えてください. 記述(必須回答)
Q9-1: 現在の状況の推定は楽曲を探索する上
で有効でしたか? 5段階評価:1(そう思わない) - 5(そう思う)
Q9-2: Q9-1の理由を教えてください. 記述(必須回答)
Q10: その他,実験中に気付いた点や使いにく かった点等ありましたらご自由にご回答くだ さい.
記述(自由回答)
いても同様に表現する.また,本論文では実験参加者ごとに評価値の平均を求め,さらにその平均 を求めたマクロ平均を用いる.図9より,「作業中」においては上位3件までは提案手法による推 薦結果がランダム選曲による平均を上回っており,以降は同程度であることがわかる.また,上位 2件までは平均は4程度あり,状況に適した楽曲を推薦できていると言える.図10より,「リラッ クス」においては上位10件まで常に提案手法がランダムを上回っていた.また,上位2件までは 平均は4以上であり,状況に適した楽曲を推薦できていると言える.図11より,「ランニング」に おいては上位10件まで常に提案手法がランダムを下回っていた.また,平均は3を下回っており,
状況に適した楽曲を推薦できているとは言えない結果となった.図12より,タスク1全体の平均 では上位3件までは提案手法がランダムを上回っていたが,以降は同程度であった.しかし,平均 は最上位のものでも3.8程度であり,タスク1全体の平均では十分に状況に応じた推薦ができてい るとは言えない結果となった.
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
SUIT
推薦件数(件)
作業中 ランダム
図9 上位N件のSU IT の平均(作業中)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
SUIT
推薦件数(件)
リラックス ランダム
図10 上位N件のSU IT の平均(リラックス)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
SUIT
推薦件数(件)
ランニング ランダム
図11 上位N件のSU IT の平均(ランニング)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
SUIT
推薦件数(件)
タスク1平均 ランダム
図12 上位N 件のSU ITの平均(タスク1平均)
図13〜図16に提案手法による推薦結果とランダムに選曲された楽曲の上位N 件のU N EXP の平均を示す.図13より,「作業中」においては上位3件までは提案手法による推薦結果がラン ダム選曲による平均を下回っていたが,上位4件以降では提案手法が上回っていた.しかし,平 均は最大でも3.7程度であり,高くはない値となった.図9の結果と合わせると「作業中」に対す る推薦結果の上位3件までは,状況に適していたが意外性が低い楽曲であったと言える.図14よ り,「リラックス」においては上位10件まで常に提案手法がランダムを下回っていた.また,平均 は3.4程度であり,やや低い値となった.図10の結果と合わせると「リラックス」においては上 位10件まで,ある程度状況に適していたものの意外性は高くない楽曲が推薦されていたと言える.
図15より,「ランニング」においては上位10件まで常に提案手法がランダムを下回っていた.し かし,平均は3.5程度あり,意外性の低い推薦結果というわけでもなかった.図16より,タスク 1全体の平均では上位3件までは提案手法がランダムを下回っていたが以降は同程度であった.ま た,平均は最高でも3.5程度であり,タスク1全体の平均では十分に意外性のある推薦ができたと は言えない結果となった.また,図12の結果と合わせると,提案手法による推薦では,状況に適 した楽曲ほど意外性は低くなるという傾向があった.
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
UNEXP
推薦件数(件)
作業中 ランダム
図13 上位N 件のU N EXP の平均(作業中)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
UNEXP
推薦件数(件)
リラックス ランダム
図14 上位N件のU N EXP の平均(リラックス)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
UNEXP
推薦件数(件)
ランニング ランダム
図15 上位N件のU N EXP の平均(ランニング)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
UNEXP
推薦件数(件)
タスク1平均 ランダム
図16 上位N 件のU N EXPの平均(タスク1平均)
図17〜図20に提案手法による推薦結果とランダムに選曲された楽曲の上位N 件のSRDP の 平均を示す.ここでSRDP とはSU IT とU N EXP の幾何平均であり,状況に適していてかつ 意外性のある推薦であることを示す評価値である.図17より,「作業中」においては上位10件ま で常に提案手法による推薦結果がランダム選曲による平均を上回っていた.しかし,平均は3.5程 度であり,高くはない値となった.図18より,「リラックス」においては上位10件まで常に提案 手法がランダムを上回っていた.しかし,平均は最大でも3.8程度であり,高くはない値となった.
図19より,「ランニング」においては上位10件まで常に提案手法がランダムを下回っていた.ま た,平均は最大でも3.3程度であり,やや低い値となった.図20より,タスク1全体の平均では 上位10件まで提案手法とランダムは同程度であり,平均は3.5程度であることから,タスク1全 体の平均では状況に応じていてかつ意外性のある楽曲の推薦が推薦できているとは言えない結果と なった.
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
SRDP
推薦件数(件)
作業中 ランダム
図17 上位N件のSRDP の平均(作業中)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
SRDP
推薦件数(件)
リラックス ランダム
図18 上位N 件のSRDP の平均(リラックス)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
SRDP
推薦件数(件)
ランニング ランダム
図19 上位N 件のSRDP の平均(ランニング)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1 2 3 4 5 6 7 8 9 10
SRDP
推薦件数(件)
タスク1平均 ランダム
図20 上位N 件のSRDP の平均(タスク1平均)
タスク2を含めた結果を述べる.表14に各評価値の平均を示す.ここで,T1はタスク1の提 案手法による推薦結果に対する評価値の平均,T1 Randomはタスク1のランダム選曲に対する評 価値の平均を表している.タスク2では評価状況数を複合状況5種類以上としており,各複合状況 につき1曲以上を評価対象としているため,実験参加者ごとに評価曲数が異なる.よって,ここか ら各実験参加者に付き5種類の複合状況を無作為に選択し,その推薦結果の上位1曲,計5曲の評 価値からT2 Selectedを求めた.T1 and T2 SelectedはT1とT2 Selectedの対象になっている 評価値から求めた平均を表し,ALLは実験中に得られたすべての評価値の平均を表している.ま
た,表15に実験後アンケートの結果を示す.表15は記述式回答を省略しており,Q6-1では「は い」を1,「いいえ」を0として表す.また,実験参加者をp1〜p10を使って表記する.
SU IT においてはT1 Randomが最も悪い結果となっていることから,提案手法はランダム選 曲よりも状況に適した楽曲を推薦できていることがわかる.T1 and T2 Selectedの値は3.44と高 くはなかったが,実験後アンケートのQ1の評価値平均が3.9と高かったことから,提案手法は状 況に応じた楽曲推薦をする上である程度有効であったと考える.また,T2 Selectedが最も良く,
実験後アンケートのQ8-2において「単一状況での楽曲推薦に対して、状況に即した楽曲が推薦さ れたと考えるため。」という回答があったことから,複合状況に対する推薦は単一状況に対する推 薦よりも適切に推薦できていたと考える.
U N EXP においてはT1やT1 Randomと比べ,T2 Selectedが低い値になっていた.これは 実験参加者が複合状況を自分で設定するうちに,ある程度推薦される楽曲を想像できてしまったこ とが原因の一つとして考えられる.一方で実験後アンケートのQ2の評価値平均が3.8と高かった ことから,提案手法ではある程度意外性のある推薦ができていたとも考える.
SRDP ではU N EXP のT2 Selectedの低さに影響され,T1 and T2 SelectedがT1 Random を下回る結果となった.この結果より,提案手法では状況に合致したか,あるいは意外性のある推 薦はある程度可能であるが,両者を同時に満たした楽曲を推薦することはできなかったと考える.
N OV EにおいてはT1が0.85であり,実験後アンケートのQ3の評価値平均も4.9と非常に高 い値を取っていることから,提案手法はユーザに未知の楽曲を推薦する上で有効な手法であると考 える.一方で,T2 SelectedがT1, T1 Randomと比べ極端に低い値となった.これは多くの実験 参加者がタスク1の終了後にタスク2を実施しており,タスク2の実施時には既知となっていた 楽曲が増えていたことが原因の一つとして考えられる.また,実験後アンケートのQ8-2において
「別の複合状況のときでも同じ曲が推薦される時があったため.一つの状況がその曲を強く推薦し ていたためかもしれない.」,「一部の状況に引っ張られる形で,複合状況で同様のアーティストが出 現することが多かった」という回答があった.提案手法では,一つの状況に対して絶対的に高いス コアを持つ楽曲は,その状況を含む複合状況すべてにおいて推薦結果の上位に来てしまうという特 性がある.この特性のためT2 SelectedのN OV E は低い値になっていたと考える.これらの結 果から,提案手法による複合状況に対する推薦では,ある程度状況に適した楽曲を推薦できていた が,意外性や新規性は低かったと考える.
表14 評価値の平均
使用評価値 SU IT U N EXP SRDP N OV E
T1 3.28 3.54 3.39 0.85
T1 Random 3.23 3.51 3.35 0.84
T2 Selected 3.60 3.10 3.26 0.44
T1 and T2 Selected 3.44 3.32 3.33 0.64
ALL 3.34 3.42 3.35 0.76