実験結果 - 推薦システム - Study on Situation-aware Music Recommendation System Using Social Data

3.5 推薦システム

4.1.2 実験結果

表13 実験後アンケート

質問内容回答形式

Q1: 状況に適した楽曲が推薦されていました

か？ 5^{段階評価：}1(^{そう思わない}) - 5(^そう思う) Q2: 意外性のある楽曲が推薦されていました

か？ 5^{段階評価：}1(^{そう思わない}) - 5(^そう思う) Q3: 未知の楽曲が推薦されていましたか？ 5^{段階評価：}1(^{そう思わない}) - 5(^そう思う)

Q4-1: 状況に適した楽曲を再生するのに適切

なシステムだと思いましたか？ 5^{段階評価：}1(^{そう思わない}) - 5(^そう思う)

Q4-2: Q4-1の理由を教えてください．記述(^必須回答)

Q5-1: 新たな楽曲と出会うのに適切なシステ

ムだったと思いますか？ 5^{段階評価：}1(^{そう思わない}) - 5(^そう思う)

Q5-2: Q5-1の理由を教えてください．記述(必須回答)

Q6-1: 推薦された結果好きになった楽曲や

アーティストはありましたか？はい・いいえ Q6-2: Q6-1で「はい」と答えた場合はおおよ

その数を教えてください．記述(^自由回答)

Q7-1: 「状況」の選択肢は適切でしたか？ 5^{段階評価：}1(^{そう思わない}) - 5(^そう思う)

Q7-2: Q7-1の理由を教えてください．記述(^必須回答)

Q8-1: 「複合状況」は楽曲を探索する上で有

効でしたか？ 5^{段階評価：}1(^{そう思わない}) - 5(^そう思う)

Q8-2: Q8-1の理由を教えてください．記述(^必須回答)

Q9-1: 現在の状況の推定は楽曲を探索する上

で有効でしたか？ 5^{段階評価：}1(^{そう思わない}) - 5(^そう思う)

Q9-2: Q9-1の理由を教えてください．記述(^必須回答)

Q10: その他，実験中に気付いた点や使いにくかった点等ありましたらご自由にご回答ください．

記述(^自由回答)

いても同様に表現する．また，本論文では実験参加者ごとに評価値の平均を求め，さらにその平均を求めたマクロ平均を用いる．図9より，「作業中」においては上位3件までは提案手法による推薦結果がランダム選曲による平均を上回っており，以降は同程度であることがわかる．また，上位 2^{件までは平均は}4程度あり，状況に適した楽曲を推薦できていると言える．図10^より，^「リラックス」においては上位10件まで常に提案手法がランダムを上回っていた．また，上位2^件までは平均は4以上であり，状況に適した楽曲を推薦できていると言える．図11^より，^{「ランニング」に} おいては上位10件まで常に提案手法がランダムを下回っていた．また，平均は3^{を下回っており，}

状況に適した楽曲を推薦できているとは言えない結果となった．図12^{より，タスク}1^{全体の平均} では上位3件までは提案手法がランダムを上回っていたが，以降は同程度であった．しかし，平均は最上位のものでも3.8^{程度であり，タスク}1全体の平均では十分に状況に応じた推薦ができているとは言えない結果となった．

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

SUIT

推薦件数（件）

作業中ランダム

図9 上位N件のSU IT の平均（作業中）

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

SUIT

推薦件数（件）

リラックスランダム

図10 上位N件のSU IT の平均（リラックス）

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

SUIT

推薦件数（件）

ランニングランダム

図11 上位N件のSU IT の平均（ランニング）

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

SUIT

推薦件数（件）

タスク1平均ランダム

図12 上位N 件のSU ITの平均（タスク1平均）

図13^〜図16に提案手法による推薦結果とランダムに選曲された楽曲の上位N ^件のU N EXP の平均を示す．図13より，「作業中」においては上位3件までは提案手法による推薦結果がランダム選曲による平均を下回っていたが，上位4件以降では提案手法が上回っていた．しかし，平均は最大でも3.7程度であり，高くはない値となった．図9の結果と合わせると「作業中」に対する推薦結果の上位3件までは，状況に適していたが意外性が低い楽曲であったと言える．図14^より，「リラックス」においては上位10件まで常に提案手法がランダムを下回っていた．また，平均は3.4程度であり，やや低い値となった．図10の結果と合わせると「リラックス」においては上位10件まで，ある程度状況に適していたものの意外性は高くない楽曲が推薦されていたと言える．

図15より，「ランニング」においては上位10件まで常に提案手法がランダムを下回っていた．しかし，平均は3.5程度あり，意外性の低い推薦結果というわけでもなかった．図16^{より，タスク} 1^{全体の平均では上位}3件までは提案手法がランダムを下回っていたが以降は同程度であった．また，平均は最高でも3.5^{程度であり，タスク}1全体の平均では十分に意外性のある推薦ができたとは言えない結果となった．また，図12の結果と合わせると，提案手法による推薦では，状況に適した楽曲ほど意外性は低くなるという傾向があった．

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

UNEXP

推薦件数（件）

作業中ランダム

図13 上位N 件のU N EXP の平均（作業中）

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

UNEXP

推薦件数（件）

リラックスランダム

図14 上位N件のU N EXP の平均（リラックス）

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

UNEXP

推薦件数（件）

ランニングランダム

図15 上位N件のU N EXP の平均（ランニング）

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

UNEXP

推薦件数（件）

タスク1平均ランダム

図16 上位N 件のU N EXPの平均（タスク1平均）

図17^〜図20に提案手法による推薦結果とランダムに選曲された楽曲の上位N ^件のSRDP ^の平均を示す．ここでSRDP ^とはSU IT ^とU N EXP の幾何平均であり，状況に適していてかつ意外性のある推薦であることを示す評価値である．図17より，「作業中」においては上位10^件まで常に提案手法による推薦結果がランダム選曲による平均を上回っていた．しかし，平均は3.5^程度であり，高くはない値となった．図18より，「リラックス」においては上位10^{件まで常に提案} 手法がランダムを上回っていた．しかし，平均は最大でも3.8程度であり，高くはない値となった．

図19より，「ランニング」においては上位10件まで常に提案手法がランダムを下回っていた．また，平均は最大でも3.3程度であり，やや低い値となった．図20^{より，タスク}1^{全体の平均では} 上位10件まで提案手法とランダムは同程度であり，平均は3.5程度であることから，タスク1^全体の平均では状況に応じていてかつ意外性のある楽曲の推薦が推薦できているとは言えない結果となった．

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

SRDP

推薦件数（件）

作業中ランダム

図17 上位N件のSRDP の平均（作業中）

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

SRDP

推薦件数（件）

リラックスランダム

図18 上位N 件のSRDP の平均（リラックス）

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

SRDP

推薦件数（件）

ランニングランダム

図19 上位N 件のSRDP の平均（ランニング）

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

1 2 3 4 5 6 7 8 9 10

SRDP

推薦件数（件）

タスク1平均ランダム

図20 上位N 件のSRDP の平均（タスク1平均）

タスク2を含めた結果を述べる．表14に各評価値の平均を示す．ここで，T1^はタスク1^の提案手法による推薦結果に対する評価値の平均，T1 Random^はタスク1のランダム選曲に対する評価値の平均を表している．タスク2では評価状況数を複合状況5種類以上としており，各複合状況につき1曲以上を評価対象としているため，実験参加者ごとに評価曲数が異なる．よって，ここから各実験参加者に付き5種類の複合状況を無作為に選択し，その推薦結果の上位1^曲，計5^曲の評価値からT2 Selected^{を求めた．}T1 and T2 Selected^はT1^とT2 Selected^{の対象になっている} 評価値から求めた平均を表し，ALLは実験中に得られたすべての評価値の平均を表している．ま

た，表15に実験後アンケートの結果を示す．表15は記述式回答を省略しており，Q6-1^では「はい」を1^，^{「いいえ」を}0として表す．また，実験参加者をp1^〜p10^{を使って表記する．}

SU IT ^{においては}T1 Randomが最も悪い結果となっていることから，提案手法はランダム選曲よりも状況に適した楽曲を推薦できていることがわかる．T1 and T2 Selected^の値は3.44^と高くはなかったが，実験後アンケートのQ1^{の評価値平均が}3.9と高かったことから，提案手法は状況に応じた楽曲推薦をする上である程度有効であったと考える．また，T2 Selected^{が最も良く，}

実験後アンケートのQ8-2において「単一状況での楽曲推薦に対して、状況に即した楽曲が推薦されたと考えるため。」という回答があったことから，複合状況に対する推薦は単一状況に対する推薦よりも適切に推薦できていたと考える．

U N EXP ^{においては}T1^やT1 Random^と比べ，T2 Selectedが低い値になっていた．これは実験参加者が複合状況を自分で設定するうちに，ある程度推薦される楽曲を想像できてしまったことが原因の一つとして考えられる．一方で実験後アンケートのQ2^{の評価値平均が}3.8^{と高かった} ことから，提案手法ではある程度意外性のある推薦ができていたとも考える．

SRDP ^ではU N EXP ^のT2 Selected^{の低さに影響され，}T1 and T2 Selected^がT1 Random を下回る結果となった．この結果より，提案手法では状況に合致したか，あるいは意外性のある推薦はある程度可能であるが，両者を同時に満たした楽曲を推薦することはできなかったと考える．

N OV E^{においては}T1^が0.85であり，実験後アンケートのQ3^{の評価値平均も}4.9^{と非常に高} い値を取っていることから，提案手法はユーザに未知の楽曲を推薦する上で有効な手法であると考える．一方で，T2 Selected^がT1, T1 Randomと比べ極端に低い値となった．これは多くの実験参加者がタスク1^{の終了後にタスク}2を実施しており，タスク2の実施時には既知となっていた楽曲が増えていたことが原因の一つとして考えられる．また，実験後アンケートのQ8-2^において

「別の複合状況のときでも同じ曲が推薦される時があったため．一つの状況がその曲を強く推薦していたためかもしれない．」，「一部の状況に引っ張られる形で,複合状況で同様のアーティストが出現することが多かった」という回答があった．提案手法では，一つの状況に対して絶対的に高いスコアを持つ楽曲は，その状況を含む複合状況すべてにおいて推薦結果の上位に来てしまうという特性がある．この特性のためT2 Selected^のN OV E は低い値になっていたと考える．これらの結果から，提案手法による複合状況に対する推薦では，ある程度状況に適した楽曲を推薦できていたが，意外性や新規性は低かったと考える．

表14 評価値の平均

使用評価値 SU IT U N EXP SRDP N OV E

T1 3.28 3.54 3.39 0.85

T1 Random 3.23 3.51 3.35 0.84

T2 Selected 3.60 3.10 3.26 0.44

T1 and T2 Selected 3.44 3.32 3.33 0.64

ALL 3.34 3.42 3.35 0.76

ドキュメント内 Study on Situation-aware Music Recommendation System Using Social Data (ページ 34-56)