タグ付け傾向分析による楽曲動画ランキング手法の比較
A Comparison of Ranking methods for Music Videos
Based on an Analysis of Tagging Trend
山岸
祐己
1∗斉藤
和巳
1武藤
伸明
1Yuki Yamagishi
1, Kazumi Saito
1, and Nobuaki Mutoh
1 1静岡県立大学経営情報イノベーション研究科
1
Graduate School of Management and Innovation, University of Shizuoka
Abstract: The evaluation of videos in Nico Nico Douga is strongly dependent on some abilities to attract users (e.g., the well-known contributors and the popular contents). Therefore, it is difficult to use the videos which have such abilities and the other videos in the same manner. In contrast, we assume that the user’s action that register a certain video into his or her favorites is a Bernoulli trial, and convert the favorite registration rates of each video to the evaluation values which consider the reliability by the number of view counts. Furthermore, to compare the both evaluation methods, we address an extraction problem of categories containing significantly large numbers of highly (or lowly) ranked objects from a dataset of ranked objects with categories. To this end, we newly propose the multi-category order statistics based on an order-preserving mapping. In our experiments, we treat the videos and its tags as objects and categories, respectively.
1
はじめに
近年,国内の大規模動画共有サービスである「ニコニ コ動画1」において,音声合成ソフトウェア「VOCALOID2」 を用いた楽曲動画の投稿が非常に盛んである.しかし, ニコニコ動画内でVOCALOID楽曲動画が日に日に増 加する反面,注目される投稿者は限定されていく傾向 が見られている.人気投稿者が投稿している楽曲動画 は,キャラクター,ストーリー,歌詞といった演出面で 工夫をこらせたものが多いので,楽曲動画には動画と しての質や話題性も求められていることが窺える.逆 に言えば,それらが欠如した楽曲は,十分な評価を得 られていない可能性が高いということである. 上記のような状況が形成され,加速し続けている最 大の原因として,動画が再生数等の単純な推移を基に ランキングされていることが挙げられる.Salganikら の大規模な実験 [1]においても,再生数のような社会 的情報に基づく楽曲の降順一列表示は,個々の意思決 定に多大な影響を与え,市場の不平等性を大いに増加 させるとして明確に示されている.さらに,この実験 結果は,全く同じ楽曲群であっても,社会的情報信号 を増幅させるか否かで,最終的な楽曲に対する評価は ∗連絡先:静岡県立大学経営情報イノベーション研究科 〒422-8526静岡県静岡市駿河区谷田52-1 [email protected] 1 http://www.nicovideo.jp/ 2 http://www.vocaloid.com/ 大きく変動するということを結論付けている.つまり, 圧倒的な影響力を持っている社会的情報は,個人の既 存の嗜好すらも捻じ曲げてしまうということである. そこで我々は,動画の再生数に依存しない新たな動 画の評価手法を提案する.提案ランキング手法は,ユー ザが動画を再生してマイリストに登録する行動をベル ヌーイ試行であると仮定し,動画がマイリストに登録 された割合を,再生数による信頼性を考慮した評価値 に変換するものである.本論文では,動画をオブジェ クト,それらに付しているタグをカテゴリーとし,有意 に高く(又は低く)ランキングされているカテゴリー を抽出することによって,既存ランキング手法と提案 ランキング手法の比較を行う. ここで,このようなカテゴリー抽出には,Mann-Whitney の二群順位統計量[2]を多群に拡張して適用する方法が 自然に想定できる.すなわち,選定したカテゴリーの オブジェクト集合と残りのオブジェクト集合の二群を 考え,選定したカテゴリーに対するZ-scoreを計算し, その値に基づいて高ランキングのオブジェクトを有意 に多く含むカテゴリーを抽出する方法である.これは, 基 本 的 に は2ク ラ ス 分 類 器 の SVM (Support Vector Machine) [3]を多クラス分類器に拡張するときに利用 されるone-against-allと類似した考え方となる. しかしながら,Mann-Whitneyの二群順位統計量に 基づく方法では,後述するように,ランキングが下位 のものを除外するようなオブジェクト集合の選定に対 人工知能学会研究会資料 SIG-KBS-B401-07して多分に影響され,本来,ランキングの高いオブジェ クトを有意に多く含むカテゴリーを低く評価するケー スも起こり得る.実際,一般的なデータ収集プロセス において,収集コストが必要となるケースでは,ラン キングが低いと想定されるオブジェクトを無視するこ となど頻繁に起こり得る.本論文では,このような問 題を軽減する新たな手法として,順位単調写像に基づ く多群順位統計量を提案する. 本論文の構成は以下となる.まず,ニコニコ動画にお ける既存ランキング手法と提案ランキング手法につい て説明する.次に,Mann-Whitneyの統計量及び提案 統計量によるカテゴリー抽出法について説明する.最後 に,比較実験の結果と本研究のまとめについて述べる.
2
ランキング手法
動画n ∈ {1 · · · N} の再生数を vn,コメント数をcn, マイリスト数mnとすると,動画データ集合D は以下 のように書ける. D = {(v1, c1, m1), · · · , (vN, cN, mN)}. (1)2.1
ニ コ ニ コ 動 画 の 総 合 ポ イ ン ト に 基 づ く
方法
ニコニコ動画が公式として扱っている集計基準は,再 生数,コメント数,マイリスト数を総合評価した総合 ポイントである.計算方法は公式には明らかにされて いないが,一般に動画nの総合ポイントe¯nは ¯ en= vn+ cn(vn+ mn) vn+ cn+ mn + 15mn, (2) で算出できるとされている 3.厳密には,ニコニ広告 宣伝ポイント4も総合ポイントの算出に必要であるが, 主たる動画情報ではないので考慮しないこととする.現 在のニコニコ動画のデフォルトランキングは,この総 合ポイントによるランキングであるため,ニコニコ動 画のユーザにより作成されるランキング動画やランキ ングサイトでも,同様の計算方法が採用されることが 多い.以下では,この総合ポイントによる動画の評価 方法を既存ランキング法と呼ぶ.2.2
提案ポイントに基づく方法
ここで「あるユーザがある動画nを再生した際,マ イリストに登録するか否か」というベルヌーイ試行を 考える.試行結果a ∈ A = {0, 1} の a = 0 を「再生の 3 http://dic.nicovideo.jp/a/総合ポイント 4 動画を宣伝するためにユーザが支払った仮想通貨の総額 み」,a = 1を「再生とマイリスト登録」とし,マイリ スト率の平均θ = PN n=1mn/P N n=1vnを試行の真の成 功確率,即ち真のマイリスト登録確率とすると,各結 果の確率p(a)はp(0) = (1 − θ),p(1) = θ となる.そ れぞれの試行がp(a)に従って独立に行われたと仮定す ると,Q 回の試行結果 S = {a1· · · aQ} により得られ たマイリスト率θnの期待される誤差の標準偏差(二乗 平均平方根誤差)は以下となる. v u u u t X a1∈A · · · X aQ∈A θ − 1 Q Q X q=1 aq !2 Q Y q=1 p(aq) = pθ(1 − θ)√ Q . (3) このとき,動画nのマイリスト率θn = mn/vnの Z-scoreは,試行回数を再生数vnとして,以下のように 考えることができる. en= θn− θ q θ(1−θ) vn . (4) 提案ランキング法は,このenを動画nの評価値として 扱うものである.3
カテゴリー抽出法
3.1
問題設定
与えられたオブジェクト集合とカテゴリー集合をそ れ ぞ れ I と J とする.ここで,それぞれの要素数 は I = |I| と J = |J | とし,各要素は整数と同一視 されるとする.つまり,I = {1, · · · , i, · · · , I} および J = {1, · · · , j, · · · , J} とする.また,オブジェクト i が属すカテゴリーを j = f (i) で表し,各カテゴリに 属 す オ ブ ジェク ト 数 を Ij = |Ij| = |{i ; j = f(i)}| とする.各オブジェクト iに対し,そのランキングは 1 ≤ ri≤ I で与えられるとする.ただし,同順位が起 こるケースでは,ri は平均順位で補正されるとする. 本論文の目的は,カテゴリーとランキング付きのオ ブジェクトの集合が与えられたとき,ランキングの高 い,または逆に低いオブジェクトが有意に多く含まれる カテゴリーを定量的に評価する指標の構築である.以 下には,従来統計量の自然な拡張法,及び提案抽出法 を示す.3.2
Mann-Whitney
の統計量に基づく方
法
Mann-Whitneyの二群順位統計量を多群に拡張して 適用する方法について述べる.いま,カテゴリー jに着目すれば,このカテゴリーに属すオブジェクト集合 Ij と,それ以外のオブジェクト集合 I \ Ij の二群に 分割することができる.ここで,· \ · は集合差を意味 する.よって,Mann-Whitneyの二群順位統計量に従 い,次式により,カテゴリーj に対しZ-score ¯zj を求 めることができる. ¯ zj = ¯ uj− ¯µj ¯ σj . (5) ここで,統計量u¯j,順位の平均µ¯j,および,その分散 ¯ σ2j は次のように計算される. ¯ uj = Ij(I − Ij) + Ij(Ij+ 1) 2 − X i∈Ij ri, (6) ¯ µj = Ij(I− Ij) 2 , (7) ¯ σ2 j = Ij(I − Ij)(I + 1) 12 . (8) よって,式(5)で求まるZ-score ¯zj により,各カテゴ リーj がランキングの高い,または逆に低いオブジェ クトを有意に多く含むか定量的に評価することができ る.以下では,この方法を既存抽出法と呼ぶ. 既に述べているように,既存抽出法は,基本的には 2クラス分類器のSVM (Support Vector Machine) [3] を 多 ク ラ ス 分 類 器 に 拡 張 す る と き に 利 用 さ れ る one-against-all と 類 似 し た 考 え 方 と な る .し か し な が ら , この方法では,ランキングが下位のものを除外するよ うなオブジェクト集合の選定に対して多分に影響され, 本来,ランキングの高いオブジェクトを有意に多く含 むカテゴリーが低く評価するケースも起こり得る.以 下では,このような問題を軽減するため,順位逆単調 写像に基づく多群順位統計量を提案する.
3.3
提案統計量に基づく方法
提案抽出法では,オブジェクトのペア iと kに対し て,ri≤ rk ならばφ(ri) ≥ φ(rk)を条件として,ラン キングから実数値への逆単調写像φ(·) を考える.この ような逆単調写像の典型例は,φ(ri) = 1/riであり,本 論文ではこの関数での実験結果を示す.ただし,本提 案統計量は,この関数系に限定されるないことに注意 されたい.明らかに,φ(ri) = 1/ri などとすれば,ラ ンキング下位のオブジェクトからの影響は一般に軽減 される. 式 (6)の既存抽出法の統計量に対し,順位逆単調写 像に基づく多群順位統計量を次式で定義する. uj = X i∈Ij φ(ri), (9) よて,式(9)の順位逆単調写像に基づく多群順位統計量 ujを用いて,次式により,カテゴリーjに対しZ-score zj を求めることができる. zj = uj− µj σj . (10) ここで,順位の平均µj,および,その分散σ 2 j は次の ように計算される. µj = Ij I X i∈I φ(ri), (11) σ2j = I − Ij I − 1 Ij I X i∈I φ(ri)2− 1 Ij µj2 ! . (12) ここで,式 (11)と (12)の導出については付録を参照 されたい.よって,順位逆単調写像に基づく多群順位 統計量でも,式(10)で求まるZ-score zj により,各カ テゴリー j がランキングの高い,または逆に低いオブ ジェクトを有意に多く含むかを定量的に評価すること ができる.以下では,この方法を提案抽出法と呼ぶ.4
データセット
本論文で用いるデータセットは,ニコニコ動画にお けるVOCALOIDオリジナル楽曲動画の動画情報とタ グ 5 のデータである.このデータは,2014年6月29日 時点における,VOCALOIDオリジナル楽曲動画が一 般に有するタグによる検索結果から,二次創作系や加 工系のタグを有する動画を除外して取得したものであ り,動画数I は113393である.今回の評価実験では, 10以上の動画に登録されているタグのみを対象とした ため,使用したタグの種類 J は5808である.データ セットの基本統計量を表1に示す. 表1: データセットの基本統計量 Views Comments Mylists Max 11256398 12182639 299198 Minimum 20 0 0 Average 12895.00 690.15 507.11 Median 858 21 23 Mode 238 4 3 S.D. 114347.47 51307.22 3959.254.1
データ項目の説明
ここでは,データセットへの理解を深めるべく,各 データ項目の説明について述べる. 5 1つの動画につき11個まで登録できる関連文字列「再生数」とは,その動画が再生された回数を示す ものである.再生数は,あるユーザが動画ページを読 み込んだ時点で加算され,十分な時間6が経過すれば, 同一ユーザによって再び加算が可能となる.なお,プ レイヤー機能によるリピート再生では再生数の加算は 行われない.因みに,cookieを削除しつつ再生を行う 等の不正アクセス行為によって再生数を意図的に増加 させることを一般に「工作」と呼ぶ. 「コメント」とは,動画に書き込むことができる文字 列のことであり,このコメント機能がニコニコ動画の 最大の特徴と言われている.各動画における「コメン ト数」とは,それらコメントが動画に付けられた回数 を示すものである.連投制限7さえ守れば,同一ユー ザによる加算がいくらでも可能であり,投稿者や運営 が意図的にコメントを削除しない限り,値が減少する ことは無い. 「マイリスト」とは,ニコニコ動画内にあるお気に 入りの動画をブックマークとして保存することができ る機能のことである.各動画における「マイリスト数」 とは,その動画をマイリストに登録しているユーザ数 を意味している.マイリスト数は累積ではなく,即時 的な値であり,同一ユーザによる重複も許されていな いため,減少することも大いにあり得る.再生数同様, 不正アクセス行為や,意図的な一斉登録によって「工 作」が行われることが多々ある.
5
評価実験とまとめ
図 1に,既存ランキング法及び提案ランキング法に よる動画の評価値をそれぞれ示す.図より,既存ラン キング法の評価値は,再生数vn に対してほぼ線形に増 加するのみとなっているが,提案ランキング法の評価 値は,再生数とマイリスト率mn/vnに応じて評価を振 り分けることが可能となっている.ここで,提案ラン キング法の評価値は,マイリスト率が極端に高い(又 は低い)だけで評価値が極端に高く(又は低く)なっ ていないことに注意されたい. さらに,既存ランキング法及び提案ランキング法に 基 づ く 抽 出 法 の 評 価 結 果 を 図 2と 図 3に そ れ ぞ れ 示 す.図の縦軸はタグj を有する動画数 Ij を,横軸は 各手法によって求められた Z-scoreをそれぞれ表して いる.両図より,既存抽出法では,高い Z-scoreを得 るためにはタグを有する動画数が十分に多いことが条 件となっているが,提案抽出法では,動画数が少なく とも高い Z-scoreを得ることが可能となっている.更 に,図2(a)と図3(a)のZ-scoreの分散を比較すると, 28.51と22.92であるため,提案ランキング法の方が, 6 公表はされていないが,一般に60分とされている. 7 公表はされておらず,20秒で10コメントが目安とされている. 上位と下位で付与されているタグの偏りが少ないこと が分かる.また,図2(b)と図3(b)の Z-scoreの分散 は3.635と3.694であり,そこまで差が無いため,提案 抽出法はランキング法の影響を受けにくいということ が窺える. 更に細かな結果を見ていくと,例えば,楽曲として 高い質が期待できる「もっと評価されるべき」,「良作浮 上リンク」,「過剰埋没動画」等のタグは,既存抽出法 の Z-scoreでは両評価値においてほぼ最上位に位置し ているが,提案抽出法の Z-scoreでは両評価値におい てほぼ最下位に位置しているため,楽曲の質に関係な く,あらゆる動画に付けられていることが示唆される.謝辞
本研究は,科学研究費補助基金基盤研究(C)(No.25330635) の支援を受けて行ったものである.参考文献
[1] M.J. Salganik, P.S. Dodds, and D.J. Watts, : Ex-perimental Study of Inequality and Unpredictability in an Artificial Cultural Market, Science, vol. 311, pp. 854–856, (2006)
[2] Mann, H. B., and Whitney, D. R.: On a test of whether one of two random variables is stochastically larger than the other, Ann. Math. Statist., vol. 18, no. 1, pp. 572–578, (1947)
[3] Vapnik V.: The nature of statistical learning theory, Springer, (1995)
A
順位逆単調写像に基づく多群順位
統計量の平均と分散
補題 1 N 個 の 数 a1, · · · , aN か らM 個 の 数ak 1, · · · , akM を重複なく取り出したときの和S = PM i=1akiの 平均は,それぞれの取り出し方が等確率で起こるとす れば,(M/N ) PN i=1aiである. Sの総和をT =P S = P(ak 1+· · ·+akM)とする. た だしここで総和はすべてのM個の取り出し方を渡るも のとする.Tに要素aiが出現する回数はN −1CM −1であ る.したがってT =N −1CM −1 PN i=1aiである.取り出 し方はNCM通りあるから,Sの平均は(M/N ) PN i=1ai である. ✷ 補題 2 N個の数a1, · · · , aNからM個の数ak 1, · · · , akM を取り出したときの和S = PM i=1akiの分散は,それ(a)従来ランキング法による結果 (b)提案ランキング法による結果 図1: 動画に対する評価値のプロット −50 0 50 101 102 103 104 Z-score (conventional) Nu m b er of ob je ct s w h ic h b el on g to ca te go ry j (a)従来抽出法による結果 −2 −1 0 1 2 3 4 5 101 102 103 104 Z-score (proposed) Nu m b er of ob je ct s w h ic h b el on g to ca te go ry j (b)提案抽出法による結果 図2: 既存ランキング法に基づく評価結果 ぞれの取り出し方が等確率で起こるとすれば, M (N − M) N (N − 1) N X i=1 a2i − 1 N N X i=1 ai !2 である. Sの二乗和をU =P S2=P(ak 1 + · · · + akM) 2 と する. ただしここで総和はすべてのM 個の取り出し 方を渡るものとする.Uの中にaiaj (i 6= j) が出現す る回数は2N −2CM −2回である.よって, V = PN i=1ai, W = PN i=1a2i とすれば,U の中に出現するすべての aiaj (i 6= j) の総和はN −2CM −2 V2− Wで あ る . また,U の中にa 2 i が出現する回数はN −1CM −1回で ある.よってU の中に出現するすべてのa2i の総和は N −1CM −1W である.よって U = N −2CM −2 V2− W +N −1CM −1W = N −2CM −2 V2+N − M M − 1W である.したがってSの分散は 1 NCMU − M NV 2
−50 0 50 101 102 103 104 Z-score (conventional) Nu m b er o f o b je ct s w h ic h b el o n g to ca te g o ry j (a)従来抽出法による結果 −2 −1 0 1 2 3 4 5 101 102 103 104 Z-score (proposed) Nu m b er o f o b je ct s w h ic h b el o n g to ca te g o ry j (b)提案抽出法による結果 図3: 提案ランキング法に基づく評価結果 = M (M − 1) N (N − 1) V2+N − M M − 1W − MNV 2 = N M (M − 1) − M 2 (N − 1) N2(N − 1) V 2+M (N − M) N (N − 1) W = −M (N − M)N2(N − 1)V 2+M (N− M) N (N − 1) W = M (N− M) N (N − 1) W − N1V2 である. ✷ 定理 1 Iを全オブジェクト数,Ijをカテゴリjに属する オブジェクト数とするとき, カテゴリjに対する, 順位 逆単調写像に基づく多群順位統計量uj = P i∈Ijφ(ri) のの平均µj,および,その分散 σ2j は. µj = Ij I X i∈I φ(ri), (13) σ2 j = I − Ij I − 1 Ij I X i∈I φ(ri)2− 1 Ij µj2 ! (14) である. 補題1, 2において,N = I, M = Ijとし, a1, · · · , aN をφ(r1), · · · , φ(rI)とすれば明らか. ✷