九州大学学術情報リポジトリ
Kyushu University Institutional Repository
タグの類似度に着目した利用者投稿サイト動画の多 様性分析
上畑, 恭平
九州大学大学院システム情報科学府
伊東, 栄典
九州大学情報基盤研究開発センター
http://hdl.handle.net/2324/2557141
出版情報:電子情報通信学会技術研究報告 : 信学技報. 115 (381), pp.83-88, 2015-12-18. 電子情報通 信学会
バージョン:
権利関係:©2015 IEICE
This article is a technical report without peer review, and its polished and/or extended version may be published elsewhere.
Copyright ©2015 by IEICE
タグの類似度に着目した利用者投稿サイト動画の多様性分析
上畑 恭平
†伊東 栄典
‡†九州大学システム情報科学府
‡九州大学情報基盤研究開発センター
812-8581
福岡市東区箱崎6-10-1
E-mail:
†[email protected], ‡[email protected]あ ら ま し 近年,YouTube やニコニコ動画などの利用者投稿型動画共有サービスが人気である.これらのサイトは CGM
(Consumer Generated Media) とも呼ばれる.現在CGMサイトは社会に影響を与えるメディアに成長している.CGMサイトに毎
日多数の動画が投稿されており,また膨大な利用者が動画を閲覧している. 現在,CGMサイトに投稿されるコンテンツの画一
化が指摘されている.以前見たことのあるような動画や,派生動画が増えているように感じられる.コンテンツの多様性が減少
して画一化が進むと,文化的多様性が失われると思われる.我々は,CGM サイトであるニコニコ動画を対象に,動画コンテン
ツの多様性動向を分析している.今回,動画に付与されたタグについて,動画タグ間の類似度に着目した分析を行った.その結 果を報告する.
キーワード CGM,コンテンツの多様性,タグ,cos類似度,情報エントロピー
An analysis of movie contents diversity based on similarity of movie tags
Kyohei KAMIHATA
†and Eisuke ITO
‡†Department of ISEE, Kyushu University 6-10-1 Hakozaki, Higashi-ku, Fukuoka, 812-8581 Japan
‡Research Institute for IT, Kyushu University 6-10-1 Hakozaki, Higashi-ku, Fukuoka, 812-8581 Japan
E-mail:
†[email protected],
‡[email protected]
Abstract Recent years, CGM (Consumer Generated Media) sites, such as YouTube nicovideo, become popular. CGM site also become a contents delivery media, which is able to give an influence on society. A lot of movies are posted to a CGM site every day, and also a large number of users are enjoying posted movies. At present, decreasing diversity of contents are indicated by some opinions. Posted movies may be similar with previous posted movies. The authors are afraid that decreasing diversity of contents causes less energetic cultural activity. In this paper, the authors tried to measure diversity of contents in a CGM site. They calculated the similarity between the movies using cosine similarity of tags of movie set.
Keywords CGM,Contents Diversity,Tag,Cosine Similarity, Information Entropy
1. は じ め に
近 年 ,YouTubeや ニ コ ニ コ 動 画 な ど の 利 用 者 投 稿 型 動 画 共 有 サ ー ビ ス が 人 気 で あ る . こ れ ら の サ イ ト は CGM (Consumer Generated Media) と も 呼 ば れ る . サ ー ビ ス 開 始 か ら 数 年 経 過 し た CGM サ イ ト は , 社 会 に 大 き な 影 響 を 与 え る メ デ ィ ア に 成 長 し て い る .CGMサ イ ト に 毎 日 多 数 の 動 画 が 投 稿 さ れ て お り , ま た 膨 大 な 利 用 者 が 動 画 を 閲 覧 し て い る . 動 画 以 外 に も , 小 説 投 稿 サ イ ト や 写 真 共 有 サ イ ト も 人 気 で あ る .
我 々 は , ニ コ ニ コ 動 画 を 対 象 に , 視 聴 者 投 稿 コ メ ン ト の 感 情 分 析 に 基 づ く 動 画 ラ ン キ ン グ 手 法 の 研 究 し て き た[1]. ま た 他 の CGM サ イ ト と し て , 小 説 投 稿 サ イ ト 「 小 説 家 に な ろ う (syosetu.com) 」 を 対 象 に , 小 説
に 付 与 さ れ た タ グ の 分 析 や[2],お 気 に 入 り 登 録 の 構 造 解 析 に 基 づ く 小 説 ラ ン キ ン グ 手 法 を 研 究 し て き た[3].
現 在 ,CGMサ イ ト に 投 稿 さ れ る コ ン テ ン ツ の 画 一 化 が 指 摘 さ れ て い る . ニ コ ニ コ 動 画 を 運 営 す る ド ワ ン ゴ 社 川 上 量 生 氏 へ の イ ン タ ビ ュ ー 記 事[4]で は ,再 生 回 数 上 位 の 動 画 は , 同 一 カ テ ゴ リ の 動 画 に な り つ つ あ る と い う 傾 向 を 指 摘 し て い る .
コ ン テ ン ツ の 多 様 性 が 減 少 し , 画 一 化 が 進 む と , 文 化 的 多 様 性 が 失 わ れ る と 思 わ れ る . あ る 特 定 の 環 境 に 特 化 し 過 ぎ て 多 様 性 を 失 っ た 文 化 か ら は , 新 た な 文 化 的 イ ノ ベ ー シ ョ ン が 発 生 し に く い と 思 わ れ る .
我 々 は ,CGM サ イ ト で あ る ニ コ ニ コ 動 画 を 対 象 に , 動 画 に 付 与 さ れ た タ グ の 多 様 性 を 分 析 す る 事 に し た . 本 論 文 の 構 成 を 述 べ る. 2 節 で は 国 立 情 報 学 研 究 所 が
提 供 す る ニ コ ニ コ デ ー タ セ ッ ト に つ い て 述 べ る .3 節 で は , 動 画 集 合 に お け る , 様 々 な 頻 度 解 析 に つ い て 述 べ る . 4 節 で は , タ グ 多 様 性 と 情 報 エ ン ト ロ ピ ー に つ い て 述 べ る .5節 で は 本 論 文 の 主 題 で あ る ,cos類 似 度 に つ い て 述 べ る .6 節 で は , 実 デ ー タ を 用 い た タ グ の cos 類 似 度 の 測 定 及 び 時 系 列 で の 動 向 を 示 し , 考 察 を 行 う . 最 後 に7節 で , ま と め と 今 後 の 課 題 を 述 べ る .
2. ニ コ ニ コ デ ー タ セ ッ ト 2.1. ニ コ ニ コ 動 画
ニ コ ニ コ 動 画 は 2006 年 12 月 12 日 に サ ー ビ ス を 開 始 し た , 視 聴 者 投 稿 型 の 動 画 配 信 サ ー ビ ス で あ る . 運 営 開 始 か ら 8年 経 過 し た 2014年 12月 末 現 在 ,1100万 件 を 超 え る 動 画 が 投 稿 さ れ て い る . 会 員 数 も 膨 大 で , wikipedia[5]に よ る と 2013 年 6 月 時 点 で の 一 般 会 員 の ア カ ウ ン ト 数 は3000万 を 超 え て お り ,有 料 の プ レ ミ ア ム 会 員 数 も 200 万 を 超 え て い る .
2.2. ニ コ ニ コ デ ー タ セ ッ ト
国 立 情 報 学 研 究 所 は , 情 報 学 研 究 リ ポ ジ ト リ と 名 付 け た , 研 究 用 の デ ー タ 集 合 を 提 供 し て い る . ド ワ ン ゴ 社 お よ び 未 来 検 索 ブ ラ ジ ル 社 は , 国 立 情 報 学 研 究 所 に 協 力 し て 研 究 者 に ニ コ ニ コ デ ー タ セ ッ ト を 提 供 し て い る[6].こ の デ ー タ セ ッ ト に は ニ コ ニ コ 動 画 コ メ ン ト 等 デ ー タ と , ニ コ ニ コ 大 百 科 デ ー タ が 有 る . 本 研 究 で は 前 者 の 動 画 コ メ ン ト 等 デ ー タ を 利 用 し て い る . 前 者 の デ ー タ 数 な ど の 概 要 を 表 1に 示 す .
ニ コ ニ コ 動 画 コ メ ン ト 等 デ ー タ に 含 ま れ て い る 項 目 の 一 部 を 表2に 示 す .
3. 動 画 の 頻 度 分 析
ニ コ ニ コ デ ー タ セ ッ ト の , 動 画 メ タ デ ー タ を 用 い て , 月 ご と の 動 画 投 稿 数 , タ グ 数 , 頻 度 な ど を 調 査 し た .
3.1. 各 月 の 動 画 投 稿 数
各 月 の 動 画 投 稿 数 を 図 1に 示 す .図 1 か ら ,2007年 3月 か ら 2012 年 11 月 ま で の 間 , 概 ね 右 肩 上 が り に 投 稿 動 画 数 が 増 え て い る こ と が 分 か る .2012年 の 動 画 の 投 稿 数 は 月 18万 個 程 度 で あ る .
3.2. 一 意 な タ グ 数
次 に そ の 月 に 投 稿 さ れ た 動 画 集 合 を 対 象 に , 付 与 さ れ た タ グ に つ い て 調 査 し た . 図2に 各 月 の 一 意 な タ グ 数 を 示 す .2008年 3月 ま で 急 激 に 増 加 し ,そ の 後 は 毎 月 180万 個 程 度 の タ グ 数 に な っ て い る .
表 1 動 画 コ メ ン ト 等 デ ー タ 概 要
項 目 内 容
期 間 2007年 3月 〜2012年 11 月
形 式 JSON形 式
デ ー タ 件 数
( 動 画 数 ) 8,305,696 一 意 な タ グ 数 5,328,341
表 2 動 画 メ タ デ ー タ に 含 ま れ る 項 目
項 目 説 明
video_id 動 画ID
title 動 画 の 題 名
description 動 画 の 説 明 文
upload_time 動 画 投 稿 日 時
length 動 画 長
movie_type 動 画 の フ ァ イ ル 形 式 view_counter 閲 覧 回 数 ( 再 生 回 数 ) comment_counter コ メ ン ト 数
mylist_counter マ イ リ ス ト 登 録 数
tags 動 画 に 付 与 さ れ た タ グ
図 1 動 画 投 稿 数
図 2 各 月 の 一 意 な タ グ 数
3.3. 動 画 再 生 回 数 の 順 位-頻 度
動 画 の 再 生 回 数 を 降 順 で 並 べ た デ ー タ を 作 成 し た . そ の デ ー タ に 基 づ き , 縦 軸 に 再 生 回 数 , 横 軸 に 順 位 を 取 っ た 散 布 図 を 図 3に 示 す . な お , 両 軸 と も 対 数 尺 度 に し て い る .
図 3 動 画 の 順 位-再 生 回 数 ( 対 数 尺 度 )
図 3で 分 か る よ う に , 再 生 回 数 上 位 の 動 画 の 分 布 は 直 線 に 近 い . 両 対 数 グ ラ フ で 直 線 で あ る た め , 冪 乗 則
(Power law) に 近 い 分 布 を し て い る . し か し な が ら , 再 生 回 数 の 低 い 部 分 は , 直 線 で は な い .
次 に , 横 軸 に 再 生 回 数 , 縦 軸 に は そ の 再 生 回 数 を 持 つ 動 画 の 数 を 散 布 図 で 描 い た . こ の 散 布 図 を 図4と 図 5に 示 す .
図 5を 見 る と 分 か る よ う に , 横 軸 を 対 数 尺 度 に す る と , 正 規 分 布 に 近 い 曲 線 を 描 く こ と が 分 か る . こ の た め , 再 生 回 数 の 分 布 は 対 数 正 規 分 布 に 近 い 分 布 で あ る こ と が 分 か る .
図 4 再 生 回 数-動 画 数 ( 再 生 回 数 1000回 以 下 )
図 5 再 生 回 数-動 画 数 ( 再 生 回 数 1000回 以 下 ・ 横 軸 対 数 尺 度 )
3.4.
タ グ 頻 度 ( 出 現 回 数 ) の 順 位
-頻 度
動 画 に 付 与 さ れ た タ グ に つ い て , 各 タ グ の 出 現 回 数
( 頻 度 ) を 降 順 で 並 べ た デ ー タ を 作 成 し た . そ の デ ー タ に 基 づ き , 縦 軸 に 頻 度 , 横 軸 に 順 位 を 取 っ た 散 布 図 を 図 6に 示 す . な お , 両 軸 と も 対 数 尺 度 に し て い る . 図 6の 分 布 は 両 対 数 尺 度 で 直 線 を 示 し て い る . こ の た め タ グ の 出 現 頻 度 は 冪 分 布 で あ る こ と が 分 か る . 小 説 な ど の 自 然 言 語 文 に お け る 単 語 の 出 現 頻 度 分 布 は 冪 分 布 に な る . 動 画 の タ グ 群 も 自 然 な 分 布 を し て い る と 言 え る .
図 6 タ グ の 順 位-頻 度 ( 両 対 数 尺 度 )
4. タ グ の 多 様 性
先 に , イ ン タ ビ ュ ー[4]や ブ ロ グ[5]で ,CGM サ イ ト へ の 投 稿 コ ン テ ン ツ の 多 様 性 減 少 へ の 懸 念 が 指 摘 さ れ て い る こ と を 述 べ た . 筆 者 ら の 感 覚 と し て も 多 様 性 が 減 り , 画 一 化 が 進 ん で い る よ う に 感 じ ら れ る . 本 当 に 多 様 性 が 減 少 し て い る の か を 判 断 す る た め に は 定 量 的 な 指 標 が 必 要 で あ る .
本 研 究 で は , コ ン テ ン ツ 多 様 性 の 度 合 い を 数 値 で 評 価 す る 指 標 を 提 案 す る . そ の た め , 動 画 に 付 与 さ れ て
い る メ タ デ ー タ を , 特 に 動 画 に 付 与 さ れ た 単 語 を 用 い て 多 様 性 の 度 合 い を 数 値 化 す る .
4.1.
多 様 性 に つ い て の 考 え 方
コ ン テ ン ツ の 多 様 性 に つ い て 考 え る た め , 最 初 に 極 端 な 場 合 を 考 え る . も し も コ ン テ ン ツ が 完 全 に 画 一 化 さ れ て い る な ら ば , 全 て の コ ン テ ン ツ に 付 与 さ れ る タ グ も 同 じ に な る . コ ン テ ン ツ 数 ( 文 書 数 ) を n, タ グ の 単 語 w の 文 書 頻 度 を df(w)と す る と , 全 て の タ グ w に つ い て df(w)=nで あ る .
逆 に 完 全 に 多 様 で あ れ ば , 全 コ ン テ ン ツ に 付 与 さ れ る タ グ が 異 な る で あ ろ う . 完 全 に 多 様 な 場 合 は , 全 て の タ グwに つ い て df(w)=1で あ る .
実 際 の 動 画 で は , カ テ ゴ リ や ジ ャ ン ル を 指 定 す る タ グ を 付 与 す る .カ テ ゴ リ タ グ は 30個 で 有 限 で あ る た め , こ れ は 多 様 に な ら な い . ま た , 図 6で 示 し た よ う に , 多 く の タ グ は 出 現 頻 度 が 1で あ る . 頻 度 5以 下 の タ グ が 殆 ど で あ る た め , 低 頻 度 の タ グ だ け を 見 て 多 様 で あ る と す る こ と は 望 ま し く な い .
4.2. タ グ 多 様 性 の 定 義
情 報 エ ン ト ロ ピ ー の 考 え を 用 い て , コ ン テ ン ツ 集 合
( 文 書 集 合 ) に 対 す る タ グ の 多 様 性 を 定 義 す る . そ の 際 , 以 下 の 記 号 を 用 い る .
D : 動 画 集 合,
n : 動 画 数 ( |D| = n ), W : タ グ 集 合,
df(w) : タ グwの 文 書 頻 度.
情 報 エ ン ト ロ ピ ー の 考 え た 方 を 用 い て ,集 合Dと タ グ 集 合 W の 多 様 度 を 単 語 当 た り の 情 報 エ ン ト ロ ピ ー H(W)と し て 定 量 化 す る .
𝐻 𝑊 =−𝛴𝑝 𝑤 log 𝑝 𝑤 , 𝑝 𝑤 =𝑑𝑓 𝑤
𝑛 , 0≦𝑝 𝑤 ≦1.
こ こ で p(w) は タ グ w の 出 現 確 率 で あ る . ニ コ ニ コ 動 画 で は , 1 つ の 動 画 に 1 つ の タ グ を 複 数 回 付 与 で き な い .そ の た め ,タ グ wの 出 現 確 率 は p(w) = df(w)/n に な る .
4.3. タ グ の 多 様 性 動 向
情 報 エ ン ト ロ ピ ー を タ グ に 適 用 し た タ グ 多 様 性 の 度 合 い で る H(W) の 値 を , 各 月 の 投 稿 動 画 に 付 与 さ れ て い る タ グ で 算 出 し た .図2の 青 線 は 各 月 のH(W)の 推 移 で あ る . ま た , 図2の 赤 線 は , 各 月 の 動 画 集 合 で ,
動 画 に 付 与 さ れ た タ グ 集 合 に お け る 一 意 な タ グ の 数 を 示 す .
図 7 タ グ 多 様 度 ( 青 線 ) と 一 意 な タ グ 数 ( 赤 線 )
図 7を 見 る と , 一 意 な タ グ 数 ( 赤 線 ) は 緩 や か に 増 加 し て い る の に 対 し , タ グ 多 様 度 ( エ ン ト ロ ピ ー ) は 減 少 し て い る .
5. 類 似 度 と 距 離
投 稿 コ ン テ ン ツ の 多 様 性 減 少 に つ い て , 各 動 画 に 付 与 さ れ て い る タ グ 群 同 士 の 距 離 が 近 づ い て い る , も し く は 類 似 度 が 増 加 し て い る こ と で 判 断 で き る と 考 え た .
2 つ の 集 合 の 距 離 , 類 似 度 を 測 定 す る 方 法 と し て , ユ ー ク リ ッ ド 距 離 , マ ン ハ ッ タ ン 距 離 ,cos 類 似 度 , ピ ア ソ ン の 相 関 関 係 ,Jaccard係 数 ,Dice係 数 ,Simpson 係 数 な ど が 知 ら れ る .
集 合 間 の 類 似 性 を 「 共 通 要 素 が 多 く , 非 共 通 要 素 が 少 な い 」 場 合 に 大 き い と す る と , 先 に 述 べ た 手 法 の う ち cos類 似 度 ,Jaccard係 数 ,Dice係 数 ,Simpson係 数 を 集 合 の 類 似 性 の 指 標 と し て 扱 う こ と が で き る[7]. 本 研 究 で は , こ の 4 つ の 手 法 の う ち , 比 較 的 計 算 が 容 易 で あ り , 類 似 度 の 指 標 と し て 最 も 用 い ら れ て い る cos 類 似 度 を 算 出 す る こ と に し た .
5.1. cos
類 似 度 に つ い て
cos 類 似 度 と は , 2 つ の 文 書 間 の 類 似 度 を 測 る 手 法 の 一 つ で あ る . 文 書 を ベ ク ト ル と み な し て , 2 つ の ベ ク ト ル の 向 き の 近 さ を 類 似 度 の 指 標 と し た も の が cos 類 似 度 で あ る .cos 類 似 度 は 0 か ら 1 の 値 を 取 り , 値 が 大 き い ほ ど 2 つ の 文 書 は 似 て い る と 言 え る . 本 研 究 で は , 各 動 画 に 付 与 さ れ た タ グ 群 を そ れ ぞ れ 一 つ の ベ ク ト ル と み な し , 2 つ の タ グ 群 の 全 て の 組 み 合 わ せ に つ い て cos 類 似 度 を 算 出 し , そ れ ら を 足 し 合 わ せ る こ と で cos類 似 度 の 総 和 を 求 め る . 対 象 と す る 文 書 数 を 同 じ に し て ,cos 類 似 度 の 総 和 を 比 較 す る こ と で , 文 書 の 類 似 度 が 増 加 し て い る か を 判 断 で き る .
0"
50000"
100000"
150000"
200000"
250000"
0"
100"
200"
300"
400"
500"
600"
2007*03" 2007*07" 2007*11" 2008*03" 2008*07" 2008*11" 2009*03" 2009*07" 2009*11" 2010*03" 2010*07" 2010*11" 2011*03" 2011*07" 2011*11" 2012*03" 2012*07" Num$of$tags
Entropy
5.2. cos
類 似 度 の 定 義
以 降 で 用 い る 記 号 を , 以 下 の よ う に 定 義 す る .
D : 文 書 集 合,
n : 文 書 数 ( |D| = n ), W : タ グ 集 合,
d(w)i : 動 画iに 付 与 さ れ た タ グ 群 ベ ク ト ル.
cos 類 似 度 を 算 出 す る 際 の 2 つ の タ グ 群 ベ ク ト ル を 𝑑(𝑤)!,𝑑(𝑤)!と し . そ れ ぞ れ の ベ ク ト ル が 以 下 で あ る と す る .
d(w)!= a,b,c,d d(w)!= a,c,e,f,g
こ の 時 ,𝑑(𝑤)!と𝑑(𝑤)!で 次 元 が 異 な る の で , 次 元 を 揃 え た ベ ク ト ルxを 考 え る .
𝑥=(𝑎,𝑏,𝑐,𝑑,𝑒,𝑓,𝑔)
𝑑(𝑤)!,𝑑(𝑤)!か らxの 要 素 の 有 無 を 0,1で 表 し た ベ ク ト ル𝑑’(𝑤)!,𝑑′(𝑤)!を 作 成 す る . 以 下 の よ う に な る .
𝑑′(𝑤)!= 1,1,1,1,0,0,0 𝑑′(𝑤)!= 1,0,1,0,1,1,1
こ の 2 つ の ベ ク ト ル𝑑′(𝑤)!,𝑑′(𝑤)!を 用 い て cos 類 似 度 を 算 出 す る .
𝐶𝑜𝑠𝑖𝑛𝑒 𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦= 𝑑′(𝑤)!∙𝑑′(𝑤)! 𝑑′(𝑤)! ∙ 𝑑′(𝑤)!
ニ コ ニ コ 動 画 で は , 1 つ の 動 画 に 付 与 さ れ る タ グ 数 は 最 大 1 0 個 で あ り , か つ 1 つ の 動 画 に 同 じ タ グ を 複 数 回 付 与 す る こ と は で き な い . そ の た め ,
0≤ 𝑑(𝑤)! ≤10 0≤ 𝑑(𝑤)! ≤10
で あ り ,𝑑′(𝑤)!,𝑑′(𝑤)!の 要 素 は そ れ ぞ れ 0 か 1と な る . よ っ て𝑑′(𝑤)!∙𝑑′(𝑤)!の 値 は ,𝑑(𝑤)!と𝑑(𝑤)!に 共 通 し て 含 ま れ る タ グ の 個 数 と な る .
上 記 の よ う に cos類 似 度 を ,全 て の 文 書 集 合Dの 2 つ の タ グ 群 の 組 み 合 わ せ に つ い て 算 出 し , そ れ ら を 足 し 合 わ せ た cos 類 似 度 の 総 和 を 算 出 し た . な お , 組 み 合 わ せ の 数 はn(n-1)/2個 に な る .
6. cos類 似 度 の 総 和 の 動 向
動 画 に 付 与 さ れ た タ グ 群 の cos類 似 度 の 総 和 を 月 ご と に 算 出 し た .こ こ で は ,文 書 数(動 画 数)は ,𝑛 = 1000 で あ る .図 8 で は 各 月 の 再 生 回 数 上 位 1000個 の 動 画 を 対 象 に cos 類 似 度 の 総 和 を 算 出 し た . 図 9 で は , 各 月 の 全 動 画 の う ち ラ ン ダ ム に 1000個 選 び ,cos類 似 度 の 総 和 を 算 出 , こ れ を 10 回 繰 り 返 し ,10 回 の 平 均 値 を 算 出 し た .
図 8 .cos類 似 度 の 総 和 (再 生 回 数 で 上 位 1000個 の 動 画)
図 9 .1000動 画 間 の cos類 似 度 の 総 和 (ラ ン ダ ム に 1000個 の 動 画 を 選 出)
図 8 , 図 9 を 見 る と , ど ち ら もcos類 似 度 の 総 和 が 緩 や か に 増 加 し て い る こ と が わ か る .
7. お わ り に
本 論 文 で は , 近 年 人 気 の CGM サ イ ト , ニ コ ニ コ 動 画 を 対 象 に , コ ン テ ン ツ の 多 様 性 の 動 向 を 調 査 し た . 情 報 エ ン ト ロ ピ ー の 定 義 を 援 用 し て , 毎 月 の タ グ 多 様 性 を 数 値 で 表 現 し た . 情 報 エ ン ト ロ ピ ー を 用 い て ,
月 ご と の タ グ 多 様 性 を 算 出 し , そ れ を 時 系 列 で 折 れ 線 グ ラ フ 表 示 し た . そ の 結 果 , 一 意 な タ グ 数 ( 赤 線 ) は 緩 や か に 増 加 し て い る の に 対 し , タ グ 多 様 度 ( エ ン ト ロ ピ ー ) は 減 少 し て い る .
ま た , 投 稿 動 画 に 付 与 さ れ る タ グ に つ い て ,cos 類 似 度 を 用 い て ,毎 月 の タ グ の 類 似 度 を 数 値 で 表 現 し た . cos類 似 度 を 用 い て ,月 ご と タ グ 群 の cos類 似 度 の 総 和 を 算 出 し , そ れ を 時 系 列 で 折 れ 線 グ ラ フ 表 示 し た . そ の 結 果 ,再 生 回 数 上 位 1000個 の cos類 似 度 の 総 和 は 緩 や か に 増 加 し て い る . ま た , 全 動 画 の う ち ラ ン ダ ム に 1000個 選 び ,cos類 似 度 の 総 和 を 算 出 ,こ れ を 10回 繰 り 返 し ,10回 の 平 均 値 を 算 出 し た も の に つ い て も ,類 似 度 の 総 和 が 緩 や か に 増 加 し て い る . こ の こ と か ら , 共 通 要 素 が 多 く な り , 非 共 通 要 素 が 少 な く な っ て い る 2 つ の タ グ 群 の 組 み 合 わ せ が 増 加 し て い る . つ ま り , 類 似 し て い る タ グ 群 を 持 つ 動 画 が 増 加 し て い る .
情 報 エ ン ト ロ ピ ー と cos 類 似 度 か ら , タ グ の 多 様 性 は 徐 々 に 失 わ れ て い る . こ の 事 は , 投 稿 さ れ る 動 画 の 多 様 性 減 少 を 示 す も の と 考 え て い る .
今 後 は , タ グ 群 に つ い て ク ラ ス タ リ ン グ を 行 い , タ グ 群 の 偏 り や 全 体 の 傾 向 を 調 査 し て い き た い . ま た , 将 来 は 電 子 コ ン テ ン ツ に お け る 利 用 閲 覧 モ デ ル も 考 え た い . 多 様 性 喪 失 の 原 因 と し て , 端 末 の 狭 さ が あ る と 思 わ れ る .書 店 や 図 書 館 と 異 な り ,PC等 で は 多 数 の コ ン テ ン ツ を 一 覧 で き な い . ま た , コ ン テ ン ツ を 試 す に は 一 つ ず つ 閲 覧 す る し か な い . 独 力 で 多 数 を 試 す に は 時 間 が 掛 か る た め , 既 知 コ ン テ ン ツ に 近 い も の を 閲 覧 す る の で あ ろ う . 作 者 も , 人 気 を 得 や す い 分 野 の コ ン テ ン ツ を 作 り た が る 傾 向 が あ る . 利 用 者 の 閲 覧 モ デ ル
を 作 る こ と で , 多 様 性 喪 失 の 原 因 が 分 か り , そ こ か ら 多 様 性 を 保 持 す る 閲 覧 ソ フ ト の 開 発 が で き る と 思 わ れ る .
謝 辞
本 研 究 はJSPS科 研 費15K00451の 助 成 を 受 け た も の で あ る .
文 献
[1] Naomichi Murakami, Eisuke Ito: Emotional video ranking based on user comments, Proc. of
iiWAS2011, pp.499-502, ACM, 2011.
[2] Eisuke Ito, Kazunori Shimizu: Frequency and link analysis of online novels toward social contents ranking, Proc. of SCA2012, pp.531-536, Nov. 2012.
[3] Kazunori Shimizu, Eisuke Ito, Sachio Hirokawa:
Predicting Future Ranking of Online Novels based on Collective Intelligence, Proc. of ICDIPC2013, SDIWC, pp.261-272, 2013.
[4] Cakes, 川 上 量 生:川 上 量 生 の 胸 の う ち , https://cakes.mu/posts/5036 (accessed at Dec.12, 2014).
[5] ニ コ ニ コ 動 画 (Dec.12,2014) in Wikipedia: The Free Encyclopedia. Retrieved from
http://ja.wikipedia.org/wiki/%E3%83%8B%E3%82
%B3%E3%83%8B%E3%82%B3%E5%8B%95%E7%
94%BB
[6] 国 立 情 報 学 研 究 所 , ド ワ ン ゴ 社:ニ コ ニ コ デ ー タ セ ッ ト:
http://www.nii.ac.jp/cscenter/idr/nico/nico.html, (accessed at Dec.12, 2014).
[7] Similarity and distance:
http://wikiwiki.jp/cattail/?%CE%E0%BB%F7%C5
%D9%A4%C8%B5%F7%CE%A5