* 1:http://www. youtube. com/ * 2:http://www.nhk. or.jp/archives/
Wikipedia を利用したニュース映像アーカイブへの自動索引付け
奥岡 知樹
†高橋 友和
††出口 大輔
†井手 一郎
†,†††村瀬 洋
†† 名古屋大学大学院情報科学研究科 〒464-8601 愛知県名古屋市千種区不老町
†† 岐阜聖徳学園大学経済情報学部 〒500-8288 岐阜県岐阜市中鶉 1-38
††† 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2
E-mail: † {okuoka,ide,murase}@murase.m.is.nagoya-u.ac.jp, †† [email protected], ††† [email protected]
あらまし テレビやインターネット上での映像コンテンツの増加により,映像アーカイブを効率良く閲覧・検索
する技術が求められている.そこで本稿では,資料映像として利用価値の高いニュース映像に注目し,Wikipedia
を利用したニュース映像アーカイブの閲覧支援技術を提案する.テキスト情報の類似度評価を基に,各映像に対し
て Wikipedia エントリによる自動索引付けを行う.索引付け結果を利用し,各エントリに関連する映像群を抽出,
提示する.実験により適合率 86%,再現率 79%で索引付けが行えることを確認した.また,話題の変遷の理解や放
送日が離れた映像間の関連発見など,クローズドキャプションのみでは得られない情報を得られることを確認した.
キーワード Wikipedia,ニュース映像,映像アーカイブ,自動索引付け
Automatic Indexing of a News Video Archive with Wikipedia Entries
Tomoki OKUOKA
†Tomokazu TAKAHASHI
††Daisuke DEGUCHI
†Ichiro IDE
†, †††and Hiroshi MURASE
†† Nagoya University Graduate School of Information Science Furo-cho, Chikusa-ku, Nagoya, Aichi, 464-8601 Japan
†† Gifu Shotoku Gakuen University Faculty of Economics and Information 1-38, Nakauzura, Gifu-shi, Gifu,
500-8288 Japan
††† National Institute of Informatics 2-1-2 Hitotsubashi, Chiyoda-ku, Tokyo, 101-8430 Japan
E-mail: † {okuoka,ide,murase}@murase.m.is.nagoya-u.ac.jp, †† [email protected], ††† [email protected]
Abstract Following the increase of video contents on TV or the Internet, efficient techniques to browse and search video
data in an archive are needed. We propose a method to support browsing a news video archive with the help of Wikipedia
because news videos are important as video contents. First, videos are automatically indexed by Wikipedia entries by means
of evaluating the similarity of text information. Using those indices, we extract and present video groups via an interface, that
correspond to each Wikipedia entry. Through experiments, news videos were accurately indexed by Wikipedia entries with a
precision of 86% and a recall of 79%. In addition, we confirmed that we could obtain information which could not be
obtained by closed captions, such as understanding the transition of topics or discovering the associations between videos
which are broadcasted on distant days.
Keyword Wikipedia,News Video,Video Archive,Automatic Indexing
1. はじめ に
近 年 ,YouTube( *1)な ど の 動 画 共 有 サ イ ト の 普 及 に よ り , 誰 で も 手 軽 に 映 像 ア ー カ イ ブ を 利 用 す る こ と が 可 能 と な っ た .ま た NHK アー カイブ ス( * 2)な ど ,過 去 に 放 送 さ れ た 映 像 を 再 利 用 す る と い う 取 り 組 み も 行 わ れ て お り , こ の よ う な 映 像 ア ー カ イ ブ を 効 率 的 に 閲 覧 ・ 検 索 す る 技 術 が 求 め ら れ て い る . そ の 中 で も ニ ュ ー ス 映 像 は 資 料 映 像 と し て 利 用 価 値 が 高 い .そ こ で 我 々 は , ニ ュ ー ス 映 像 ア ー カ イ ブ の 効 率 的 な 閲 覧 技 術 に 注 目 し て い る . ニ ュ ー ス 映 像 の 構 造 解 析 や 閲 覧 技 術 に 関 し て は , 多 く の 研 究 が な さ れ て い る . そ の 多 く は 映 像 に 付 与 さ れ た 文 字 放 送 字 幕 テ キ ス ト ( Closed Caption ; 以下 CC) を 利 用 し , そ れ ら の テ キ ス ト 情 報 の 類 似 度 を 基 に 映 像 間 の 関 連 を 分 析 し て い る . 井 手 ら は , 強 く 関 連 し た ニ ュ ー ス 映 像 を 時 系 列 に 連 鎖 す る こ と に よ り ト ピ ッ ク ス レ ッ ド 構 造 を 構 築 し , 映 像 ア ー カ イ ブ の 構 造 解 析 や 閲* 3:http://ja.wikipedia. org/wiki/ Wikipedia/ 覧 イ ン タ フ ェ ー ス を 実 現 し た [1].しか し 各 ニュ ース映 像 が 表 す 内 容 が 明 示 さ れ て お ら ず , あ る ニ ュ ー ス イ ベ ン ト に 関 連 す る 映 像 を 閲 覧 し た い 場 合 に は 適 切 で は な い . ま た ニ ュ ー ス の 中 に は , 長 い 期 間 を 通 し て 少 し ず つ 放 送 さ れ る ト ピ ッ ク も 存 在 し , 従 来 の 技 術 で は こ の よ う な 場 合 へ の 対 応 が 困 難 で あ る . そ こ で 本 稿 で は , オ ン ラ イ ン 百 科 事 典 と し て 有 名 な Wikipedia( * 3)に 注 目 し ,Wikipedia を利 用し た ニ ュース 映 像 ア ー カ イ ブ の 閲 覧 支 援 技 術 を 提 案 す る . ま ず テ キ ス ト 情 報 の 類 似 度 評 価 を 基 に , 各 映 像 に 対 し て Wikipedia エ ン ト リ に よ り 自 動 索 引 付 け を 行 う .次 に そ れ を 利 用 し て 各 エ ン ト リ に 関 連 す る 映 像 群 を 抽 出 , 提 示 す る .こ の 際 ,文 献 [1]の トピ ックス レッ ド構 造中の 各 映 像 に 対 し て 索 引 付 け を 行 う こ と で , あ る ニ ュ ー ス イ ベ ン ト に 関 連 し た 映 像 群 を 時 系 列 に 閲 覧 す る こ と が 可 能 と な る . ま た 従 来 は 計 算 量 的 に 処 理 が 困 難 で あ っ た , 放 送 日 が 離 れ た 映 像 間 の 関 連 を 発 見 す る こ と も 可 能 と な る . 索 引 付 け の 際 に Wikipedia を 利用 する ことの 利点 は, 以 下 に 示 す 2 つの 特長 によ る.1 つ目は Wikipedia エン ト リ に 関 し て , 表 記 と 概 念 が 一 対 一 に 対 応 し て い る こ と で あ る . CC に お い て は「 自 由 民 主 党」,「自 民 党」 と 様 々 な 表 記 で 使 用 さ れ る 概 念 で あ っ て も ,Wikipedia で は「 自 由 民 主 党( 日 本 )」と い う エ ン ト リ で 扱 わ れ る . こ れ に よ り 索 引 の 表 記 の ゆ れ を 解 消 し , 重 複 の な い 索 引 付 け ・ 閲 覧 が 実 現 で き る . そ し て 2 つ目 に, コンテ ン ツ の 網 羅 性 が あ る . 一 般 に ニ ュ ー ス イ ベ ン ト に 関 し て 発 端 か ら 終 息 ま で の 一 連 の 流 れ が 詳 細 に 説 明 さ れ て お り , 閲 覧 技 術 の 構 築 に 有 用 で あ る と 考 え る . 以 降 , 第 2 章で 関連 研究を 紹介 した 後, 第 3 章 で Wikipedia を 利 用 し た ニ ュ ー ス 映 像 ア ー カ イ ブ へ の 自 動 索 引 付 け に 関 す る 処 理 の 詳 細 を 述 べ る . 続 く 第 4 章 で , 対 応 付 け の 精 度 に 関 す る 実 験 や 抽 出 結 果 の 例 を 紹 介 し 考 察 を 述 べ る . 最 後 に 第 5 章にお いて 今後 の課題 を 検 討 し , 本 稿 を ま と め る . な お , 以 降 “ ス ト ー リ ” と は , 一 つ の イ ベ ン ト を 扱 っ た , ニ ュ ー ス 映 像 の 意 味 的 な 最 小 単 位 を 表 わ す [2].
2. 関連研 究
2.1. ニュース映 像 の閲 覧 に関 する研 究
ニ ュ ー ス 映 像 の 閲 覧 支 援 を 目 的 と し た 研 究 と し て , ニ ュ ー ス 映 像 の 時 系 列 意 味 構 造 解 析 に 関 す る 研 究 が 多 く な さ れ て い る . 最 も 単 純 な 手 法 と し て , 特 定 の ト ピ ッ ク に 関 連 す る ス ト ー リ を 時 系 列 に 直 線 状 に 連 ね る 方 法 が 考 え ら れ る [2][3].しか し直 線構造 では 同一 トピッ ク で あ っ て も 同 時 並 行 し て 進 む 個 別 の 話 題 の 流 れ を 表 現 で き な い . こ れ に 対 し Wu ら は,特 定の トピ ックに 関 連 す る ス ト ー リ を 集 め た ク ラ ス タ に お い て , 時 系 列 の 前 後 関 係 と 話 題 の 変 化 に 応 じ て 2 分 グラ フを 構築す る 手 法 を 提 案 し た [4].し かしこ の方 法で も,新 規スト ー リ 同 士 の 関 係 は 時 系 列 の 前 後 関 係 の み で あ り , 同 時 並 行 し て 進 む 個 別 の 話 題 の 流 れ を 表 現 で き な い 問 題 が あ っ た . そ こ で 井 手 ら は , 同 時 並 行 し て 進 む 話 題 の 流 れ を 表 現 す る 時 系 列 意 味 構 造 : ト ピ ッ ク ス レ ッ ド 構 造 を 抽 出 す る 手 法 を 提 案 し た [1].トピッ クス レッ ド構造 の 例 と そ れ を 利 用 し た 閲 覧 イ ン タ フ ェ ー ス を 図 1 に示 す . こ こ で ト ピ ッ ク ス レ ッ ド 構 造 中 の 各 ノ ー ド は , ス ト ー リ 分 割 後 の 各 ニ ュ ー ス 映 像 を 表 す . ま た 井 手 ら は こ の 研 究 の 中 で , 構 造 中 の 局 所 的 な 意 味 的 ま と ま り の 抽 出 も 行 っ た . し か し , 抽 出 さ れ た ま と ま り が ど の よ う な ニ ュ ー ス を 表 す の か を 明 示 す る こ と は 行 わ れ な か っ た . ま た ト ピ ッ ク ス レ ッ ド 構 造 を 構 築 す る 際 , 放 送 日 の 近 い 映 像 を 中 心 と し て 関 連 付 け を 行 う た め , 長 い 期 間 を 通 し て 少 し ず つ 放 送 さ れ る よ う な ニ ュ ー ス に は 対 応 で き な か っ た .そ こ で 我 々 は ,Wikipedia と いう外 部 の 情 報 資 源 を 利 用 す る こ と で , こ れ ら の 問 題 の 解 決 及 び 新 た な ニ ュ ー ス 映 像 ア ー カ イ ブ の 閲 覧 支 援 技 術 を 目 指 す . そ の 他 , 時 系 列 意 味 構 造 解 析 に と ら わ れ ず ニ ュ ー ス 映 像 の 可 視 化 を 目 指 し た 研 究 も 多 く な さ れ て い る . そ の 代 表 的 な も の と し て , Rautiainen ら に よ る cluster-temporal browsing[5]や , Snoek ら に よ る 閲 覧 イ ン タ フ ェ ー ス MediaMill[6]な どが 挙げら れる .2.2. Wikipedia の利 用 に関 する研究
Wikipedia は 知 識 抽 出 の た め の 有 用 な コ ー パ ス と し て , 人 工 知 能 を 始 め と し た 様 々 な 分 野 で 研 究 , 応 用 さ れ つ つ あ る .そ の 中 で も ,Wikipedia の 持つ 豊富 なコン テ ン ツ 量 を 生 か し た , 連 想 シ ソ ー ラ ス 辞 書 の 自 動 構 築 技 術 に 関 す る 研 究 が 多 く な さ れ て い る . 中 山 ら は Wikipedia に 対 し て Web マ イ ニ ン グ の 手 法 を 適 用 す る こ と で シ ソ ー ラ ス 辞 書 の 自 動 構 築 を 行 っ た [7].図 1 トピ ッ クス レッ ド 構造 に関 す る研 究
* 4:http://ja.wikinews. org/wiki/ メ イ ン ペ ー ジ / シ ソ ー ラ ス 辞 書 の 構 築 以 外 に も ,Wikipedia を利用 し た 研 究 は 増 え つ つ あ る . 例 え ば , Wikipedia の 情 報 を 様 々 な マ ル チ メ デ ィ ア 情 報 と 対 応 付 け る こ と で , よ り 高 度 な 処 理 や 情 報 発 見 を 目 指 し た 研 究 な ど で あ る . 川 場 ら は Wikipedia エン トリを ブロ グサ イトと 対応 付け, Wikipedia カ テ ゴ リ 空 間 に お け る ブ ロ グ サ イ ト の 分 布 推 定 を 行 っ た [9]. 今後 も Wikipedia の よう な, 多くの ユ ー ザ の 共 同 作 業 に よ り 構 築 さ れ た 情 報( folksonomy) を 利 用 す る 研 究 が 注 目 さ れ る の で は な い か と 考 え る .
3. Wikipedia を 利 用 し た 自 動 索 引 付 け
3.1. 処 理 の流 れ
処 理 の 流 れ を 図 2 に示 す.ニ ュー ス映 像に関 して は, 付 随 す る CC から トピ ック スレ ッド構 造を 構築 する. こ の 際 に 用 い る 手 法 は 文 献 [1] と 同 様 で あ る . 一 方 Wikipedia に 関 し て は , ニ ュ ー ス に 関 連 す る エ ン ト リ ( 以 下 , ニ ュ ー ス 関 連 エ ン ト リ ) を 抽 出 す る . そ し て 両 方 の 出 力 結 果 を 利 用 し ,CC と Wikipedia エン トリと の 間 の 類 似 度 評 価 に よ り 対 応 付 け を 行 う . こ の 際 , 各 ニ ュ ー ス 関 連 エ ン ト リ の テ キ ス ト か ら 日 付 情 報 を 抽 出 し て 類 似 度 評 価 の 対 象 を 限 定 し た 後 , ト ピ ッ ク ス レ ッ ド 構 造 を 利 用 し 索 引 の 補 完 を 行 う . こ れ に よ り 対 応 付 け 精 度 の 向 上 を 図 る . 最 後 に 各 エ ン ト リ に 関 連 す る 映 像 群 を 抽 出 す る .3.2. ニュース関 連 エントリの抽 出
Wikipedia の 全 エ ン ト リ を 利 用 し て 索 引 付 け を 行 う の は 困 難 で あ る . そ の 最 大 の 理 由 は , CC と の 対 応付 け 精 度 の 低 下 を 招 く た め で あ る .ま た 2008 年 11 月 27 日 時 点 で の エ ン ト リ 数 は 約 100 万件 で あり ,今 後も増 加 す る と 考 え ら れ , 全 て を 処 理 す る た め の 計 算 量 も 問 題 で あ る . そ こ で ニ ュ ー ス に 関 連 す る エ ン ト リ の み を 抽 出 す る . ニ ュ ー ス 関 連 エ ン ト リ の 抽 出 の 際 に , 以 下 に 用 い る 2 つの 特徴を 利用 した . 1 つ 目は ,ニ ュース 関 連 エ ン ト リ の テ キ ス ト 中 に Wikipedia の 姉妹 プロジ ェ ク ト で あ る ウ ィ キ ニ ュ ー ス( * 4 )へ の リ ン ク が 存 在 す る 場 合 が 多 い こ と で あ る . ま た 2 つ目 は, ニュ ースの 真 実 性 を 証 明 す る た め に , 一 般 の ニ ュ ー ス サ イ ト 中 の 記 事 の URL を 参考 文献 とし て 引用 する 場合 が多 いこ と で あ る .以 上 の 特 徴 を 利 用 し て ,Wikipedia か らニュ ー ス 関 連 エ ン ト リ を 抽 出 す る .3.3. CC と Wikipedia エントリの対 応 付 け
テ キ ス ト 情 報 の 類 似 度 評 価 を 行 い , CC と Wikipedia エ ン ト リ を 対 応 付 け る .ま ず CC と Wikipedia エ ントリ の テ キ ス ト を 形 態 素 解 析 し , 名 詞 の 出 現 頻 度 ベ ク ト ル を 作 成 す る . そ し て 両 者 の コ サ イ ン 類 似 度 を 算 出 し , し き い 値 を 超 え れ ば そ れ ら を 対 応 付 け る . 本 稿 に お い て は Wikipedia エ ント リ の テキ スト 全 体を 使用 してベ ク ト ル を 作 成 し た が ,節 ご と に 作 成 す る こ と も で き る . し か し こ の 場 合 , 一 つ の 節 中 の 名 詞 が 極 端 に 少 な く な り , 対 応 付 け 精 度 が 低 下 す る こ と が 多 い . こ の 問 題 を 解 決 す る た め に 検 討 が 必 要 で あ る . 抽 出 さ れ た 全 て の ニ ュ ー ス 関 連 エ ン ト リ と 全 て の CC と の 類 似 度 評 価 を 行 っ た 場 合 , 対 応 付 け 精 度 の 低 下 を 招 く . そ こ で 以 下 の 方 法 で 対 応 付 け を 行 い , 精 度 向 上 を 目 指 す .3.3.1. 日 付 情 報 の 抽 出
ニ ュ ー ス に お い て 事 象 の 生 起 日 「 い つ ( When)」 の 情 報 は 重 要 で あ る . そ こ で Wikipedia エン トリ のテキ ス ト 中 か ら 日 付 情 報 ( ****年**月 **日 )を 抽出 し, そ れ に よ り 類 似 度 評 価 の 対 象 期 間 を 限 定 す る こ と で 対 応 付 け 精 度 の 向 上 を 図 る . 文 中 で 日 付 に 関 す る 情 報 が 出 現 す る 場 合 , 年 , 月 な ど の 情 報 が 省 略 さ れ る こ と が 多 い . 例 え ば 「 2008 年 8 月 25 日か ら 28 日に かけ て…」 の よ う な 場 合 で あ る .本 研 究 で は ,直 前 に 出 現 し た 年 , 月 の 情 報 を 利 用 し , こ の よ う な 省 略 を 補 完 す る . 先 程 挙 げ た 例 で は ,「 2008 年 8 月 25 日」,「 2008 年 8 月 28 日 」 と い う 日 付 情 報 が 抽 出 さ れ る . し か し こ の 手 法 に は 問 題 が 存 在 す る . そ れ は ニ ュ ー ス 映 像 と Wikipedia と で, ニュ ース の 取り 上げ 方 が異 な る 場 合 で あ る . そ の 概 念 図 を 図 3 に 示す .ニ ュース 映 像 は あ る ト ピ ッ ク に 対 し て , 注 目 さ れ て い る 時 期 に 集 中 的 に 取 り 上 げ る こ と が 多 い . そ れ に 対 し て Wikipedia は ,一 般 に ニ ュ ー ス イ ベ ン ト の 発 端 か ら 終 息図 2 処理 の 流れ
図 3 ニュ ー スの 取り 上 げ方 の違 い
* 5: 正 し く は “ テ ロ 対 策 海 上 阻 止 活 動 に 対 す る 補 給 支 援 活 動 の 実 施 に 関 す る 特 別 措 置 法 ” ま で を 日 付 情 報 を 含 め て 網 羅 的 に 説 明 す る が , 注 目 さ れ て い る 時 期 の 日 付 情 報 を 集 中 し て 記 述 す る こ と は 少 な い . そ の た め 日 付 情 報 に よ り 類 似 度 評 価 の 対 象 を 限 定 し て 索 引 付 け を 行 っ た 場 合 , ニ ュ ー ス 映 像 が 集 中 的 に 取 り 上 げ て い る 時 期 の 索 引 付 け が 疎 に な る 可 能 性 が 高 い .
3.3.2. 索 引 の 補 完
前 節 で 示 し た 問 題 を 解 決 す る た め に ,文 献 [1]で紹 介 し た ト ピ ッ ク ス レ ッ ド 構 造 を 利 用 し て , 索 引 付 け の 補 完 を 行 う . そ の 概 念 図 を 図 4 に 示す. 図中 の各 ノード は , ス ト ー リ 分 割 後 の 各 ニ ュ ー ス 映 像 を 表 す . ト ピ ッ ク ス レ ッ ド 構 造 は 強 く 関 連 す る ニ ュ ー ス を 時 系 列 に 連 鎖 す る こ と に よ り 構 築 さ れ て い る . そ の た め , あ る ノ ー ド に 対 し て ス レ ッ ド 構 造 上 の 前 後 に 位 置 す る ノ ー ド は , 意 味 的 に も 時 間 的 に も 最 も 類 似 す る も の で あ る と 考 え ら れ る . そ こ で , あ る Wikipedia エン ト リ が 索 引 付 け ら れ て い る ノ ー ド に 対 し て , ス レ ッ ド 構 造 上 の 前 後 の ノ ー ド に 位 置 す る ニ ュ ー ス の CC とも 類 似 度 評 価 を 行 う . こ こ で し き い 値 を 超 え れ ば 新 た に そ の ノ ー ド に も 当 該 エ ン ト リ を 索 引 付 け る . こ の 操 作 を 類 似 度 が し き い 値 以 下 に な る ノ ー ド が 出 現 す る か , 既 に 同 じ エ ン ト リ が 索 引 付 け ら れ て い る ノ ー ド が 出 現 す る ま で ト ピ ッ ク ス レ ッ ド 構 造 上 で 再 帰 的 に 適 用 す る . 既 存 の 索 引 付 け に 対 し て 以 上 の 操 作 を 繰 り 返 す こ と に よ り , 索 引 の 補 完 を 行 う .3.4. 各 エントリに関 連 する映 像 群 の抽 出
索 引 付 け 結 果 を 利 用 し , 各 Wikipedia エン トリに 関 連 す る 映 像 群 を 抽 出 す る . こ の 際 , 索 引 付 け ら れ た 各 映 像 を 放 送 日 の 早 い 順 に 並 べ る . 索 引 付 け ら れ る 映 像 が ト ピ ッ ク ス レ ッ ド 構 造 上 で ク ラ ス タ を 形 成 し て い る 場 合 , そ の ク ラ ス タ を 保 存 し , 提 示 す る . 映 像 群 の 抽 出・提 示 の 際 ,文 献 [1]の手 法を 用いた ト ピ ッ ク ス レ ッ ド 構 造 の 再 構 築 は 行 わ な か っ た .こ れ は , 抽 出 さ れ る 映 像 同 士 の 放 送 日 の 間 隔 が 離 れ る こ と が 多 く , ト ピ ッ ク ス レ ッ ド 構 造 の よ う に 分 岐 さ せ て 提 示 す る 必 要 性 が 低 い た め で あ る .ま た ,Wikipedia エ ントリ と の 対 応 付 け に よ り 話 題 が 限 定 さ れ , ス ト ー リ 群 が 分 岐 す る こ と が 少 な く な る こ と も 一 因 で あ る .4. 実 験と考察
4.1. 使 用 するデータ及 び実 験 条 件
CC に 関 し て は 放 送 映 像 ( NHK ニ ュ ー ス 7) に 付 随 す る も の を 使 用 し た . 2007 年 1 月 1 日 から 2008 年 6 月 30 日 まで に放送 され た映 像及び CC を使 用し, CC は ス ト ー リ ご と に 分 割 し て あ る も の と す る . ま た Wikipedia に 関 し て は 2008 年 11 月 27 日 付 で 記 録 さ れ た デ ー タ ベ ー ス・デ ー タ を ダ ウ ン ロ ー ド し て 使 用 し た . こ の 時 点 で の Wikipedia の 全エ ントリ 数 は 1,053,561 件 で あ っ た . ま た 前 章 で 説 明 し た 手 法 に よ り 抽 出 さ れ た ニ ュ ー ス 関 連 エ ン ト リ は 1,645 件であ った . な お,こ の 抽 出 の 精 度 は 十 分 良 好 で あ っ た . 以 降 , 4.2 節 で対 応 付 け 精 度 の 評 価 を 行 い , 4.3 節 で 各 エ ント リ に 対応 付 く ス ト ー リ 数 や そ れ ら の 日 数 の 間 隔 を 調 査 す る . 最 後 に 4.4 節で 映像 群の抽 出結 果の 例を示 す.4.2. 実 験 1 :対 応 付 け精 度
4.2.1. 実 験 条 件 ・ 実 験 結 果
各 Wikipedia エ ントリ に対 応付く CC を 調査 するこ と に よ り , 対 応 付 け 精 度 を 評 価 し た . 評 価 対 象 は 3 個の Wikipedia エ ン ト リ (“ 新 テ ロ 対 策 特 措 法( * 5)”,“ 大 連 立 構 想 ( 日 本 2007)”,“ね んきん 特別 便”) であ る. 対 応 付 け の 正 誤 は 人 手 で 判 断 し た . こ こ で 正 し い 対 応 付 け と は ,「 CC 上で Wikipedia エン トリ に関 する報 道 ・ 説 明 を 具 体 的 に 行 っ て お り , か つ Wikipedia エン ト リ の テ キ ス ト 中 に も そ の 説 明 が 見 受 け ら れ る も の 」 と し た . 適 合 率 に 関 し て は , 対 応 付 け ら れ た CC 群の 内 容 を 全 て 調 査 し , 人 手 で 正 誤 判 断 を 行 っ た . ま た 再 現 率 に 関 し て は , 全 て の CC の 内容を 調査 する こと が 困 難 な た め ,期 間 を 2~3 カ月 に絞 り,人手 によ り正解 デ ー タ を 作 成 し 評 価 し た . 日 付 情 報 に よ り 類 似 度 評 価 の 対 象 を 限 定 す る か ど う か , さ ら に 索 引 の 補 完 を 行 う か ど う か で 比 較 実 験 を 行 っ た .手 法 1 :日付 情報 を利 用せず 補完 もし ない場 合 , 手 法 2: 日付 情報 を利 用す る が補 完は 行わ ない場 合 , 手 法 3:日付 情報 を利 用し補 完も 行う 場合 (提案 手 法 ) の 3 種類で 実験 した .実験 結果 を表 1 に示 す.表 1 実験 結 果: 対応 付 け精 度
手 法 1 日 付 × 補 完 × 手 法 2 日 付○ 補 完 × 手 法 3 日 付○ 補 完○ 適 合 率( %) 43.4 97.4 86.1 再 現 率( %) 95.1 45.4 79.3図 4 索引 の 補完
4.2.2. 考 察
提 案 手 法 は 適 合 率 , 再 現 率 が 共 に 高 く , 提 案 手 法 の 有 効 性 を 確 認 し た . 適 合 率 は 手 法 2 及 び手法 3 が高か っ た . 手 法 1 は日 付情 報を 考慮 しない ため ,テ キスト 情 報 の 類 似 度 の み で 対 応 付 け ら れ て し ま い , 誤 対 応 が 発 生 す る こ と が 多 か っ た . 例 え ば “ ね ん き ん 特 別 便 ” と い う エ ン ト リ で は 年 金 に 関 す る 記 述 が な さ れ て お り , 年 金 に つ い て 報 道 し た 日 の CC と対応 付け られ ること が 多 か っ た . し か し “ ね ん き ん 特 別 便 ” が 報 道 さ れ る 以 前 の , 年 金 に 関 す る 問 題 を 取 り 上 げ た 日 の CC とも 対 応 付 い て お り , こ れ は 適 切 で は な い . 他 に も こ の よ う な 誤 対 応 が 目 立 っ た . ま た 再 現 率 は 手 法 1, 手法 3 が 高 か っ た .手 法 2 の 再現 率は ,Wikipedia エン トリ の テ キ ス ト 中 で 日 付 情 報 が 記 述 さ れ る 頻 度 に 大 き く 依 存 し た .“ 新 テ ロ 対 策 特 措 法 ”に 関 す る Wikipedia エント リ で は 日 付 情 報 が ほ と ん ど 記 述 さ れ て お ら ず , 再 現 率 は 11%とな った.しか し索引 の補 完を 行うこ とに より, 再 現 率 は 63%に上 昇し た. 提 案 手 法 に も 問 題 が 見 受 け ら れ た . ま ず 索 引 の 補 完 に よ る 適 合 率 の 低 下 で あ る . ト ピ ッ ク ス レ ッ ド 構 造 中 で 話 題 が 少 し ず つ 変 化 し て い る 場 合 が あ り ,Wikipedia エ ン ト リ と の 関 連 度 が 小 さ く て も , テ キ ス ト 情 報 の 類 似 度 に よ っ て 対 応 付 い て し ま う こ と が 多 か っ た . ま た 再 現 率 に 関 し て も 手 法 1 よ り約 15%低い値 とな った. ス レ ッ ド 構 造 に よ り 全 て の 関 連 す る ニ ュ ー ス を 網 羅 で き て い な い 場 合 が あ り , ス レ ッ ド 構 造 に 依 存 し な い 対 応 付 け 手 法 も 検 討 す る 必 要 が あ る と 考 え た .4.3. 実 験 2 :ストーリ数 と最 大 間 隔
4.3.1. 実 験 条 件 ・ 実 験 結 果
各 Wikipedia エン トリ に 対応 付け られ たスト ーリ 数 , 及 び 対 応 付 け ら れ た ス ト ー リ 群 の 中 で の 最 大 間 隔 ( 日 数 ) の そ れ ぞ れ に つ い て 頻 度 を 調 査 し た . 使 用 し た Wikipedia エ ン ト リ は ,ニ ュ ー ス 関 連 エ ン ト リ と し て 抽 出 さ れ た 1,645 件 であ る. 実 験結 果を 図 5 と図 6 に示 す . な お 双 方 と も ス ト ー リ 数 0, 最大 間隔 0 日 のデー タ は 除 去 し て あ る . な お , 対 応 付 け ら れ た ス ト ー リ 数 が 0 であ る Wikipedia エン トリ は 1,305 件(79%),最 大 間 隔 が 0 日 の Wikipedia エン トリ は 1,421 件(86%) で あ っ た .4.3.2. 考 察
各 Wikipedia エン トリ に対 応付け られ るス トーリ 数 は 0~20 件 である こと が多 かっ た. ま た, スト ーリ数 が 0 となる エント リが 多か った 最大の 原因 は, 対応付 け に 使 用 し た ニ ュ ー ス 映 像 の 本 数 が 少 な く , か つ 短 い 期 間 に 放 送 さ れ た も の だ け を 使 用 し た こ と で あ る と 考 え ら れ る .そ れ に 加 え ,NHK ニ ュース 7 は 1 回 あたり の 放 送 時 間 が 短 く , 大 き な ニ ュ ー ス の み を 取 り 上 げ る こ と が 多 い こ と も 原 因 の 一 つ で あ る . 最 大 間 隔 に 関 し て は , 300 日以上 離れ たス トーリ 同 士 が 一 つ の Wikipedia エン トリ に対応 付け られ ること も あ り , 放 送 日 の 離 れ た 映 像 間 の 関 連 も 発 見 で き る こ と を 確 認 し た . な お , 図 6 のヒ ストグ ラム 上で 最大の 階 級 値 を 示 し た エ ン ト リ は 誤 対 応 で あ っ た . 正 し い 対 応 付 け と し て 最 大 の 階 級 値 を 示 し た の は“ NHK 番組改 変 問 題 ” で , 最 大 間 隔 は 498 日 (2007 年 1 月 29 日~ 2008 年 6 月 10 日 ) で あ っ た .4.4. 映 像 群 の抽 出 結 果
4.4.1. 実 験 条 件 ・ 実 験 結 果
提 案 手 法 を 利 用 し , 各 Wikipedia エン トリ に注目 し た 映 像 群 を 抽 出 し た . 以 下 に “ 新 テ ロ 対 策 特 措 法 ” と い う Wikipedia エ ント リに 関する 抽出 結果 を示す .図 7 は 2007 年 9 月 8 日の 番組の 3 番 目のス トー リを 起点と す る ト ピ ッ ク ス レ ッ ド 構 造 の 一 部 で あ り , 各 ノ ー ド は図 5 実験 結 果: スト ー リ数 の頻 度
図 6 実験 結 果: 最大 間 隔の 頻度
ス ト ー リ 分 割 後 の 各 映 像 を 表 し て い る . ま た “ 新 テ ロ 対 策 特 措 法 ” が 索 引 付 け ら れ た 映 像 を 青 色 で 示 し て あ る . 図 8 は トピッ ク ス レッ ド構 造か ら Wikipedia エン ト リ に 索 引 付 け ら れ た CC 群を 抽出 した結 果で ある .
4.4.2. 考 察
図 8 のよう に, 抽 出さ れた 映像群 はい くつ かのク ラ ス タ を 形 成 す る .こ こ で 各 ク ラ ス タ に お い て ,“ 新 テ ロ 対 策 特 措 法 ” と 共 に 索 引 付 け ら れ た Wikipedia エント リ を 調 査 し た .す る と ,ク ラ ス タ 1( 2007 年 9,10 月) で は “ 安 倍 改 造 内 閣 ” な ど , ク ラ ス タ 2( 2007 年 11 月 ) で は “ 大 連 立 構 想 ( 日 本 2007)” など ,ク ラスタ 3( 2007 年 12 月 前 後 )で は“ 道 路 特 定 財 源 制 度 ”な ど の Wikipedia エン トリ を確 認し た.こ れに より ,各ク ラ ス タ に お い て 共 起 す る Wikipedia エ ント リを 分析す る こ と に よ り , 各 ト ピ ッ ク ス レ ッ ド 構 造 中 で の 話 題 の 変 遷 を 理 解 す る こ と が で き る の で は な い か と 考 え る .5. むすび
本 稿 で は ,Wikipedia を 利用 したニ ュー ス映 像アー カ イ ブ の 閲 覧 支 援 技 術 を 提 案 し た . 実 験 に よ り 適 合 率 86%,再 現 率 79%で 索 引 付 け が 行 え る こ と を 確 認 し た . ま た ,放 送 日 が 離 れ た 映 像 間 の 関 連 も 発 見 可 能 で あ り , 最 大 で 498 日 の 間 隔 が あ る 映 像 同 士 を 一 つ の Wikipedia エ ン ト リ に 対 し て 対 応 付 け る こ と が 可 能 で あ っ た . さ ら に , あ る 映 像 に 共 に 索 引 付 け ら れ る Wikipedia エ ン ト リ を 分 析 す る こ と に よ り ,話 題 の 変 遷 の 理 解 に つ な が る こ と を 確 認 し た .Wikipedia を 利用す る こ と に よ り , ク ロ ー ズ ド キ ャ プ シ ョ ン の み に よ る 処 理 で は 得 ら れ な い 情 報 を 得 ら れ る こ と を 確 認 し た . 今 後 の 課 題 と し て は ま ず , 各 Wikipedia エ ントリ に 関 連 す る 映 像 群 を 直 観 的 に 提 示 す る 閲 覧 イ ン タ フ ェ ー ス を 作 成 す る . そ の 際 , 索 引 付 け 精 度 の 更 な る 向 上 を 図 る . ま た , Wikipedia エン トリ に対 してだ けで なく, テ キ ス ト 中 の 各 節 や 各 文 に 対 し て 詳 細 に 映 像 群 を 対 応 付 け る こ と で , よ り 直 観 的 ・ 効 果 的 な 閲 覧 技 術 を 目 指 す . そ の 他 , 話 題 の 変 遷 を 分 析 し 提 示 す る 手 法 の 検 討 や , ニ ュ ー ス 映 像 以 外 の 映 像 へ の 適 用 を 検 討 す る .謝 辞
実 験 デ ー タ と し て 使 用 し た ニ ュ ー ス 映 像 を 提 供 し て 頂 い た 国 立 情 報 学 研 究 所 に 感 謝 す る . 本 研 究 の 成 果 の 一 部 は 科 研 費 に よ る .本 稿 中 の 実 験 で は SlothLib ラ イ ブ ラ リ ( http://www.dl.kuis.kyoto-u.ac.jp/slothlib ) を 使 用 し て お り , 開 発 に 携 わ れ た 方 々 に 感 謝 す る .文 献
[1] 井 手 一 郎 ,木 下 智 義 ,高 橋 友 和 ,孟 洋 ,片 山 紀 生 , 佐 藤 真 一 , 村 瀬 洋 :“ 大 量 ニ ュ ー ス 映 像 を 対 象 と し た 時 系 列 意 味 構 造 に 基 づ く 情 報 編 簒 手 法 の 提 案 ”, 人 工 知 能 学 会 論 文 誌 , Vol.23,No.5,pp.282 - 292 (Sep. 2008)[2] National Institute of Standards and Technologies: “ The year 2000 Topic Detection and Tracking (TDT2000) Task Definition and Evaluation Plan”, (2000),
http://www.itl.nist. gov/iad/ mig//tests/tdt/2000/ [3] P. Duygulu, J.-Y. Pan, and D. Fors yth :“ Towards
Auto-Documentary: Tracking the Evolution of News Stories”, Proc. 12th ACM Int. Conf. on Multimedia, pp.820- 827 (Oct. 2004)
[4] X. Wu, C.-W. Ngo, and Q. Li :“ Threading and Autodocumenting News Videos ” , IEEE Signal Processing Mag., Vol.23, No.2, pp.59 - 68 (Mar. 2006)
[5] M. Rautiainen, T. Ojala, and T. Seppanen : “Cluster-Temporal Browsing of Large News Vide o Databases ” , Proc. 2004, IEEE Int. Conf. on Multimedia and Expo, Vol.2, pp. 751 - 754 (June 2004)
[6] C. Snoek, M. Worring, J. van Gemert, J. -M. Geusebroek, D. Koelma, G. Nguyen, O. de Rooij, and F. Seinstra :“ MediaMill: Exploring News Vide o Archives based on Learned Semantics” , Proc. 13th ACM Int. Conf. on Multimedia, pp.225 - 226 (Nov. 2005) [7] 中 山 浩 太 郎 , 原 隆 浩 , 西 尾 章 二 郎 :“ Wikipedia マ イ ニ ン グ に よ る シ ソ ー ラ ス 辞 書 の 構 築 手 法 ”, 情 報 処 理 学 会 論 文 誌 ,Vol.47,No.10,pp.2917-2928 (Oct. 2006) [8] 川 場 真 理 子 , 中 崎 寛 之 , 宇 津 呂 武 仁 , 福 原 知 宏 : “ Wikipedia エ ン ト リ と ブ ロ グ サ イ ト の 対 応 付 け に よ る 日 本 語 ブ ロ グ 空 間 の ト ピ ッ ク 分 布 推 定 ”, 情 報 処 理 学 会 研 究 報 告 , 2008-NL-187 (pp.83-90) (Sep. 2008)