• 検索結果がありません。

映像情報メディア学会ワードテンプレート (タイトル)

N/A
N/A
Protected

Academic year: 2021

シェア "映像情報メディア学会ワードテンプレート (タイトル)"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

* 1:http://www. youtube. com/ * 2:http://www.nhk. or.jp/archives/

Wikipedia を利用したニュース映像アーカイブへの自動索引付け

奥岡 知樹

高橋 友和

††

出口 大輔

井手 一郎

†,†††

村瀬 洋

† 名古屋大学大学院情報科学研究科 〒464-8601 愛知県名古屋市千種区不老町

†† 岐阜聖徳学園大学経済情報学部 〒500-8288 岐阜県岐阜市中鶉 1-38

††† 国立情報学研究所 〒101-8430 東京都千代田区一ツ橋 2-1-2

E-mail: † {okuoka,ide,murase}@murase.m.is.nagoya-u.ac.jp, †† [email protected], ††† [email protected]

あらまし テレビやインターネット上での映像コンテンツの増加により,映像アーカイブを効率良く閲覧・検索

する技術が求められている.そこで本稿では,資料映像として利用価値の高いニュース映像に注目し,Wikipedia

を利用したニュース映像アーカイブの閲覧支援技術を提案する.テキスト情報の類似度評価を基に,各映像に対し

て Wikipedia エントリによる自動索引付けを行う.索引付け結果を利用し,各エントリに関連する映像群を抽出,

提示する.実験により適合率 86%,再現率 79%で索引付けが行えることを確認した.また,話題の変遷の理解や放

送日が離れた映像間の関連発見など,クローズドキャプションのみでは得られない情報を得られることを確認した.

キーワード Wikipedia,ニュース映像,映像アーカイブ,自動索引付け

Automatic Indexing of a News Video Archive with Wikipedia Entries

Tomoki OKUOKA

Tomokazu TAKAHASHI

††

Daisuke DEGUCHI

Ichiro IDE

†, †††

and Hiroshi MURASE

† Nagoya University Graduate School of Information Science Furo-cho, Chikusa-ku, Nagoya, Aichi, 464-8601 Japan

†† Gifu Shotoku Gakuen University Faculty of Economics and Information 1-38, Nakauzura, Gifu-shi, Gifu,

500-8288 Japan

††† National Institute of Informatics 2-1-2 Hitotsubashi, Chiyoda-ku, Tokyo, 101-8430 Japan

E-mail: † {okuoka,ide,murase}@murase.m.is.nagoya-u.ac.jp, †† [email protected], ††† [email protected]

Abstract Following the increase of video contents on TV or the Internet, efficient techniques to browse and search video

data in an archive are needed. We propose a method to support browsing a news video archive with the help of Wikipedia

because news videos are important as video contents. First, videos are automatically indexed by Wikipedia entries by means

of evaluating the similarity of text information. Using those indices, we extract and present video groups via an interface, that

correspond to each Wikipedia entry. Through experiments, news videos were accurately indexed by Wikipedia entries with a

precision of 86% and a recall of 79%. In addition, we confirmed that we could obtain information which could not be

obtained by closed captions, such as understanding the transition of topics or discovering the associations between videos

which are broadcasted on distant days.

Keyword Wikipedia,News Video,Video Archive,Automatic Indexing

1. はじめ に

近 年 ,YouTube( *1)な ど の 動 画 共 有 サ イ ト の 普 及 に よ り , 誰 で も 手 軽 に 映 像 ア ー カ イ ブ を 利 用 す る こ と が 可 能 と な っ た .ま た NHK アー カイブ ス( * 2)な ど ,過 去 に 放 送 さ れ た 映 像 を 再 利 用 す る と い う 取 り 組 み も 行 わ れ て お り , こ の よ う な 映 像 ア ー カ イ ブ を 効 率 的 に 閲 覧 ・ 検 索 す る 技 術 が 求 め ら れ て い る . そ の 中 で も ニ ュ ー ス 映 像 は 資 料 映 像 と し て 利 用 価 値 が 高 い .そ こ で 我 々 は , ニ ュ ー ス 映 像 ア ー カ イ ブ の 効 率 的 な 閲 覧 技 術 に 注 目 し て い る . ニ ュ ー ス 映 像 の 構 造 解 析 や 閲 覧 技 術 に 関 し て は , 多 く の 研 究 が な さ れ て い る . そ の 多 く は 映 像 に 付 与 さ れ た 文 字 放 送 字 幕 テ キ ス ト ( Closed Caption ; 以下 CC) を 利 用 し , そ れ ら の テ キ ス ト 情 報 の 類 似 度 を 基 に 映 像 間 の 関 連 を 分 析 し て い る . 井 手 ら は , 強 く 関 連 し た ニ ュ ー ス 映 像 を 時 系 列 に 連 鎖 す る こ と に よ り ト ピ ッ ク ス レ ッ ド 構 造 を 構 築 し , 映 像 ア ー カ イ ブ の 構 造 解 析 や 閲

(2)

* 3:http://ja.wikipedia. org/wiki/ Wikipedia/ 覧 イ ン タ フ ェ ー ス を 実 現 し た [1].しか し 各 ニュ ース映 像 が 表 す 内 容 が 明 示 さ れ て お ら ず , あ る ニ ュ ー ス イ ベ ン ト に 関 連 す る 映 像 を 閲 覧 し た い 場 合 に は 適 切 で は な い . ま た ニ ュ ー ス の 中 に は , 長 い 期 間 を 通 し て 少 し ず つ 放 送 さ れ る ト ピ ッ ク も 存 在 し , 従 来 の 技 術 で は こ の よ う な 場 合 へ の 対 応 が 困 難 で あ る . そ こ で 本 稿 で は , オ ン ラ イ ン 百 科 事 典 と し て 有 名 な Wikipedia( * 3)に 注 目 し ,Wikipedia を利 用し た ニ ュース 映 像 ア ー カ イ ブ の 閲 覧 支 援 技 術 を 提 案 す る . ま ず テ キ ス ト 情 報 の 類 似 度 評 価 を 基 に , 各 映 像 に 対 し て Wikipedia エ ン ト リ に よ り 自 動 索 引 付 け を 行 う .次 に そ れ を 利 用 し て 各 エ ン ト リ に 関 連 す る 映 像 群 を 抽 出 , 提 示 す る .こ の 際 ,文 献 [1]の トピ ックス レッ ド構 造中の 各 映 像 に 対 し て 索 引 付 け を 行 う こ と で , あ る ニ ュ ー ス イ ベ ン ト に 関 連 し た 映 像 群 を 時 系 列 に 閲 覧 す る こ と が 可 能 と な る . ま た 従 来 は 計 算 量 的 に 処 理 が 困 難 で あ っ た , 放 送 日 が 離 れ た 映 像 間 の 関 連 を 発 見 す る こ と も 可 能 と な る . 索 引 付 け の 際 に Wikipedia を 利用 する ことの 利点 は, 以 下 に 示 す 2 つの 特長 によ る.1 つ目は Wikipedia エン ト リ に 関 し て , 表 記 と 概 念 が 一 対 一 に 対 応 し て い る こ と で あ る . CC に お い て は「 自 由 民 主 党」,「自 民 党」 と 様 々 な 表 記 で 使 用 さ れ る 概 念 で あ っ て も ,Wikipedia で は「 自 由 民 主 党( 日 本 )」と い う エ ン ト リ で 扱 わ れ る . こ れ に よ り 索 引 の 表 記 の ゆ れ を 解 消 し , 重 複 の な い 索 引 付 け ・ 閲 覧 が 実 現 で き る . そ し て 2 つ目 に, コンテ ン ツ の 網 羅 性 が あ る . 一 般 に ニ ュ ー ス イ ベ ン ト に 関 し て 発 端 か ら 終 息 ま で の 一 連 の 流 れ が 詳 細 に 説 明 さ れ て お り , 閲 覧 技 術 の 構 築 に 有 用 で あ る と 考 え る . 以 降 , 第 2 章で 関連 研究を 紹介 した 後, 第 3 章 で Wikipedia を 利 用 し た ニ ュ ー ス 映 像 ア ー カ イ ブ へ の 自 動 索 引 付 け に 関 す る 処 理 の 詳 細 を 述 べ る . 続 く 第 4 章 で , 対 応 付 け の 精 度 に 関 す る 実 験 や 抽 出 結 果 の 例 を 紹 介 し 考 察 を 述 べ る . 最 後 に 第 5 章にお いて 今後 の課題 を 検 討 し , 本 稿 を ま と め る . な お , 以 降 “ ス ト ー リ ” と は , 一 つ の イ ベ ン ト を 扱 っ た , ニ ュ ー ス 映 像 の 意 味 的 な 最 小 単 位 を 表 わ す [2].

2. 関連研 究

2.1. ニュース映 像 の閲 覧 に関 する研 究

ニ ュ ー ス 映 像 の 閲 覧 支 援 を 目 的 と し た 研 究 と し て , ニ ュ ー ス 映 像 の 時 系 列 意 味 構 造 解 析 に 関 す る 研 究 が 多 く な さ れ て い る . 最 も 単 純 な 手 法 と し て , 特 定 の ト ピ ッ ク に 関 連 す る ス ト ー リ を 時 系 列 に 直 線 状 に 連 ね る 方 法 が 考 え ら れ る [2][3].しか し直 線構造 では 同一 トピッ ク で あ っ て も 同 時 並 行 し て 進 む 個 別 の 話 題 の 流 れ を 表 現 で き な い . こ れ に 対 し Wu ら は,特 定の トピ ックに 関 連 す る ス ト ー リ を 集 め た ク ラ ス タ に お い て , 時 系 列 の 前 後 関 係 と 話 題 の 変 化 に 応 じ て 2 分 グラ フを 構築す る 手 法 を 提 案 し た [4].し かしこ の方 法で も,新 規スト ー リ 同 士 の 関 係 は 時 系 列 の 前 後 関 係 の み で あ り , 同 時 並 行 し て 進 む 個 別 の 話 題 の 流 れ を 表 現 で き な い 問 題 が あ っ た . そ こ で 井 手 ら は , 同 時 並 行 し て 進 む 話 題 の 流 れ を 表 現 す る 時 系 列 意 味 構 造 : ト ピ ッ ク ス レ ッ ド 構 造 を 抽 出 す る 手 法 を 提 案 し た [1].トピッ クス レッ ド構造 の 例 と そ れ を 利 用 し た 閲 覧 イ ン タ フ ェ ー ス を 図 1 に示 す . こ こ で ト ピ ッ ク ス レ ッ ド 構 造 中 の 各 ノ ー ド は , ス ト ー リ 分 割 後 の 各 ニ ュ ー ス 映 像 を 表 す . ま た 井 手 ら は こ の 研 究 の 中 で , 構 造 中 の 局 所 的 な 意 味 的 ま と ま り の 抽 出 も 行 っ た . し か し , 抽 出 さ れ た ま と ま り が ど の よ う な ニ ュ ー ス を 表 す の か を 明 示 す る こ と は 行 わ れ な か っ た . ま た ト ピ ッ ク ス レ ッ ド 構 造 を 構 築 す る 際 , 放 送 日 の 近 い 映 像 を 中 心 と し て 関 連 付 け を 行 う た め , 長 い 期 間 を 通 し て 少 し ず つ 放 送 さ れ る よ う な ニ ュ ー ス に は 対 応 で き な か っ た .そ こ で 我 々 は ,Wikipedia と いう外 部 の 情 報 資 源 を 利 用 す る こ と で , こ れ ら の 問 題 の 解 決 及 び 新 た な ニ ュ ー ス 映 像 ア ー カ イ ブ の 閲 覧 支 援 技 術 を 目 指 す . そ の 他 , 時 系 列 意 味 構 造 解 析 に と ら わ れ ず ニ ュ ー ス 映 像 の 可 視 化 を 目 指 し た 研 究 も 多 く な さ れ て い る . そ の 代 表 的 な も の と し て , Rautiainen ら に よ る cluster-temporal browsing[5]や , Snoek ら に よ る 閲 覧 イ ン タ フ ェ ー ス MediaMill[6]な どが 挙げら れる .

2.2. Wikipedia の利 用 に関 する研究

Wikipedia は 知 識 抽 出 の た め の 有 用 な コ ー パ ス と し て , 人 工 知 能 を 始 め と し た 様 々 な 分 野 で 研 究 , 応 用 さ れ つ つ あ る .そ の 中 で も ,Wikipedia の 持つ 豊富 なコン テ ン ツ 量 を 生 か し た , 連 想 シ ソ ー ラ ス 辞 書 の 自 動 構 築 技 術 に 関 す る 研 究 が 多 く な さ れ て い る . 中 山 ら は Wikipedia に 対 し て Web マ イ ニ ン グ の 手 法 を 適 用 す る こ と で シ ソ ー ラ ス 辞 書 の 自 動 構 築 を 行 っ た [7].

図 1 トピ ッ クス レッ ド 構造 に関 す る研 究

(3)

* 4:http://ja.wikinews. org/wiki/ メ イ ン ペ ー ジ / シ ソ ー ラ ス 辞 書 の 構 築 以 外 に も ,Wikipedia を利用 し た 研 究 は 増 え つ つ あ る . 例 え ば , Wikipedia の 情 報 を 様 々 な マ ル チ メ デ ィ ア 情 報 と 対 応 付 け る こ と で , よ り 高 度 な 処 理 や 情 報 発 見 を 目 指 し た 研 究 な ど で あ る . 川 場 ら は Wikipedia エン トリを ブロ グサ イトと 対応 付け, Wikipedia カ テ ゴ リ 空 間 に お け る ブ ロ グ サ イ ト の 分 布 推 定 を 行 っ た [9]. 今後 も Wikipedia の よう な, 多くの ユ ー ザ の 共 同 作 業 に よ り 構 築 さ れ た 情 報( folksonomy) を 利 用 す る 研 究 が 注 目 さ れ る の で は な い か と 考 え る .

3. Wikipedia を 利 用 し た 自 動 索 引 付 け

3.1. 処 理 の流 れ

処 理 の 流 れ を 図 2 に示 す.ニ ュー ス映 像に関 して は, 付 随 す る CC から トピ ック スレ ッド構 造を 構築 する. こ の 際 に 用 い る 手 法 は 文 献 [1] と 同 様 で あ る . 一 方 Wikipedia に 関 し て は , ニ ュ ー ス に 関 連 す る エ ン ト リ ( 以 下 , ニ ュ ー ス 関 連 エ ン ト リ ) を 抽 出 す る . そ し て 両 方 の 出 力 結 果 を 利 用 し ,CC と Wikipedia エン トリと の 間 の 類 似 度 評 価 に よ り 対 応 付 け を 行 う . こ の 際 , 各 ニ ュ ー ス 関 連 エ ン ト リ の テ キ ス ト か ら 日 付 情 報 を 抽 出 し て 類 似 度 評 価 の 対 象 を 限 定 し た 後 , ト ピ ッ ク ス レ ッ ド 構 造 を 利 用 し 索 引 の 補 完 を 行 う . こ れ に よ り 対 応 付 け 精 度 の 向 上 を 図 る . 最 後 に 各 エ ン ト リ に 関 連 す る 映 像 群 を 抽 出 す る .

3.2. ニュース関 連 エントリの抽 出

Wikipedia の 全 エ ン ト リ を 利 用 し て 索 引 付 け を 行 う の は 困 難 で あ る . そ の 最 大 の 理 由 は , CC と の 対 応付 け 精 度 の 低 下 を 招 く た め で あ る .ま た 2008 年 11 月 27 日 時 点 で の エ ン ト リ 数 は 約 100 万件 で あり ,今 後も増 加 す る と 考 え ら れ , 全 て を 処 理 す る た め の 計 算 量 も 問 題 で あ る . そ こ で ニ ュ ー ス に 関 連 す る エ ン ト リ の み を 抽 出 す る . ニ ュ ー ス 関 連 エ ン ト リ の 抽 出 の 際 に , 以 下 に 用 い る 2 つの 特徴を 利用 した . 1 つ 目は ,ニ ュース 関 連 エ ン ト リ の テ キ ス ト 中 に Wikipedia の 姉妹 プロジ ェ ク ト で あ る ウ ィ キ ニ ュ ー ス( * 4 )へ の リ ン ク が 存 在 す る 場 合 が 多 い こ と で あ る . ま た 2 つ目 は, ニュ ースの 真 実 性 を 証 明 す る た め に , 一 般 の ニ ュ ー ス サ イ ト 中 の 記 事 の URL を 参考 文献 とし て 引用 する 場合 が多 いこ と で あ る .以 上 の 特 徴 を 利 用 し て ,Wikipedia か らニュ ー ス 関 連 エ ン ト リ を 抽 出 す る .

3.3. CC と Wikipedia エントリの対 応 付 け

テ キ ス ト 情 報 の 類 似 度 評 価 を 行 い , CC と Wikipedia エ ン ト リ を 対 応 付 け る .ま ず CC と Wikipedia エ ントリ の テ キ ス ト を 形 態 素 解 析 し , 名 詞 の 出 現 頻 度 ベ ク ト ル を 作 成 す る . そ し て 両 者 の コ サ イ ン 類 似 度 を 算 出 し , し き い 値 を 超 え れ ば そ れ ら を 対 応 付 け る . 本 稿 に お い て は Wikipedia エ ント リ の テキ スト 全 体を 使用 してベ ク ト ル を 作 成 し た が ,節 ご と に 作 成 す る こ と も で き る . し か し こ の 場 合 , 一 つ の 節 中 の 名 詞 が 極 端 に 少 な く な り , 対 応 付 け 精 度 が 低 下 す る こ と が 多 い . こ の 問 題 を 解 決 す る た め に 検 討 が 必 要 で あ る . 抽 出 さ れ た 全 て の ニ ュ ー ス 関 連 エ ン ト リ と 全 て の CC と の 類 似 度 評 価 を 行 っ た 場 合 , 対 応 付 け 精 度 の 低 下 を 招 く . そ こ で 以 下 の 方 法 で 対 応 付 け を 行 い , 精 度 向 上 を 目 指 す .

3.3.1. 日 付 情 報 の 抽 出

ニ ュ ー ス に お い て 事 象 の 生 起 日 「 い つ ( When)」 の 情 報 は 重 要 で あ る . そ こ で Wikipedia エン トリ のテキ ス ト 中 か ら 日 付 情 報 ( ****年**月 **日 )を 抽出 し, そ れ に よ り 類 似 度 評 価 の 対 象 期 間 を 限 定 す る こ と で 対 応 付 け 精 度 の 向 上 を 図 る . 文 中 で 日 付 に 関 す る 情 報 が 出 現 す る 場 合 , 年 , 月 な ど の 情 報 が 省 略 さ れ る こ と が 多 い . 例 え ば 「 2008 年 8 月 25 日か ら 28 日に かけ て…」 の よ う な 場 合 で あ る .本 研 究 で は ,直 前 に 出 現 し た 年 , 月 の 情 報 を 利 用 し , こ の よ う な 省 略 を 補 完 す る . 先 程 挙 げ た 例 で は ,「 2008 年 8 月 25 日」,「 2008 年 8 月 28 日 」 と い う 日 付 情 報 が 抽 出 さ れ る . し か し こ の 手 法 に は 問 題 が 存 在 す る . そ れ は ニ ュ ー ス 映 像 と Wikipedia と で, ニュ ース の 取り 上げ 方 が異 な る 場 合 で あ る . そ の 概 念 図 を 図 3 に 示す .ニ ュース 映 像 は あ る ト ピ ッ ク に 対 し て , 注 目 さ れ て い る 時 期 に 集 中 的 に 取 り 上 げ る こ と が 多 い . そ れ に 対 し て Wikipedia は ,一 般 に ニ ュ ー ス イ ベ ン ト の 発 端 か ら 終 息

図 2 処理 の 流れ

図 3 ニュ ー スの 取り 上 げ方 の違 い

(4)

* 5: 正 し く は “ テ ロ 対 策 海 上 阻 止 活 動 に 対 す る 補 給 支 援 活 動 の 実 施 に 関 す る 特 別 措 置 法 ” ま で を 日 付 情 報 を 含 め て 網 羅 的 に 説 明 す る が , 注 目 さ れ て い る 時 期 の 日 付 情 報 を 集 中 し て 記 述 す る こ と は 少 な い . そ の た め 日 付 情 報 に よ り 類 似 度 評 価 の 対 象 を 限 定 し て 索 引 付 け を 行 っ た 場 合 , ニ ュ ー ス 映 像 が 集 中 的 に 取 り 上 げ て い る 時 期 の 索 引 付 け が 疎 に な る 可 能 性 が 高 い .

3.3.2. 索 引 の 補 完

前 節 で 示 し た 問 題 を 解 決 す る た め に ,文 献 [1]で紹 介 し た ト ピ ッ ク ス レ ッ ド 構 造 を 利 用 し て , 索 引 付 け の 補 完 を 行 う . そ の 概 念 図 を 図 4 に 示す. 図中 の各 ノード は , ス ト ー リ 分 割 後 の 各 ニ ュ ー ス 映 像 を 表 す . ト ピ ッ ク ス レ ッ ド 構 造 は 強 く 関 連 す る ニ ュ ー ス を 時 系 列 に 連 鎖 す る こ と に よ り 構 築 さ れ て い る . そ の た め , あ る ノ ー ド に 対 し て ス レ ッ ド 構 造 上 の 前 後 に 位 置 す る ノ ー ド は , 意 味 的 に も 時 間 的 に も 最 も 類 似 す る も の で あ る と 考 え ら れ る . そ こ で , あ る Wikipedia エン ト リ が 索 引 付 け ら れ て い る ノ ー ド に 対 し て , ス レ ッ ド 構 造 上 の 前 後 の ノ ー ド に 位 置 す る ニ ュ ー ス の CC とも 類 似 度 評 価 を 行 う . こ こ で し き い 値 を 超 え れ ば 新 た に そ の ノ ー ド に も 当 該 エ ン ト リ を 索 引 付 け る . こ の 操 作 を 類 似 度 が し き い 値 以 下 に な る ノ ー ド が 出 現 す る か , 既 に 同 じ エ ン ト リ が 索 引 付 け ら れ て い る ノ ー ド が 出 現 す る ま で ト ピ ッ ク ス レ ッ ド 構 造 上 で 再 帰 的 に 適 用 す る . 既 存 の 索 引 付 け に 対 し て 以 上 の 操 作 を 繰 り 返 す こ と に よ り , 索 引 の 補 完 を 行 う .

3.4. 各 エントリに関 連 する映 像 群 の抽 出

索 引 付 け 結 果 を 利 用 し , 各 Wikipedia エン トリに 関 連 す る 映 像 群 を 抽 出 す る . こ の 際 , 索 引 付 け ら れ た 各 映 像 を 放 送 日 の 早 い 順 に 並 べ る . 索 引 付 け ら れ る 映 像 が ト ピ ッ ク ス レ ッ ド 構 造 上 で ク ラ ス タ を 形 成 し て い る 場 合 , そ の ク ラ ス タ を 保 存 し , 提 示 す る . 映 像 群 の 抽 出・提 示 の 際 ,文 献 [1]の手 法を 用いた ト ピ ッ ク ス レ ッ ド 構 造 の 再 構 築 は 行 わ な か っ た .こ れ は , 抽 出 さ れ る 映 像 同 士 の 放 送 日 の 間 隔 が 離 れ る こ と が 多 く , ト ピ ッ ク ス レ ッ ド 構 造 の よ う に 分 岐 さ せ て 提 示 す る 必 要 性 が 低 い た め で あ る .ま た ,Wikipedia エ ントリ と の 対 応 付 け に よ り 話 題 が 限 定 さ れ , ス ト ー リ 群 が 分 岐 す る こ と が 少 な く な る こ と も 一 因 で あ る .

4. 実 験と考察

4.1. 使 用 するデータ及 び実 験 条 件

CC に 関 し て は 放 送 映 像 ( NHK ニ ュ ー ス 7) に 付 随 す る も の を 使 用 し た . 2007 年 1 月 1 日 から 2008 年 6 月 30 日 まで に放送 され た映 像及び CC を使 用し, CC は ス ト ー リ ご と に 分 割 し て あ る も の と す る . ま た Wikipedia に 関 し て は 2008 年 11 月 27 日 付 で 記 録 さ れ た デ ー タ ベ ー ス・デ ー タ を ダ ウ ン ロ ー ド し て 使 用 し た . こ の 時 点 で の Wikipedia の 全エ ントリ 数 は 1,053,561 件 で あ っ た . ま た 前 章 で 説 明 し た 手 法 に よ り 抽 出 さ れ た ニ ュ ー ス 関 連 エ ン ト リ は 1,645 件であ った . な お,こ の 抽 出 の 精 度 は 十 分 良 好 で あ っ た . 以 降 , 4.2 節 で対 応 付 け 精 度 の 評 価 を 行 い , 4.3 節 で 各 エ ント リ に 対応 付 く ス ト ー リ 数 や そ れ ら の 日 数 の 間 隔 を 調 査 す る . 最 後 に 4.4 節で 映像 群の抽 出結 果の 例を示 す.

4.2. 実 験 1 :対 応 付 け精 度

4.2.1. 実 験 条 件 ・ 実 験 結 果

各 Wikipedia エ ントリ に対 応付く CC を 調査 するこ と に よ り , 対 応 付 け 精 度 を 評 価 し た . 評 価 対 象 は 3 個の Wikipedia エ ン ト リ (“ 新 テ ロ 対 策 特 措 法( * 5)”,“ 大 連 立 構 想 ( 日 本 2007)”,“ね んきん 特別 便”) であ る. 対 応 付 け の 正 誤 は 人 手 で 判 断 し た . こ こ で 正 し い 対 応 付 け と は ,「 CC 上で Wikipedia エン トリ に関 する報 道 ・ 説 明 を 具 体 的 に 行 っ て お り , か つ Wikipedia エン ト リ の テ キ ス ト 中 に も そ の 説 明 が 見 受 け ら れ る も の 」 と し た . 適 合 率 に 関 し て は , 対 応 付 け ら れ た CC 群の 内 容 を 全 て 調 査 し , 人 手 で 正 誤 判 断 を 行 っ た . ま た 再 現 率 に 関 し て は , 全 て の CC の 内容を 調査 する こと が 困 難 な た め ,期 間 を 2~3 カ月 に絞 り,人手 によ り正解 デ ー タ を 作 成 し 評 価 し た . 日 付 情 報 に よ り 類 似 度 評 価 の 対 象 を 限 定 す る か ど う か , さ ら に 索 引 の 補 完 を 行 う か ど う か で 比 較 実 験 を 行 っ た .手 法 1 :日付 情報 を利 用せず 補完 もし ない場 合 , 手 法 2: 日付 情報 を利 用す る が補 完は 行わ ない場 合 , 手 法 3:日付 情報 を利 用し補 完も 行う 場合 (提案 手 法 ) の 3 種類で 実験 した .実験 結果 を表 1 に示 す.

表 1 実験 結 果: 対応 付 け精 度

手 法 1 日 付 × 補 完 × 手 法 2 日 付○ 補 完 × 手 法 3 日 付○ 補 完○ 適 合 率( %) 43.4 97.4 86.1 再 現 率( %) 95.1 45.4 79.3

図 4 索引 の 補完

(5)

4.2.2. 考 察

提 案 手 法 は 適 合 率 , 再 現 率 が 共 に 高 く , 提 案 手 法 の 有 効 性 を 確 認 し た . 適 合 率 は 手 法 2 及 び手法 3 が高か っ た . 手 法 1 は日 付情 報を 考慮 しない ため ,テ キスト 情 報 の 類 似 度 の み で 対 応 付 け ら れ て し ま い , 誤 対 応 が 発 生 す る こ と が 多 か っ た . 例 え ば “ ね ん き ん 特 別 便 ” と い う エ ン ト リ で は 年 金 に 関 す る 記 述 が な さ れ て お り , 年 金 に つ い て 報 道 し た 日 の CC と対応 付け られ ること が 多 か っ た . し か し “ ね ん き ん 特 別 便 ” が 報 道 さ れ る 以 前 の , 年 金 に 関 す る 問 題 を 取 り 上 げ た 日 の CC とも 対 応 付 い て お り , こ れ は 適 切 で は な い . 他 に も こ の よ う な 誤 対 応 が 目 立 っ た . ま た 再 現 率 は 手 法 1, 手法 3 が 高 か っ た .手 法 2 の 再現 率は ,Wikipedia エン トリ の テ キ ス ト 中 で 日 付 情 報 が 記 述 さ れ る 頻 度 に 大 き く 依 存 し た .“ 新 テ ロ 対 策 特 措 法 ”に 関 す る Wikipedia エント リ で は 日 付 情 報 が ほ と ん ど 記 述 さ れ て お ら ず , 再 現 率 は 11%とな った.しか し索引 の補 完を 行うこ とに より, 再 現 率 は 63%に上 昇し た. 提 案 手 法 に も 問 題 が 見 受 け ら れ た . ま ず 索 引 の 補 完 に よ る 適 合 率 の 低 下 で あ る . ト ピ ッ ク ス レ ッ ド 構 造 中 で 話 題 が 少 し ず つ 変 化 し て い る 場 合 が あ り ,Wikipedia エ ン ト リ と の 関 連 度 が 小 さ く て も , テ キ ス ト 情 報 の 類 似 度 に よ っ て 対 応 付 い て し ま う こ と が 多 か っ た . ま た 再 現 率 に 関 し て も 手 法 1 よ り約 15%低い値 とな った. ス レ ッ ド 構 造 に よ り 全 て の 関 連 す る ニ ュ ー ス を 網 羅 で き て い な い 場 合 が あ り , ス レ ッ ド 構 造 に 依 存 し な い 対 応 付 け 手 法 も 検 討 す る 必 要 が あ る と 考 え た .

4.3. 実 験 2 :ストーリ数 と最 大 間 隔

4.3.1. 実 験 条 件 ・ 実 験 結 果

各 Wikipedia エン トリ に 対応 付け られ たスト ーリ 数 , 及 び 対 応 付 け ら れ た ス ト ー リ 群 の 中 で の 最 大 間 隔 ( 日 数 ) の そ れ ぞ れ に つ い て 頻 度 を 調 査 し た . 使 用 し た Wikipedia エ ン ト リ は ,ニ ュ ー ス 関 連 エ ン ト リ と し て 抽 出 さ れ た 1,645 件 であ る. 実 験結 果を 図 5 と図 6 に示 す . な お 双 方 と も ス ト ー リ 数 0, 最大 間隔 0 日 のデー タ は 除 去 し て あ る . な お , 対 応 付 け ら れ た ス ト ー リ 数 が 0 であ る Wikipedia エン トリ は 1,305 件(79%),最 大 間 隔 が 0 日 の Wikipedia エン トリ は 1,421 件(86%) で あ っ た .

4.3.2. 考 察

各 Wikipedia エン トリ に対 応付け られ るス トーリ 数 は 0~20 件 である こと が多 かっ た. ま た, スト ーリ数 が 0 となる エント リが 多か った 最大の 原因 は, 対応付 け に 使 用 し た ニ ュ ー ス 映 像 の 本 数 が 少 な く , か つ 短 い 期 間 に 放 送 さ れ た も の だ け を 使 用 し た こ と で あ る と 考 え ら れ る .そ れ に 加 え ,NHK ニ ュース 7 は 1 回 あたり の 放 送 時 間 が 短 く , 大 き な ニ ュ ー ス の み を 取 り 上 げ る こ と が 多 い こ と も 原 因 の 一 つ で あ る . 最 大 間 隔 に 関 し て は , 300 日以上 離れ たス トーリ 同 士 が 一 つ の Wikipedia エン トリ に対応 付け られ ること も あ り , 放 送 日 の 離 れ た 映 像 間 の 関 連 も 発 見 で き る こ と を 確 認 し た . な お , 図 6 のヒ ストグ ラム 上で 最大の 階 級 値 を 示 し た エ ン ト リ は 誤 対 応 で あ っ た . 正 し い 対 応 付 け と し て 最 大 の 階 級 値 を 示 し た の は“ NHK 番組改 変 問 題 ” で , 最 大 間 隔 は 498 日 (2007 年 1 月 29 日~ 2008 年 6 月 10 日 ) で あ っ た .

4.4. 映 像 群 の抽 出 結 果

4.4.1. 実 験 条 件 ・ 実 験 結 果

提 案 手 法 を 利 用 し , 各 Wikipedia エン トリ に注目 し た 映 像 群 を 抽 出 し た . 以 下 に “ 新 テ ロ 対 策 特 措 法 ” と い う Wikipedia エ ント リに 関する 抽出 結果 を示す .図 7 は 2007 年 9 月 8 日の 番組の 3 番 目のス トー リを 起点と す る ト ピ ッ ク ス レ ッ ド 構 造 の 一 部 で あ り , 各 ノ ー ド は

図 5 実験 結 果: スト ー リ数 の頻 度

図 6 実験 結 果: 最大 間 隔の 頻度

(6)

ス ト ー リ 分 割 後 の 各 映 像 を 表 し て い る . ま た “ 新 テ ロ 対 策 特 措 法 ” が 索 引 付 け ら れ た 映 像 を 青 色 で 示 し て あ る . 図 8 は トピッ ク ス レッ ド構 造か ら Wikipedia エン ト リ に 索 引 付 け ら れ た CC 群を 抽出 した結 果で ある .

4.4.2. 考 察

図 8 のよう に, 抽 出さ れた 映像群 はい くつ かのク ラ ス タ を 形 成 す る .こ こ で 各 ク ラ ス タ に お い て ,“ 新 テ ロ 対 策 特 措 法 ” と 共 に 索 引 付 け ら れ た Wikipedia エント リ を 調 査 し た .す る と ,ク ラ ス タ 1( 2007 年 9,10 月) で は “ 安 倍 改 造 内 閣 ” な ど , ク ラ ス タ 2( 2007 年 11 月 ) で は “ 大 連 立 構 想 ( 日 本 2007)” など ,ク ラスタ 3( 2007 年 12 月 前 後 )で は“ 道 路 特 定 財 源 制 度 ”な ど の Wikipedia エン トリ を確 認し た.こ れに より ,各ク ラ ス タ に お い て 共 起 す る Wikipedia エ ント リを 分析す る こ と に よ り , 各 ト ピ ッ ク ス レ ッ ド 構 造 中 で の 話 題 の 変 遷 を 理 解 す る こ と が で き る の で は な い か と 考 え る .

5. むすび

本 稿 で は ,Wikipedia を 利用 したニ ュー ス映 像アー カ イ ブ の 閲 覧 支 援 技 術 を 提 案 し た . 実 験 に よ り 適 合 率 86%,再 現 率 79%で 索 引 付 け が 行 え る こ と を 確 認 し た . ま た ,放 送 日 が 離 れ た 映 像 間 の 関 連 も 発 見 可 能 で あ り , 最 大 で 498 日 の 間 隔 が あ る 映 像 同 士 を 一 つ の Wikipedia エ ン ト リ に 対 し て 対 応 付 け る こ と が 可 能 で あ っ た . さ ら に , あ る 映 像 に 共 に 索 引 付 け ら れ る Wikipedia エ ン ト リ を 分 析 す る こ と に よ り ,話 題 の 変 遷 の 理 解 に つ な が る こ と を 確 認 し た .Wikipedia を 利用す る こ と に よ り , ク ロ ー ズ ド キ ャ プ シ ョ ン の み に よ る 処 理 で は 得 ら れ な い 情 報 を 得 ら れ る こ と を 確 認 し た . 今 後 の 課 題 と し て は ま ず , 各 Wikipedia エ ントリ に 関 連 す る 映 像 群 を 直 観 的 に 提 示 す る 閲 覧 イ ン タ フ ェ ー ス を 作 成 す る . そ の 際 , 索 引 付 け 精 度 の 更 な る 向 上 を 図 る . ま た , Wikipedia エン トリ に対 してだ けで なく, テ キ ス ト 中 の 各 節 や 各 文 に 対 し て 詳 細 に 映 像 群 を 対 応 付 け る こ と で , よ り 直 観 的 ・ 効 果 的 な 閲 覧 技 術 を 目 指 す . そ の 他 , 話 題 の 変 遷 を 分 析 し 提 示 す る 手 法 の 検 討 や , ニ ュ ー ス 映 像 以 外 の 映 像 へ の 適 用 を 検 討 す る .

謝 辞

実 験 デ ー タ と し て 使 用 し た ニ ュ ー ス 映 像 を 提 供 し て 頂 い た 国 立 情 報 学 研 究 所 に 感 謝 す る . 本 研 究 の 成 果 の 一 部 は 科 研 費 に よ る .本 稿 中 の 実 験 で は SlothLib ラ イ ブ ラ リ ( http://www.dl.kuis.kyoto-u.ac.jp/slothlib ) を 使 用 し て お り , 開 発 に 携 わ れ た 方 々 に 感 謝 す る .

文 献

[1] 井 手 一 郎 ,木 下 智 義 ,高 橋 友 和 ,孟 洋 ,片 山 紀 生 , 佐 藤 真 一 , 村 瀬 洋 :“ 大 量 ニ ュ ー ス 映 像 を 対 象 と し た 時 系 列 意 味 構 造 に 基 づ く 情 報 編 簒 手 法 の 提 案 ”, 人 工 知 能 学 会 論 文 誌 , Vol.23,No.5,pp.282 - 292 (Sep. 2008)

[2] National Institute of Standards and Technologies: “ The year 2000 Topic Detection and Tracking (TDT2000) Task Definition and Evaluation Plan”, (2000),

http://www.itl.nist. gov/iad/ mig//tests/tdt/2000/ [3] P. Duygulu, J.-Y. Pan, and D. Fors yth :“ Towards

Auto-Documentary: Tracking the Evolution of News Stories”, Proc. 12th ACM Int. Conf. on Multimedia, pp.820- 827 (Oct. 2004)

[4] X. Wu, C.-W. Ngo, and Q. Li :“ Threading and Autodocumenting News Videos ” , IEEE Signal Processing Mag., Vol.23, No.2, pp.59 - 68 (Mar. 2006)

[5] M. Rautiainen, T. Ojala, and T. Seppanen : “Cluster-Temporal Browsing of Large News Vide o Databases ” , Proc. 2004, IEEE Int. Conf. on Multimedia and Expo, Vol.2, pp. 751 - 754 (June 2004)

[6] C. Snoek, M. Worring, J. van Gemert, J. -M. Geusebroek, D. Koelma, G. Nguyen, O. de Rooij, and F. Seinstra :“ MediaMill: Exploring News Vide o Archives based on Learned Semantics” , Proc. 13th ACM Int. Conf. on Multimedia, pp.225 - 226 (Nov. 2005) [7] 中 山 浩 太 郎 , 原 隆 浩 , 西 尾 章 二 郎 :“ Wikipedia マ イ ニ ン グ に よ る シ ソ ー ラ ス 辞 書 の 構 築 手 法 ”, 情 報 処 理 学 会 論 文 誌 ,Vol.47,No.10,pp.2917-2928 (Oct. 2006) [8] 川 場 真 理 子 , 中 崎 寛 之 , 宇 津 呂 武 仁 , 福 原 知 宏 : “ Wikipedia エ ン ト リ と ブ ロ グ サ イ ト の 対 応 付 け に よ る 日 本 語 ブ ロ グ 空 間 の ト ピ ッ ク 分 布 推 定 ”, 情 報 処 理 学 会 研 究 報 告 , 2008-NL-187 (pp.83-90) (Sep. 2008)

図 7 トピ ッ クス レッ ド 構造 の例

図 8 抽出 さ れた 映像 群 の例

参照

関連したドキュメント

An important problem in the theory of quadratic forms is to determine when an anisotropic quadratic form ' over F becomes isotropic over the function eld F ( ) of another form.

We derive rigorously a homogenized model for the displacement of one compressible miscible fluid by another in a partially fractured porous reservoir.. We denote by the

Oscillatory Integrals, Weighted and Mixed Norm Inequalities, Global Smoothing and Decay, Time-dependent Schr¨ odinger Equation, Bessel functions, Weighted inter- polation

We show that the Chern{Connes character induces a natural transformation from the six term exact sequence in (lower) algebraic K { Theory to the periodic cyclic homology exact

– Solvability of the initial boundary value problem with time derivative in the conjugation condition for a second order parabolic equation in a weighted H¨older function space,

algorithm for identifying the singular locus outside of type G 2 could also be used by showing that each Schubert variety not corresponding to a closed parabolic orbit has a

“Breuil-M´ezard conjecture and modularity lifting for potentially semistable deformations after

In fact, we have shown that, for the more natural and general condition of initial-data, any 2 × 2 totally degenerated system of conservation laws, which the characteristics speeds