• 検索結果がありません。

甲1799 要旨・審査要旨 Abstract, Screening Result

N/A
N/A
Protected

Academic year: 2018

シェア "甲1799 要旨・審査要旨 Abstract, Screening Result"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

氏 名 PHAN LE SANG

学 位 ( 専 攻 分 野) 博 士 ( 情 報 学 )

学 位 記 番 号 総 研 大 甲 第 1799

学 位 授 与 の 日 付 平 成 2 7 年 9 月 2 8 日

学 位 授 与 の 要 件 複 合 科 学 研 究 科 情 報 学 専 攻 学 位 規 則 第 6 条 第 1 項 該 当

学位論文題目 Event Detection from Video Using Segment-Based Approach

論文審査委員 主 査 教 授 杉 本 晃 宏 教 授 佐 藤 い ま り 准 教 授 Duy-Dinh Le 准 教 授 Gene Cheung

教 授 佐 藤 真 一 国 立 情 報 学 研 究 所

(2)

(Separate Form 2)

論 文 内 容 の 要 旨

Summary of thesis contents

Event Detection from Video Using Segment-Based Approach

Recognizing event in unconstrained videos is one of the most important tasks in multimedia retrieval. It has many potential applications such as video indexing, searching, and event recounting. However, this is a challenging task due to the large content variation and uncontrolled capturing condition. This leads to the fact that these videos often contain irrelevant information to the event of interest. The straightforward way to solve this problem is to decompose the original video into smaller segments and build the event detectors from these segment representations. This dissertation follows the aforementioned direction to study event detection methods in real videos. Essentially, we study three complementary approaches including feature representation, feature aggregation and feature learning.

In the first approach, we propose to use the segment-based (SB) feature representation to overcome the limitation of the traditional video-based approach. In the video-based approach, local features are extracted from the entire video and then aggregated to form the final video representation. However, this video-based representation is ineffective when used for realistic videos because the video length can be very different and the clues to determine an event may happen in only a small segment of the entire video. To handle this problem, our segment-based divides the original videos into segments for feature extraction and classification, while still keeping the evaluation at the video level. We investigate several strategies to divide a video into segments including non-overlapping uniform segment sampling, overlapping uniform segment sampling, and segments that based on the shot boundary detection. We also study the optimal segment length for event detection, which is close to the mean average length of the training videos.

The second approach handles the aforementioned problem by proposing a new video pooling strategy for feature aggregation. We consider a video as a layered structure where the lowest layer are frames, the top layer is the entire video, and the middle layers are the sequences of consecutive frames or the concatenation of lower layers. While it is easy to find local discriminative features in video from lower layers, it is non-trivial to aggregate these features into a discriminative video representation. In literature, people often use sum pooling to obtain reasonable recognition performance on artificial videos. However, the sum pooling technique does not work well on complex videos because the region of interests may reside within some middle layers. In this approach, we leverage the layered structure of video to propose a new video pooling method, named sum-max video pooling (SM), to handle this problem. Basically, we apply sum pooling at the low layer representation while using max

(3)

(Separate Form 2)

pooling at the high layer representation. Sum pooling is used to keep sufficient relevant features at the low layer, while max pooling is used to retrieve the most relevant features at the high layer, therefore it can discard irrelevant features in the final video representation.

In the third approach, we focus on feature learning method to learn the key segments for video representation. In fact, a complex event can be recognized by observing necessary evidences. It is not easy to locate supportive evidences because they can happen anywhere in a video. A straightforward solution is to decompose the video into several segments and search for the evidences in each segment. This approach is based on the assumption that segment annotation can be assigned from its video label. However, this is a weak assumption because the importance of each segment is not considered. On the other hand, the importance of a segment to an event can be obtained by matching its detected concepts against the evidential description of that event. Leveraging this prior knowledge, we propose a new method, Event-driven Multiple Instance Learning (EDMIL), to learn the key evidences for event detection. We treat each segment as an instance and quantize the instance-event similarity into different levels of relatedness. Then the instance labels are learned by jointly optimizing the instance classifier and its related level. Finally the optimal instance classifiers are used to detect event.

We verify the effectiveness of our approaches on the large scale TRECVID Multimedia Event Detection 2010, 2011 and 2012 datasets. Our approaches can not only detect event, but also provide evidences for event detection. Compared to other segmentbased approaches, our solutions achieve significant improvements. For example, when comparing in the MED 2011 dataset with a same setting, the baseline method (traditional video-based approach) has the average precision of 6.74 %, while our methods (SB, SM and EDMIL) have the performance of 8.26 %, 6.92 % and 9.68 % respectively

(4)

(Separate Form 3)

博 士 論 文 の 審 査 結 果 の 要 旨

Summary of the results of the doctoral thesis screening

Event Detection from Video Using Segment-Based Approach

本 論 文 は 、Event Detection from Video Using Segment-based Approach (セ グ メ ン ト に 基 づ く ア プ ロ ー チ に よ る 映 像 か ら の イ ベ ン ト 検 出)と 題 し 、映 像 中 の 複 雑 な イ ベ ン ト の 検 出 技 術 に つ い て 述 べ て い る 。 映 像 中 の イ ベ ン ト と は 主 と し て 映 像 中 の 人 物 の 行 動 に 基 づ く も の で あ り 、 人 物 の 動 作 、 複 数 の 人 物 間 の 相 互 作 用 、 人 物 と 物 体 や 状 況 と の 相 互 作 用 な ど か ら な り 、 映 像 に よ り 記 述 さ れ る 重 要 な 情 報 で あ る 。 従 っ て 、 映 像 中 の イ ベ ン ト の 検 出 は 、 映 像 検 索 を は じ め 様 々 な 応 用 に 必 要 不 可 欠 な 技 術 で あ る 。 本 論 文 は 、 映 像 を 構 成 す る セ グ メ ン ト に 基 づ く イ ベ ン ト 検 出 の ア プ ロ ー チ に つ い て 検 討 し て お り 、 セ グ メ ン ト に 基 づ く 最 適 な 映 像 表 現 方 法 、 そ の 表 現 に 基 づ い て 映 像 特 徴 量 を 構 成 す る た め の 統 合 手 法 、 ま た セ グ メ ン ト に 基 づ く イ ベ ン ト 検 出 を 最 適 化 す る た め の 機 械 学 習 技 術 と い う 三 つ の 視 点 か ら 広 範 囲 な 検 討 を 行 い 、 英 文 に て ま と め て い る 。

第 一 章 Introduction(序 論)で は 、 本 研 究 の 動 機 、 対 象 と し た 映 像 か ら の イ ベ ン ト 検 出 と い う 問 題 、 そ の 課 題 、 本 論 文 の 貢 献 に つ い て ま と め て い る 。

第 二 章 Background(背 景)で は 、本 論 文 の 背 景 と な る 事 項 に つ い て ま と め て お り 、具 体 的 に 取 り 組 ん だ TRECVID マ ル チ メ デ ィ ア イ ベ ン ト 検 出 に つ い て 説 明 し た 上 で 、 映 像 処 理 、 映 像 特 徴 量 、 そ れ ら を 統 合 す る エ ン コ ー デ ィ ン グ 技 術 、 機 械 学 習 等 、 関 連 す る 研 究 領 域 に つ い て ま と め て い る 。

第 三 章 Event Detection Using Segment-based Feature Representation(セ グ メ ン ト に 基 づ く 特 徴 表 現 に よ る イ ベ ン ト 検 出)で は 、セ グ メ ン ト 表 現 に 基 づ く イ ベ ン ト 検 出 に つ い て 検 討 し て お り 、 特 に イ ベ ン ト 検 出 性 能 を 最 適 化 す る セ グ メ ン ト 表 現 方 式 に つ い て 網 羅 的 に 実 験 を 行 い 、 実 際 に 高 い イ ベ ン ト 検 出 性 能 を 達 成 し て い る 。 本 章 の 内 容 は 、Pacific-Rim Conference on Multimedia (2012)並 び に Journal of Signal Processing Systems (2014) に て 発 表 し て い る 。

第 四 章 Event Detection Using Sum-Max Feature Aggregation(Sum-Max 特 徴 統 合 に よ る イ ベ ン ト 検 出)で は 、映 像 特 徴 記 述 の 統 合 法 に つ い て 検 討 し て お り 、画 像 特 徴 量 や 軌 跡 特 徴 量 を セ グ メ ン ト に お い て 統 合 す る 方 法 、 セ グ メ ン ト 特 徴 を 映 像 に お い て 統 合 す る 方 法 の 両 段 階 に お い て 、Sum pooling( 統 合 時 に 元 の 特 徴 記 述 す べ て の 影 響 を 考 慮 す る ) 方 法 と Max pooling( 統 合 時 に は 元 の 特 徴 量 の う ち 最 も 重 要 な も の の み を 考 慮 す る ) 方 法 に つ い て 、 す べ て の 組 み 合 わ せ を 検 討 し 、 セ グ メ ン ト レ ベ ル で は Sum pooling、 映 像 レ ベ ル で は Max pooling を 行 う 方 法 が 最 も 適 当 で あ る こ と を 、 包 括 的 な 実 験 に 基 づ き 解 明 し て い る 。 本 章 の 内 容 は International Conference on Image Processing (2014)に て 発 表 し て い る 。 第 五 章 Event Detection Using Event-Driven Multiple Instance Learning(イ ベ ン ト 駆 動 Multiple-Instance学 習 に よ る イ ベ ン ト 検 出)で は 、 イ ベ ン ト を 記 述 す る 言 語 表 現 が 与 え ら れ て い る 場 合 を 想 定 し 、各 セ グ メ ン ト か ら デ ィ ー プ ラ ー ニ ン グ に 基 づ い て 概 念 記 述 を 求 め 、 こ れ ら と イ ベ ン ト 記 述 と の 類 似 度 を デ ィ ー プ ラ ー ニ ン グ に 基 づ く 単 語 埋 め 込 み 表 現 ( ベ ク ト ル 表 現 ) を 用 い て 求 め た 上 、 各 セ グ メ ン ト を イ ン ス タ ン ス 、 映 像 を バ ッ グ と み な し た Multiple Instance Learning技 術 に よ り セ グ メ ン ト ご と に イ ベ ン ト に 対 す る 適 合 度 を 適 応 的 に 学 習 す る 方 法 を 考 案 し 、 実 際 に イ ベ ン ト 検 出 性 能 を 顕 著 に 向 上 さ せ る こ と に 成 功 し て い る 。 本 章 の 内 容 は ACM Multimedia (2015) Short paper( ポ ス タ ー 発 表 ) と し て 採 択

(5)

(Separate Form 3) 済 み で あ る 。

第 六 章 Conclusion(結 論)に て 本 論 文 の 成 果 を ま と め て い る 。

本 論 文 で 検 討 し て い る 、 映 像 か ら の イ ベ ン ト 検 出 の 高 度 化 に 対 し 、 セ グ メ ン ト に 基 づ く 映 像 表 現 、映 像 特 徴 の 統 合 化 、機 械 学 習 に よ る イ ベ ン ト 検 出 の 高 精 度 化 と い う 三 つ の 観 点 は 、 映 像 意 味 解 析 の 高 度 化 の た め に は 極 め て 重 要 で あ り 、 得 ら れ た 知 見 は 研 究 コ ミ ュ ニ テ ィ に も 大 変 有 用 で あ る 。 こ の よ う に 、 本 論 文 の 映 像 イ ベ ン ト 検 出 を は じ め と す る 映 像 内 容 解 析 技 術 に 関 連 す る 学 術 的 ・ 社 会 的 貢 献 は 少 な く な い と 考 え ら れ る 。

参照

関連したドキュメント

The Mathematical Society of Japan (MSJ) inaugurated the Takagi Lectures as prestigious research survey lectures.. The Takagi Lectures are the first series of the MSJ official

I give a proof of the theorem over any separably closed field F using ℓ-adic perverse sheaves.. My proof is different from the one of Mirkovi´c

This technique allows us to obtain the space regularity of the unique strict solution for our problem.. Little H¨ older space; sum of linear operators;

He thereby extended his method to the investigation of boundary value problems of couple-stress elasticity, thermoelasticity and other generalized models of an elastic

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

Kilbas; Conditions of the existence of a classical solution of a Cauchy type problem for the diffusion equation with the Riemann-Liouville partial derivative, Differential Equations,

In order to solve this problem we in- troduce generalized uniformly continuous solution operators and use them to obtain the unique solution on a certain Colombeau space1. In

The object of this paper is the uniqueness for a d -dimensional Fokker-Planck type equation with inhomogeneous (possibly degenerated) measurable not necessarily bounded