九州大学学術情報リポジトリ

(1)

九州大学学術情報リポジトリ

Kyushu University Institutional Repository

ビデオにおける動作認識のための興味点抽出と背景点推定に関する研究

向, 宇

https://doi.org/10.15017/1807060

出版情報：Kyushu University, 2016, 博士（工学）, 課程博士バージョン：

権利関係：Fulltext available.

(2)

（別紙様式２）

氏名：向宇 (Xiang Yu)

論文題名：A Study on Interesting Points Extraction and Background Points Estimation

for Action Recognition in Videos

（ビデオにおける動作認識のための興味点抽出と背景点推定に関する研究）

区分：甲

論文内容の要旨

近年のハードウェア技術の進歩により、容易に静止画像や動画像の取得が可能となり、大量の静止画像や動画像が蓄積されて来ている。そのため、求める動画像を効率よく検索する技術が必要である。動画像に含まれる人や物の動きを指定して検索が行えれば効率が良いと考えられる。そこで、本論文では、動画像における動作認識に着目し、そのための興味点抽出と背景点推定の手法を扱っている。ここでの動作とは、移動する車、飛行機、床上の風船の跳ね返りなどの単純な剛体動作ではなく、人間のように関節をもった対象物によって実行される動作を示す。また、動作の種類に制限を設けず、種々の場面における動作を対象にする。対象物の特徴点を抽出しその軌道を分析することにより動作認識が可能となる。対象物の特徴点抽出は、使用されるビデオカメラの動き（カメラモーション）の影響を受ける。動画像の多くにおいて、

ビデオカメラは静的ではなく、平行移動、ズーム、振動などのカメラ特有の動きがある。これらは背景点の動きとして現れるため、背景点の動きを考慮することにより、動画像に含まれる対象物の動作認識精度を向上させることが可能である。

特徴点抽出手法として、動作対象物から関節のように特に重要と考えられる少数の点を抽出しそれらの点の軌道を分析して動作認識を行う手法（疎点抽出法）と動作対象物全体から多数の点を抽出しそれらの点の集合として軌道を分析して動作認識を行う手法（密点抽出法）がある。本研究では、まず、静的なビデオカメラによる高解像度の動画像を対象に前者の手法を適用した。特徴点としてどの点を抽出するかが重要であるが、明らかに、大きな動きをする部分に位置する点は小さな動きをする部分の点よりも動作を表す点として重要であると考えらえる。

そこで、本論文では、動作対象物の関節に当たる部分に位置する点を特徴点として抽出する一連の手法を提案している。まず、動作対象物のシルエット画像を抽出し、それを細線化してスケルトン画像を得る。次に、スケルトン画像から動作対象物の関節の位置に対応する終端点と分岐点を抽出するものである。本論文では、特に、テンプレートに基づく終端点と分岐点抽出法とそれらの点からスケルトン構造を高速に構築するためのアルゴリズムを開発している。

しかし、多くの実際の動画像は高解像度ではなく、かつ、種々のカメラモーションが含まれる。これらの動画像では、動作する前景の対象物のシルエットを正確に抽出することは困難であり、終端点と分岐点の取得は困難である。そこで、本研究では、次に、密点抽出法を適用した。この方法では、特徴点はある画素間隔のグリッド上でサンプリングされ、これらのサンプリング点に対してオプティカルフローを計算する。この高密度オプティカルフロー群(Dense Trajectory)を、動作認識のための軌道群として使用する。本論文では、さらに、動画像中のカメ

(3)

ラの動きの影響を除去する手法を適用した。まず、近年提案された長時間に渡る点軌道の分析手法(Long-term Points Trajectory Analysis)を適用し、異なる動作対象部分となるように軌道群を分割する。そして、新たに導入したいくつかの尺度を用いて背景と考えられる軌道群の候補を推定し、最も可能性の高いものを背景として選択する。選択された軌道群を使用して、各フレームにおける背景点のモーションパターンを推定する。これは、ビデオカメラの動きと考えることができる。背景の軌道群を取り除くことにより、カメラの動きの影響を除去するものである。最終的に得られた軌道群からBag-of-Words法に基づき特徴ベクトルを生成する。この特徴ベクトルは、動画像中の対象物の動作を表すビデオ記述子となる。これらのビデオ記述子を入力にしSVM機械学習法を使用して、含まれる動作の種類により動画像を分類する。評価実験の結果から、背景点推定を導入した本手法は、背景点推定なしの場合に比べて平均して5％の精度向上があることが分かった。

本論文の構成は、次の通りである。まず第１章で、本論文の概要と関連研究について述べる。第２章では、静的なビデオカメラによる高解像度動画像の動作認識のための興味点抽出手法について述べる。動作対象物の関節に当たる部分に位置する点を特徴点として抽出する一連の手法を構成するアルゴリズムのそれぞれについて実験結果を示し説明する。第３章では、実用的な動画像における動作認識のための背景点推定手法について述べる。背景点推定のために導入したいくつかの尺度について詳述する。また、実験結果を示し本手法の有用性を明らかにする。最後の第４章で、まとめと今後の課題を述べる。

（1,947文字）

九州大学学術情報リポジトリ