九州大学学術情報リポジトリ
Kyushu University Institutional Repository
ビデオにおける動作認識のための興味点抽出と背景 点推定に関する研究
向, 宇
https://doi.org/10.15017/1807060
出版情報:Kyushu University, 2016, 博士(工学), 課程博士 バージョン:
権利関係:Fulltext available.
(別紙様式2)
氏 名 :向 宇 (Xiang Yu)
論文題名 :A Study on Interesting Points Extraction and Background Points Estimation
for Action Recognition in Videos
(ビデオにおける動作認識のための興味点抽出と背景点推定に関する研究)
区 分 : 甲
論 文 内 容 の 要 旨
近年のハードウェア技術の進歩により、容易に静止画像や動画像の取得が可能となり、大量 の静止画像や動画像が蓄積されて来ている。 そのため、求める動画像を効率よく検索する技術 が必要である。動画像に含まれる人や物の動きを指定して検索が行えれば効率が良いと考えら れる。そこで、本論文では、動画像における動作認識に着目し、そのための興味点抽出と背景 点推定の手法を扱っている。ここでの動作とは、移動す る車、飛行機、床上の風船の跳ね返り などの単純な剛体動作ではなく、人間のように関節をもった対象物によって実行される動作を 示す。また、動作の種類に制限を設けず、種々の場面における動作を対 象にする。対象物の特 徴点を抽出しその軌道を分析することにより動作認識が可能となる。 対象物の特徴点抽出は 、 使用されるビデオカメラの動き(カメラモーション)の影響を受ける。動画像の多くにおいて、
ビデオカメラは静的ではなく、平行移動、ズーム、振動などのカメラ特有の動きがある。これ らは背景点の動きとして現れるため、背景点の動きを考慮することにより、動画 像に含まれる 対象物の動作認識精度を向上させることが可能である。
特徴点抽出手法として、動作対象物から関節のように特に重要と考えられる少数の点を抽出 しそれらの点の軌道を分析して動作認識を行う手法(疎点抽出法)と動作対象物全体から多数 の点を抽出しそれらの点の集合として軌道を分析して 動作認識を行う手法(密点抽出法)があ る。本研究では、まず、静的なビデオカメラによる高解像度の動画像を対象に 前者の手法を適 用した。特徴点としてどの点を抽出するかが重要であるが、明らかに、大きな動きをする部分 に位置する点は小さな動きをする部分の点よりも動作を表す点として重要であると考えらえる。
そこで、本論文では、動作対象物の関節に当たる部分に位置する点を特徴点として抽出する 一 連の手法を提案している。まず、動作対象物のシルエット画像を抽出し、それを細線化してス ケルトン画像を得る。次に、スケルトン画像から動作対象物の関節の位置に対応する 終端点と 分岐点を抽出するものである。本論文では、特に、テンプレートに基づく終端点と分岐点抽出 法とそれらの点からスケルトン構造を高速に構築するためのアルゴリズムを開発している。
しかし、多くの実際の動画像は高解像度ではなく、かつ、種々のカメラモーションが含まれ る。これらの動画像では、動作する前景 の対象物のシルエットを正確に抽出することは困難で あり、終端点と分岐点の取得は困難である。そこで、本研究では、次に、密点抽出 法を適用し た。この方法では、特徴点はある 画素間隔のグリッド上でサンプリングされ、これらのサンプ リ ン グ 点 に 対 し て オ プ テ ィ カ ル フ ロ ー を 計 算 す る 。 こ の 高 密 度 オ プ テ ィ カ ル フ ロ ー 群(Dense Trajectory)を、動作認識のための軌道群として使用する。本論文では、さらに、動画像中のカメ
ラの動きの影響を除去する手法を 適用した。まず、近年提案された長時間に渡る点軌道の分析 手法(Long-term Points Trajectory Analysis)を適用し、異なる動作対象部分となるように軌道群を 分割する。そして、新たに導入したいくつかの尺度を用いて 背景と考えられる軌道群の候補を 推定し、最も可能性の高い ものを背景として選択する。選択された 軌道群を使用して、各フレ ームにおける背景点のモーションパターンを推定する。 これは、ビデオカメラの動きと考え る ことができる。背景の軌道群を取り除くことにより、カメラの動きの影響を除去するものであ る。最終的 に得られ た 軌道 群からBag-of-Words法に基づき 特徴ベク ト ルを生成す る。この 特 徴 ベクトルは、動画像中の対象物の動作を表すビデオ記述子となる。これらのビデオ記述子を入 力にしSVM機械学習法を使用して、含まれる動作の種類により動画像を分類する。評価実験の 結果から、背景点推定を導入した本手法は、背景点推定なしの場合に比べて平均して5%の精度 向上があることが分かった。
本論文の構成は、次の通りである。まず第1章で、本論文の概要と関連研究について述べる。第2 章では、静的なビデオカメラによる高解像度動画像の動作認識のための興味点抽出手法について述べ る。動作対象物の関節に当たる部分に位置する点を特徴点として抽出する一連の手法 を構成す るアルゴリズムのそれぞれ について実験結果を示し説明する。第3章では、実用的な動画像にお ける動作認識のための背景点推定手法について述べる。背景点推定のために導入したいくつかの尺度 について詳述する。また、実験結果を示し本手法の有用性を明らかにする。最後の第4章で、まとめ と今後の課題を述べる。
(1,947文字)