3次元Haar特徴量を用いたハンドジェスチャー認識
6
0
0
全文
(2) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report 表1. それぞれの手法の比較.本研究の手法は照明変化にも頑強である.また既存のハンドジェ スチャー分類の手法 [1] で用いられた特徴と比較して高速に計算でき,かつ有効である特. 徴量の解釈性も高い 手法. 精度. 計算コスト. 照明変化. 解釈性. 3D Haar [2]. 低い. 低い. 弱い. 高い. 高い. 低い. 強い. 高い. 高い . 高い. 強い. 低い. 本研究 既存のハンドジェスチャー分類手法 [1]. そして Kim 等のハンドジェスチャー分類に使われた特徴 特徴量に導入することによって精度向上と照明変化に頑. W1. D. 強になる利点が得られる.一方で Kim 等によるテンソル を用いた方法は,照明変化に強く高い識別率を誇るが,分. W2. H. を比べたものである.我々の提案した拡張,改良を Haar. 図1. Cui 等 [2] によって提案された 3 次元 Haar 特徴量の例.この. 類に要する時間がかかるため、リアルタイムな分類には向. 例では特徴量は2つのキューブ内にあるボクセル値の差が特. かない.しかし我々の手法は十分高速に分類することがで. 徴量となる.. きる. また,特徴量を使ってどのように分類器を作成するかに も議論の余地がある.3 次元 Haar 特徴量が提案した Cui 等は分類器として Support Vector Machine(SVM) を用い ている [2]. しかし,SVM ではデータが増えるとデータ数 の 2 乗に比例して学習に時間がかかってしまうえ,分類の 際にも与えられた動画に対して特徴量をすべて計算しなけ ればならず時間がかかってしまう.そこで我々は SVM の 代わりに Adaboost[6] を採用した.Adaboost は 2 次元の. め,3 次元の配列 I としてみなせる.つまり I(x, y, t) は動 画の t フレーム目にある画像における位置 (x, y) のピクセ ル値とする.3 次元 Haar 特徴量はその 3 次元配列の内部 にある任意のキューブに含まれるボクセル値の線形結合で あらわされる.具体的には,ある 3 次元 Haar 特徴量は. fi =. ∑. wi CU BESU M (ci ),. (1). i=1...N. Haar 特徴量で物体検出をする際にも使われている手法 [4] で分類に有効であるような特徴量だけを学習時に計算する ことで分類にかかる時間を削減できる. 最後にこの論文の概要を述べる.2 節では関連研究,つ まり Cui 等に提案された 3 次元 Haar 特徴について説明す る.3 節では既存の 3 次元 Haar 特徴量の問題点と本研究 で提案す改良について述べる.4 章では,実際に特徴量を 用いてどのように識別器を作成するかを述べる.SVMで はなく Adaboost を用いることについて分類の際の計算時 間が削減できることについて説明する.5 節では実験とそ の結果について述べる.実験では我々の提案した特徴量と 従来の特徴量,そしてハンドジェスチャー分類で従来提案 されていた手法との性能を比較する.また学習によって分 類に有効とされた特徴の解釈結果についても述べる.. 2. 関連研究 本節では Cui 等 [2] によって提唱された 3 次元 Haar 特 徴量について説明する.3 次元 Haar 特徴量は,2 次元の. Haar 特徴量を動画に適用するために拡張したものとなっ ている [2]. 2 次元の Haar 特徴量は OpenCV[7] などで画像. という形で書くことができる.ただし. • ci は 3 次元配列内部にあるキューブ ci = (x, y, t) .
(3)
(4)
(5) XLi ≤ x ≤ XLi + Wi ,
(6)
(7) Y Li ≤ y ≤ Y Li + Hi ,
(8)
(9)
(10) T Li ≤ t ≤ T Li + Di. • CU BESU M (c) =. ∑ (x,y,t)∈c. . , (2). I(x, y, t) はキューブ c 内. にあるボクセル値の和. • wi ∈ R はそれぞれのキューブの重み となっている.実践的には N は高々 4 程度で十分あり,定 数とみなせる [2]. 図 1 は 3 次元 Haar 特徴の例を示してい る.図 1 では黒いキューブと白いキューブ内部のボクセル 値の差が特徴量として定義される. これらの特徴量は既存の動画に対して積分立体と呼ばれ る 3 次元配列. iv(x, y, t) =. ∑. I(x′ , y ′ , t′ ).. (3). x′ ≤x,y ′ ≤y,t′ ≤t. の物体検出に用いられており,3 次元の Haar 特徴量は歩. を予め計算しておくことで定数時間で計算できる.つまり. 行者検出で高い精度を示した.. 積分立体 iv(x, y, t) はもとの動画の (x, y, t) より低い座標 にあるボクセル値の和である.具体的には,Haar 特徴量. 2.1 3 次元 Haar 特徴 動画は画像を時間軸上に並べたものとしてみなせるた. ⓒ 2014 Information Processing Society of Japan. は動画内部にある任意のキューブ内のボクセル値の和を計 算できるればよい.そのキューブ内のボクセル値の和は. 2.
(11) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. (cube). 比べ右の動画は左下の部分が照らされた環境下で撮影され. =. iv(XL + W, Y L + H, T L + D). ている.そのため,左下の部分を含むキューブを用いた特. +. iv(XL, Y L, T L + D). 徴量は左の動画と右の動画とでは大きく変わってしまう.. −. iv(XL, Y L + H, T L + D). このように Haar 特徴には照明変化に脆弱であるという. −. iv(XL + W, Y L, T L + D). 欠点がある.そのため我々は,照明変化に頑強になるよう. −. iv(XL + W, Y L + H, T L). Haar 特徴に改良を加えた.具体的にはグレースケール画. −. iv(XL, Y L, T L). 像ではなく HSV 画像を用い,さらに時間方向での差分画. +. iv(XL + W, Y L, T L). 像を使う.本節ではまず 45◦ 回転させた特徴量について説. +. iv(XL, Y L + H, T L).. 明する.次に,照明変化に対する 2 つの工夫つまり,HSV. CU BESU M. (4). 画像を用いる方法とフレーム間の差分を用いる方法につい のように O(1) で計算できる [2]. Haar 特徴量はキューブ内. て説明する.. 部の線形結合であったため Haar 特徴量も定数時間で計算 できる.積分立体自体は動画のサイズに比例した時間で計. 3.1 45◦ 回転させた特徴量. 算でき [2], 一度積分立体を計算できれば任意の Haar 特徴 量は定数時間で計算できる.図 2 は積分立体からキューブ を計算する方法について視覚的に示した図である.キュー ブの各頂点での座標での積分立体の値を図のように加減す ることでキューブ内部にあるボクセル値の和を求めること ができる. 図 4. Viola 等が用いた 2 次元の Haar 特徴量 [4] と Lienhart 等が 追加した特徴量 [5] の例.45◦ 回転させた特徴量を追加された ことによりドメインの空間が広くなり,モデルの表現力が向上 した.顔分類の実験でも特徴量を加えることにより 10% の検. + 図 2. + - + - +. 出率向上が確認された.. 積分立体を用いてどのようにキューブ内のボクセル値の和を 計算するのかを示した図.キューブ各頂点における積分立体の 値を図のように加減することで,キューブ内のボクセル値の和 を計算できる.任意の Haar 特徴はキューブ内部の線形結合な ので,Haar 特徴も定数時間で計算できる.. 図 5. 45◦ 回転した 3 次元 Haar 特徴の例.我々は xy 平面で回転さ せたもののみを扱う.. 3. 3 次元 Haar 特徴量の改良. 我々は Cui 等によって提案された特徴量 [2] に xy 平面. 本節では本論文の貢献部分について説明する.我々はま. で 45◦ 回転せた特徴量を加えた.これは Linehart 等によ. ず,3 次元 Haar 特徴に xy 平面に 45◦ 回転させた特徴量を. る 2 次元の Haar 特徴量の拡張 [5] を参考にした.図 4 は. 追加した.これは Linehart 等 [5] による 2 次元の Haar 特. Viola 等が用いた 2 次元の Haar 特徴 [4] と Linehart 等が. 徴への拡張を 3 次元にも適用したものである.これにより. それらに追加した特徴量 [5] の例を示している.Linehart. 特徴量空間が広くなりより豊かな表現が可能になる.. 等は Viola 等が用いた Haar 特徴量 [4] に 45◦ 回転させた. また,第 1 節で説明したように 3 次元 Haar 特徴には照. ものを加えることにより,より特徴量空間を増やし,識別. 明変化に弱いという問題がある.図 3 は Haar 特徴が照明. 器が表現できるモデルをより豊富にした.顔識別の実験で. 変化で有効でなくなる例を示している.図 3 の左の動画に. はこれにより 10%の精度向上という結果が確認されてい る [5]. そこで我々も既存の 3 次元 Haar 特徴量 [2] に xy 平 面で 45◦ 回転させた特徴量を加えることでよりモデルの表 現力を豊かにする手法を提案する.. 45◦ 回転せた特徴量は 45◦ 回転せたキューブ内部のボク 図 3. 3 次元 Haar 特徴が照明変化で有効でなくなる例.右の動画に. セル値の和として定義される.図 5 は 45◦ 回転した 3 次元. 比べ左の動画は左下の角が照明に照らされている.そのため左. Haar 特徴の例である.45◦ 回転せたキューブ内部のボクセ. 下の部分を含むキューブによる特徴量がうまく働かない.. ル値の和は. ⓒ 2014 Information Processing Society of Japan. 3.
(12) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. ∑. xyriv(x, y, t) =. I(x′ , y ′ , t′ ).. (5). 3.2 HSV 画像を用いる 照明変化に強くする方法としてグレースケール画像の. x′ ≤x,x′ ≤x−|y−y ′ |,t′ ≤t. という形で表すことができる.既存の 3 次元 Haar 特徴の 場合と同様に,この任意の回転せたキューブに対して内部 のボクセル値の和が求められれば 45◦ 回転した 3 次元 Haar 特徴を求めることができる. この回転したキューブに対して内部のボクセル値の和は 回転した積分立体. かわりに HSV 画像を用いた.HSV とは色相 (Hue), 彩度. (Saturation・Chroma), 明度 (Value) を表している.HSV の V チャンネルはグレースケールと同等であるため,HSV はグレースケールの拡張とみなせる.そこで我々の手法で は,HSV それぞれのチャンネルに対して積分立体を計算 し,訓練データでの特徴量を計算.その後,3 チャンネル に対して PCA を用いて 1 次元に圧縮した.こうすること. xyriv(x, y, t) = xyriv(x, y, t − 1) + rsatt (x, y),. (6). で,明度による情報が照明変化で有効でなくても彩度や色 相の情報が有効であるならば PCA で圧縮した Haar 特徴 量は有効になると期待できる.. を予め計算しておくことで O(1) で計算できる.. 3.3 差分画像を用いる. 図 6 “Rotated Summed Area Table”と画像との対応.rsat(x, y) 図 7 2 つの フ レ ー ム の 差 分 画 像 . 差 分 画 像 は idiff(x, y, t) =. は灰色の部分にある画像内のピクセル値の和である.. abs(I(x, y, t − 1) − I(x, y, t + 1)) のように表される.差 分画像上で 0 でない場所は 2 つのフレーム間で動きがあった. ここで,rsat は “Rotated Summed Area Table” [5] と. ことを示している.そのため照明や背景が時間によって不変な らば差分画像は不変となる.. 呼ばれるもので動画における t 番目の画像に対し. ∑. rsatt (x, y) =. I(x′ , y ′ , t).. (7). x′ ≤x,x′ ≤x−|y−y ′ |. 照明変化を和らげる 2 つ目の手法として差分画像を用い る手法を提案する. 図 7 は2つの連続したフレーム間の 差分画像を表している.差分画像は. で定義される.“Rotated Summed Area Table”は画像サ イズの線形時間で計算できるため,回転した積分立体自体 も動画のサイズの線形時間で計算できる.図 6 は“Rotated. Summed Area Table”と元の画像との対応を表している. 画像に対して,rsat(x, y) はグレーで描かれた部分にある 画像内部のピクセル値の和として計算される.. idiff(x, y, t) = abs(I(x, y, t − 1) − I(x, y, t + 1)),. (9). のように計算できる.差分画像上で 0 でない場所は 2 つの フレーム間で動きがあったことを示している.そして,差 分画像上で明るい場所ほど 2 つのフレーム間に大きな動き がある.我々の提案手法では差分画像 idiff 上で積分立体. 回転した積分立体によって回転したキューブに対して内 部のボクセル値の和は. xyriv, iv を計算し,その上で.3 次元 Haar 特徴を計算す る.差分画像では 0 でないピクセルに動いている物体が存 在する. 照明や背景が時間によって一定ならばそれらは差. RCU BESU M (rcube). 分画像に影響しない.具体的に照明による影響が. = xyriv(XL + W, Y L + W, T L + D) +yriv(XL − H, Y L + H, T L + D). I(x, y, z) → I(x, y, z) + c(x, y),. −xyriv(XL, Y L, T L + D). (10). −xyriv(XL + W − H, Y L + W + H, T L + D). のように作用するとき差分画像 idiff(x, y, t) は不変である.. −xyriv(XL + W, Y L + W, T L). したがって差分画像上での 3 次元 Haar 特徴も照明変化に. −xyriv(XL − H, Y L + H, T L). 不変となる.. +xyriv(XL, Y L, T L). 4. 識別器の作成. +xyriv(XL + W − H, Y L + W + H, T L), (8). 本節では特徴量を用いて実際にどのようにハンドジェス. と表せる.よって,一度,回転した積分立体を動画に対し. チャーの分類器を作成するかについて述べる.Cui 等の論. て計算すれば,回転した 3 次元 Haar 特徴量も定数時間で. 文 [2] では識別器として 3 次元 Haar 特徴を列挙したものを. 計算できる.. 特徴ベクトルとして SVM を用いている.しかし SVM で. ⓒ 2014 Information Processing Society of Japan. 4.
(13) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. は学習の時だけでなく,分類の際にもすべての特徴量を列. 5.2 実験結果. 挙しなければならず時間がかかるという欠点がある.. 5.2.1 正解率. そこで本研究では Adaboost[6] を用いる手法を提案する.. 表 2 はそれぞれの手法の正答率を表している.それぞ. Adaboost は 2 次元の Haar 特徴と組み合わせて物体検出. れの Set1 から 4 は異なる照明環境で撮影された動画の集. に用いられている [7]. 具体的には,それぞれの特徴量に対. 合である.Haar(Gray)+SVM 以外の Haar 特徴の手法は. してしきい値を設け, { 1 if f (x) ≥ θf hf (x) = 0 if f (x) < θf. すべて識別器として Adaboost を用いている.Haar(Gray). + SVM と Haar(Gray) を比較してわかる通り SVM より for each features f. (11). Adaboost のほうが高い正解率を示した.これは SVM で は余計な特徴量も分類器に加えてしまっているためモデル. という弱識別器を作成し,Adaboost のアルゴリズムで強. を過学習してしまっているためではないかと考えられる.. 識別器を作成する.Adaboost は識別の際に必要な特徴量. また,Haar 特徴量に関してはグレースケール画像を用い. は Adaboost のイテレーションの回数だけで済むため,計. たものより HSV 画像を用いたもののほうが性能が上がり,. 算時間を短縮できる.. HSV 画像とフレームごとの差分画像を用いたものが一番. 5. 実験. 分類率が高いという結果が得られた.これによって我々の. Haar 特徴を照明変化に頑強にする手法が実際,有効に働. 実験では異なる照明環境下で撮影されたハンドジェス. いていることが実験的に示された.そして,HSV と差分画. チャーを分類する問題を用いた.データセットとして Kim. 像を用いた我々の手法はKim等による既存のハンドジェ. 等の論文 [1] にて使われたもの [8] を使用した.これは異. スチャー分類の手法 (TCCA)[2] と同程度の精度を示した.. なる 5 種類の照明環境で撮影されたデータセットである.. 5.2.2 計算時間. Kim などの論文 [1] と同じようにその内の 1 種類を訓練. 我々は C++を用いてアルゴリズムを実装した.画像の読. データとし,他をテストデータとして,その正解率を比較. み込み,RGB から HSV への変換には OpenCV[7] を用い,. した.データセットには 9 種類のハンドジェスチャーのク. PCA のために Eigen[10] を用いた.Intel Core i7(2.4 GH). ラスが含まれており,それが異なるそれぞれの照明変化に. を搭載した PC で訓練のための計算時間は 295, 840(ms), テ. 対して 20 セットづつ録画されている.つまり,トレーニ. ストのための時間は 35, 724(ms) となった.1 動画 (およそ. ングに使用した動画は 180 本でテストデータは 720 本で. 1 秒) の動画を分類するために必要な計算時間は 50(ms) で. ある.. あり,リアルタイムに動画を処理できることがわかる.. また,参考としてこのデータセットを用いて実験した. Kim 等の手法と我々の手法との正解率も比較した.この. 5.2.3 特徴量の解釈 我々は 3 次元 Haar 特徴の解釈性についても検証した.. Kim 等の手法は動画を 3 階のテンソルとみなし、動画間. 図 8 は Adaboost によって有効と判定された特徴量である.. で CCA のような類似特徴を求める手法だが、識別の際に. 最初の 4 フレームにある赤いキューブと残りの 4 フレー. も動画のテンソルを求める必要があるため非常に時間がか. ムにある青いキューブ内部のボクセル値の差が特徴量であ. かってしまうという問題点がある。. る.赤いキューブ内部には指があるが,指が移動している ことにより青いキューブ内部には指がない.そのためこの. 5.1 3 次元 Haar 特徴量の選択 動画内のすべての 3 次元 Haar 特徴量を列挙するのは時 間がかかりすぎるため,ある学習,識別の際に使う特徴量 を事前に制限しておく必要がある.本研究では Cui 等 [2] による歩行者検出の実験に使われた特徴量に加え,それら を xy 平面で 45◦ 回転させたものを用いた.. 5.1.1 識別器の設定. 特徴量がこのジェスチャーを特徴づけるものだと確認でき る.このように Haar 特徴量は容易にどの特徴量が有効な のかを人間が視認することができる.. 6. 結論 本研究では 3 次元 Haar 特徴量を改良し,その新しい特 徴量をハンドジェスチャー分類問題に適用した.3 次元. 実験では Haar 特徴量を用いた SVM と Adaboost の両方. Haar 特徴量が照明変化に弱いことを指摘し,その問題点. で識別機を作成し性能を比較した.ただし Adaboost のイ. を解決するために HSV 画像や差分画像を用い Haar 特徴量. テレーションの回数 T は 128 で固定した.SVM, Adaboost. を改良する手法を提案した.実験では実際のデータセット. とも 2 クラス分類のための識別機だが,今回用いたデータ. を用いオリジナルの 3 次元 Haar 特徴,我々の提案する新. セットは 9 種類のクラスからなっているため,one-vesus-. しい 3 次元 Haar 特徴を使用したもの,既存のハンドジェ. rest の識別機を 9 種類作成し,識別の際はそれらのうち. スチャー分類手法とで性能を比較した.そして我々の特徴. 信頼度の一番高い識別機の結果を採用した.Adaboost は. 量を用いた手法は既存手法と同等の識別率を保ちつつ高速. C++で独自に実装し,SVM は LIBSVM[9] を用いた.. に識別を行うことができることが示された.また,3 次元. ⓒ 2014 Information Processing Society of Japan. 5.
(14) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report 表 2 ハンドジェスチャー分類の正解率 (%). 識別率なので数値が大きいほど性能がよいこと を示している.識別器として SVM より Adaboost を用いたほうが高い識別率が得られ ることが示された.また Haar 特徴量に関してグレースケール画像を用 s いた特徴量は. TCCA(既存手法)には及ばなかった.しかし HSV と差分画像を用いた手法では既存 手法と同等の精度を示した. Method. Set1. Set2. Set3. Set4. Total. 81. 81. 78. 86. 82±1.4. Haar(Gray). 82. 40. 54. 74. 63 ± 8.3. Haar(Gray,DIFF). 81. 53. 66. 83. 71 ±6.1. Haar(HSV). 87. 73. 74. 82. 79± 2.9. Haar(HSV,DIFF). 83. 78. 83. 88. 84±1.8. TCCA(the state-of-art) [1] Haar(Gray) + SVM [2]. 図 8. 58. あるジェスチャーの分類で Adaboost により有効だと判定された特徴量.Haar 特徴量 を用いると,どの特徴量が有効なのかすぐに視認することができる.この例では赤い キューブと青いキューブそれぞれの内部にあるボクセル値の和が特徴量になっている. 赤いキューブ内部には指が入っている一方青いキューブ内部には指が入っていない.そ のためこの 2 つのキューブの差がこのモーションを特徴づけていることがわかる.. Haar 特徴量の解釈性に関する実験も行い,Haar 特徴を用 いれば容易にどの特徴量が有効なのかを人間が視認するこ. [8]. とができることを確認した. 今後の研究課題としては,識別率をさらに向上すること. [9]. が第一の目標としてあげられる.また,我々の特徴量をハ ンドジェスチャー分類以外の分野にも適用することも研究 課題となるだろう. [10]. //docs.opencv.org/. The Imperial Computer Vision and Learning Lab: Cambridge Hand Gesture Data set (2007). http://www.iis. ee.ic.ac.uk/icvl/ges_db.htm|. Chang, C.-C. and Lin, C.-J.: LIBSVM: A library for support vector machines, ACM Transactions on Intelligent Systems and Technology, Vol. 2, pp. 27:1–27:27 (2011). Software available at http://www.csie.ntu. edu.tw/~cjlin/libsvm. Guennebaud, G., Jacob, B. et al.: Eigen v3, http: //eigen.tuxfamily.org (2010).. 参考文献 [1]. [2]. [3]. [4]. [5]. [6]. [7]. Kim, T.-K., Wong, S.-F. and Cipolla, R.: Tensor canonical correlation analysis for action classification, Computer Vision and Pattern Recognition, 2007. CVPR’07. IEEE Conference on, IEEE, pp. 1–8 (2007). Cui, X., Liu, Y., Shan, S., Chen, X. and Gao, W.: 3d haar-like features for pedestrian detection, Multimedia and Expo, 2007 IEEE International Conference on, IEEE, pp. 1263–1266 (2007). Ren, Z., Meng, J. and Yuan, J.: Depth camera based hand gesture recognition and its applications in human-computer-interaction, Information, Communications and Signal Processing (ICICS) 2011 8th International Conference on, IEEE, pp. 1–5 (2011). Viola, P. and Jones, M.: Rapid object detection using a boosted cascade of simple features, Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on, Vol. 1, IEEE, pp. I–511 (2001). Lienhart, R. and Maydt, J.: An extended set of haarlike features for rapid object detection, Image Processing. 2002. Proceedings. 2002 International Conference on, Vol. 1, IEEE, pp. I–900 (2002). Freund, Y. and Schapire, R. E.: A desicion-theoretic generalization of on-line learning and an application to boosting, Computational learning theory, Springer, pp. 23–37 (1995). opencv dev team: opencv documentation (2013). http:. ⓒ 2014 Information Processing Society of Japan. 6.
(15)
図
関連したドキュメント
ル(TMS)誘導体化したうえで検出し,3 種類の重水素化,または安定同位体標識化 OHPAH を内部標準物 質として用いて PM
3 次元的な線量評価が重要であるが 1) ,現在 X 線フィ ルム 2) を用いた 2 次元計測が主流であり,3 次元的評
First three eigenfaces : 3 個で 90 %ぐらいの 累積寄与率になる.
次に、第 2 部は、スキーマ療法による認知の修正を目指したプログラムとな
1 単元について 【単元観】 本単元では,積極的に「好きなもの」につ
注1) 本は再版にあたって新たに写本を参照してはいないが、
現状では、3次元CAD等を利用して機器配置設計・配 管設計を行い、床面のコンクリート打設時期までにファ
Abstract: Conventional practice in recording information on archaeological remains is to take