3次元Haar特徴量を用いたハンドジェスチャー認識

全文

(1)Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. 3 次元 Haar 特徴量を用いたハンドジェスチャー認識牛丸太希 ,a). 佐藤一誠. 中川裕志 ,b). 概要：本研究では 3 次元 haar 特徴を改良し，それを動画に対するハンドジェスチャー分類問題に適用した．まず，2 次元の haar 特徴ですでに実装されている拡張を 3 次元版の haar 特徴にも実装した．さらに， haar 特徴量を照明変化に強くするために色情報や差分画像を用いる手法を提案した．実験では，我々の手法によって改良された 3 次元 haar 特徴と，オリジナルの haar 特徴を用いた手法を比較した．その結果，我々の提案する特徴量は既存のものに比べ，同等の精度で，照明変化に強い識別器を作成できることが確かめられた．また，1 秒の動画を分類するために必要な計算時間が 50(ms) であり十分リアルタイムの分類が可能であることがわかった．. 1. 序論. 特徴量を採用した．3 次元 Haar 特徴は 2 次元の Haar 特徴の自然な拡張である．動画内の歩行者検出のための特徴量. 本研究では動画からハンドジェスチャーを分類する問. として導入され，成功を収めている [2]. 2 次元の Haar 特. 題を扱う．ハンドジェスチャーは近年，新しいコンピュー. 徴同様，3 次元 Haar 特徴は高速に求めることができるた. ターインターフェイスとして注目されている [3]．例えば病. め，リアルタイム性が求められるハンドジェスチャー分類. 院などでは，衛生上の問題から非接触型のデバイスが求め. 問題に適している．また Haar 特徴はどの特徴量が識別に. られており，ハンドジェスチャーはそのための入力方法と. 有効であるかを人間が簡単に視認することができ，解釈性. して期待されている．またグーグル・グラスのようなウェ. も高いという長所もある．. アラブルカメラなどでも，新しいインターフェイスとして. 我々は 3 次元 Haar 特徴をハンドジェスチャー分類に用. も注目されている．手はウェアラブルカメラにおいて最も. いるにあたり、改良を施した．Linehart 等は Viola 等が用. 撮影される体の一部であるため，ハンドジェスチャーは有. いた 2 次元の Haar 特徴量 [4] に 45◦ 回転させたものを加. 力なデバイスの操作方法になりうる．. えることにより，より特徴量空間を増やし，識別器が表現. しかし，ハンドジェスチャーの研究の多くは静画から手. できるモデルをより豊富にした．顔識別の実験ではこれに. の状態を類推する問題を扱うものが多く，動画自体を扱っ. より 10%の精度向上という結果が確認されている [5]. そこ. たものは少ない．その少数についても分類予測にかかる時. で我々はまず Linehart 等によって提案された 45◦ 回転さ. 間が長い等のそれぞれの手法で欠点が存在する．例えば. せた 3 次元 Haar 特徴量を既存の特徴量空間に加えた．. Kim 等の手法 [1] は動画に対してテンソル分解をする手法. また，3 次元 Haar 特徴量には照明変化に脆弱であると. であり、分類の際に時間を要する．そこで本論文では動画. いう欠点がある．照明変化に弱いことは屋外など様々な場. から直接手の動きを高速かつ高精度に分類する手法を提案. 所での使用を想定しているウェアラブルカメラでのハンド. する．. ジェスチャー分離では致命的である．そこで本研究では既. 画像や動画分類の問題では画像や動画に対する特徴量を. 存の 3 次元 Haar 特徴量を拡張し，さらに照明変化に頑強に. どう選ぶかが非常に重要である．すぐれた特徴量を用いる. なるように改良した．つまり，本研究の成果を要約すると. ことで分類問題のクラス内分散を減少させ，クラス間分散. • Lienhart 等 [5] による 2 次元の Haar 特徴の拡張を Cui. を拡大することができる．また特徴量の計算時間もリアルタイムな分類予測には重要である．本研究では 3 次元 Haar 1 †1 a) b). 情報処理学会 IPSJ, Chiyoda, Tokyo 101–0062, Japan 現在，情報処理大学 Presently with Johoshori Uniersity taiki [email protected] [email protected]. ⓒ 2014 Information Processing Society of Japan. 等 [2] の 3 次元 Haar 特徴に加えた. • 3 次元 Haar 特徴を照明変化に頑強になるよう改良した • 3 次元 Haar 特徴をハンドジェスチャー分類問題に適用し高速かつ高精度な分類器を提案したの 3 点となる．表 1 は従来の 3 次元 Haar 特徴と我々が改良したもの，. 1.

(2) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report 表1. それぞれの手法の比較．本研究の手法は照明変化にも頑強である．また既存のハンドジェスチャー分類の手法 [1] で用いられた特徴と比較して高速に計算でき，かつ有効である特. 徴量の解釈性も高い手法. 精度. 計算コスト. 照明変化. 解釈性. 3D Haar [2]. 低い. 低い. 弱い. 高い. 高い. 低い. 強い. 高い. 高い . 高い. 強い. 低い. 本研究既存のハンドジェスチャー分類手法 [1]. そして Kim 等のハンドジェスチャー分類に使われた特徴特徴量に導入することによって精度向上と照明変化に頑. W1. D. 強になる利点が得られる．一方で Kim 等によるテンソルを用いた方法は，照明変化に強く高い識別率を誇るが，分. W2. H. を比べたものである．我々の提案した拡張，改良を Haar. 図1. Cui 等 [2] によって提案された 3 次元 Haar 特徴量の例．この. 類に要する時間がかかるため、リアルタイムな分類には向. 例では特徴量は２つのキューブ内にあるボクセル値の差が特. かない．しかし我々の手法は十分高速に分類することがで. 徴量となる．. きる．また，特徴量を使ってどのように分類器を作成するかにも議論の余地がある．3 次元 Haar 特徴量が提案した Cui 等は分類器として Support Vector Machine(SVM) を用いている [2]. しかし，SVM ではデータが増えるとデータ数の 2 乗に比例して学習に時間がかかってしまうえ，分類の際にも与えられた動画に対して特徴量をすべて計算しなければならず時間がかかってしまう．そこで我々は SVM の代わりに Adaboost[6] を採用した．Adaboost は 2 次元の. め，3 次元の配列 I としてみなせる．つまり I(x, y, t) は動画の t フレーム目にある画像における位置 (x, y) のピクセル値とする．3 次元 Haar 特徴量はその 3 次元配列の内部にある任意のキューブに含まれるボクセル値の線形結合であらわされる．具体的には，ある 3 次元 Haar 特徴量は. fi =. ∑. wi CU BESU M (ci ),. (1). i=1...N. Haar 特徴量で物体検出をする際にも使われている手法 [4] で分類に有効であるような特徴量だけを学習時に計算することで分類にかかる時間を削減できる．最後にこの論文の概要を述べる．2 節では関連研究，つまり Cui 等に提案された 3 次元 Haar 特徴について説明する．3 節では既存の 3 次元 Haar 特徴量の問題点と本研究で提案す改良について述べる．4 章では，実際に特徴量を用いてどのように識別器を作成するかを述べる．ＳＶＭではなく Adaboost を用いることについて分類の際の計算時間が削減できることについて説明する．5 節では実験とその結果について述べる．実験では我々の提案した特徴量と従来の特徴量，そしてハンドジェスチャー分類で従来提案されていた手法との性能を比較する．また学習によって分類に有効とされた特徴の解釈結果についても述べる．. 2. 関連研究本節では Cui 等 [2] によって提唱された 3 次元 Haar 特徴量について説明する．3 次元 Haar 特徴量は，2 次元の. Haar 特徴量を動画に適用するために拡張したものとなっている [2]. 2 次元の Haar 特徴量は OpenCV[7] などで画像. という形で書くことができる．ただし. • ci は 3 次元配列内部にあるキューブ     ci = (x, y, t)   .

(3)

(4)

(5) XLi ≤ x ≤ XLi + Wi ,

(6)

(7) Y Li ≤ y ≤ Y Li + Hi ,

(8)

(9)

(10) T Li ≤ t ≤ T Li + Di. • CU BESU M (c) =. ∑ (x,y,t)∈c.       . , (2). I(x, y, t) はキューブ c 内. にあるボクセル値の和. • wi ∈ R はそれぞれのキューブの重みとなっている．実践的には N は高々 4 程度で十分あり，定数とみなせる [2]. 図 1 は 3 次元 Haar 特徴の例を示している．図 1 では黒いキューブと白いキューブ内部のボクセル値の差が特徴量として定義される．これらの特徴量は既存の動画に対して積分立体と呼ばれる 3 次元配列. iv(x, y, t) =. ∑. I(x′ , y ′ , t′ ).. (3). x′ ≤x,y ′ ≤y,t′ ≤t. の物体検出に用いられており，3 次元の Haar 特徴量は歩. を予め計算しておくことで定数時間で計算できる．つまり. 行者検出で高い精度を示した．. 積分立体 iv(x, y, t) はもとの動画の (x, y, t) より低い座標にあるボクセル値の和である．具体的には，Haar 特徴量. 2.1 3 次元 Haar 特徴動画は画像を時間軸上に並べたものとしてみなせるた. ⓒ 2014 Information Processing Society of Japan. は動画内部にある任意のキューブ内のボクセル値の和を計算できるればよい．そのキューブ内のボクセル値の和は. 2.

(11) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. (cube). 比べ右の動画は左下の部分が照らされた環境下で撮影され. =. iv(XL + W, Y L + H, T L + D). ている．そのため，左下の部分を含むキューブを用いた特. +. iv(XL, Y L, T L + D). 徴量は左の動画と右の動画とでは大きく変わってしまう．. −. iv(XL, Y L + H, T L + D). このように Haar 特徴には照明変化に脆弱であるという. −. iv(XL + W, Y L, T L + D). 欠点がある．そのため我々は，照明変化に頑強になるよう. −. iv(XL + W, Y L + H, T L). Haar 特徴に改良を加えた．具体的にはグレースケール画. −. iv(XL, Y L, T L). 像ではなく HSV 画像を用い，さらに時間方向での差分画. +. iv(XL + W, Y L, T L). 像を使う．本節ではまず 45◦ 回転させた特徴量について説. +. iv(XL, Y L + H, T L).. 明する．次に，照明変化に対する 2 つの工夫つまり，HSV. CU BESU M. (4). 画像を用いる方法とフレーム間の差分を用いる方法についのように O(1) で計算できる [2]. Haar 特徴量はキューブ内. て説明する．. 部の線形結合であったため Haar 特徴量も定数時間で計算できる．積分立体自体は動画のサイズに比例した時間で計. 3.1 45◦ 回転させた特徴量. 算でき [2], 一度積分立体を計算できれば任意の Haar 特徴量は定数時間で計算できる．図 2 は積分立体からキューブを計算する方法について視覚的に示した図である．キューブの各頂点での座標での積分立体の値を図のように加減することでキューブ内部にあるボクセル値の和を求めることができる．図 4. Viola 等が用いた 2 次元の Haar 特徴量 [4] と Lienhart 等が追加した特徴量 [5] の例．45◦ 回転させた特徴量を追加されたことによりドメインの空間が広くなり，モデルの表現力が向上した．顔分類の実験でも特徴量を加えることにより 10% の検. + 図 2. + - + - +. 出率向上が確認された．. 積分立体を用いてどのようにキューブ内のボクセル値の和を計算するのかを示した図．キューブ各頂点における積分立体の値を図のように加減することで，キューブ内のボクセル値の和を計算できる．任意の Haar 特徴はキューブ内部の線形結合なので，Haar 特徴も定数時間で計算できる．. 図 5. 45◦ 回転した 3 次元 Haar 特徴の例．我々は xy 平面で回転させたもののみを扱う．. 3. 3 次元 Haar 特徴量の改良. 我々は Cui 等によって提案された特徴量 [2] に xy 平面. 本節では本論文の貢献部分について説明する．我々はま. で 45◦ 回転せた特徴量を加えた．これは Linehart 等によ. ず，3 次元 Haar 特徴に xy 平面に 45◦ 回転させた特徴量を. る 2 次元の Haar 特徴量の拡張 [5] を参考にした．図 4 は. 追加した．これは Linehart 等 [5] による 2 次元の Haar 特. Viola 等が用いた 2 次元の Haar 特徴 [4] と Linehart 等が. 徴への拡張を 3 次元にも適用したものである．これにより. それらに追加した特徴量 [5] の例を示している．Linehart. 特徴量空間が広くなりより豊かな表現が可能になる．. 等は Viola 等が用いた Haar 特徴量 [4] に 45◦ 回転させた. また，第 1 節で説明したように 3 次元 Haar 特徴には照. ものを加えることにより，より特徴量空間を増やし，識別. 明変化に弱いという問題がある．図 3 は Haar 特徴が照明. 器が表現できるモデルをより豊富にした．顔識別の実験で. 変化で有効でなくなる例を示している．図 3 の左の動画に. はこれにより 10%の精度向上という結果が確認されている [5]. そこで我々も既存の 3 次元 Haar 特徴量 [2] に xy 平面で 45◦ 回転させた特徴量を加えることでよりモデルの表現力を豊かにする手法を提案する．. 45◦ 回転せた特徴量は 45◦ 回転せたキューブ内部のボク図 3. 3 次元 Haar 特徴が照明変化で有効でなくなる例．右の動画に. セル値の和として定義される．図 5 は 45◦ 回転した 3 次元. 比べ左の動画は左下の角が照明に照らされている．そのため左. Haar 特徴の例である．45◦ 回転せたキューブ内部のボクセ. 下の部分を含むキューブによる特徴量がうまく働かない．. ル値の和は. ⓒ 2014 Information Processing Society of Japan. 3.

(12) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. ∑. xyriv(x, y, t) =. I(x′ , y ′ , t′ ).. (5). 3.2 HSV 画像を用いる照明変化に強くする方法としてグレースケール画像の. x′ ≤x,x′ ≤x−|y−y ′ |,t′ ≤t. という形で表すことができる．既存の 3 次元 Haar 特徴の場合と同様に，この任意の回転せたキューブに対して内部のボクセル値の和が求められれば 45◦ 回転した 3 次元 Haar 特徴を求めることができる．この回転したキューブに対して内部のボクセル値の和は回転した積分立体. かわりに HSV 画像を用いた．HSV とは色相 (Hue), 彩度. (Saturation・Chroma), 明度 (Value) を表している．HSV の V チャンネルはグレースケールと同等であるため，HSV はグレースケールの拡張とみなせる．そこで我々の手法では，HSV それぞれのチャンネルに対して積分立体を計算し，訓練データでの特徴量を計算．その後，3 チャンネルに対して PCA を用いて 1 次元に圧縮した．こうすること. xyriv(x, y, t) = xyriv(x, y, t − 1) + rsatt (x, y),. (6). で，明度による情報が照明変化で有効でなくても彩度や色相の情報が有効であるならば PCA で圧縮した Haar 特徴量は有効になると期待できる．. を予め計算しておくことで O(1) で計算できる．. 3.3 差分画像を用いる. 図 6 “Rotated Summed Area Table”と画像との対応．rsat(x, y) 図 7 2 つのフレームの差分画像．差分画像は idiff(x, y, t) =. は灰色の部分にある画像内のピクセル値の和である．. abs(I(x, y, t − 1) − I(x, y, t + 1)) のように表される．差分画像上で 0 でない場所は 2 つのフレーム間で動きがあった. ここで，rsat は “Rotated Summed Area Table” [5] と. ことを示している．そのため照明や背景が時間によって不変ならば差分画像は不変となる．. 呼ばれるもので動画における t 番目の画像に対し. ∑. rsatt (x, y) =. I(x′ , y ′ , t).. (7). x′ ≤x,x′ ≤x−|y−y ′ |. 照明変化を和らげる 2 つ目の手法として差分画像を用いる手法を提案する．図 7 は２つの連続したフレーム間の差分画像を表している．差分画像は. で定義される．“Rotated Summed Area Table”は画像サイズの線形時間で計算できるため，回転した積分立体自体も動画のサイズの線形時間で計算できる．図 6 は“Rotated. Summed Area Table”と元の画像との対応を表している．画像に対して，rsat(x, y) はグレーで描かれた部分にある画像内部のピクセル値の和として計算される．. idiff(x, y, t) = abs(I(x, y, t − 1) − I(x, y, t + 1)),. (9). のように計算できる．差分画像上で 0 でない場所は 2 つのフレーム間で動きがあったことを示している．そして，差分画像上で明るい場所ほど 2 つのフレーム間に大きな動きがある．我々の提案手法では差分画像 idiff 上で積分立体. 回転した積分立体によって回転したキューブに対して内部のボクセル値の和は. xyriv, iv を計算し，その上で．3 次元 Haar 特徴を計算する．差分画像では 0 でないピクセルに動いている物体が存在する．照明や背景が時間によって一定ならばそれらは差. RCU BESU M (rcube). 分画像に影響しない．具体的に照明による影響が. = xyriv(XL + W, Y L + W, T L + D) +yriv(XL − H, Y L + H, T L + D). I(x, y, z) → I(x, y, z) + c(x, y),. −xyriv(XL, Y L, T L + D). (10). −xyriv(XL + W − H, Y L + W + H, T L + D). のように作用するとき差分画像 idiff(x, y, t) は不変である．. −xyriv(XL + W, Y L + W, T L). したがって差分画像上での 3 次元 Haar 特徴も照明変化に. −xyriv(XL − H, Y L + H, T L). 不変となる．. +xyriv(XL, Y L, T L). 4. 識別器の作成. +xyriv(XL + W − H, Y L + W + H, T L), (8). 本節では特徴量を用いて実際にどのようにハンドジェス. と表せる．よって，一度，回転した積分立体を動画に対し. チャーの分類器を作成するかについて述べる．Cui 等の論. て計算すれば，回転した 3 次元 Haar 特徴量も定数時間で. 文 [2] では識別器として 3 次元 Haar 特徴を列挙したものを. 計算できる．. 特徴ベクトルとして SVM を用いている．しかし SVM で. ⓒ 2014 Information Processing Society of Japan. 4.

(13) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report. は学習の時だけでなく，分類の際にもすべての特徴量を列. 5.2 実験結果. 挙しなければならず時間がかかるという欠点がある．. 5.2.1 正解率. そこで本研究では Adaboost[6] を用いる手法を提案する．. 表 2 はそれぞれの手法の正答率を表している．それぞ. Adaboost は 2 次元の Haar 特徴と組み合わせて物体検出. れの Set1 から 4 は異なる照明環境で撮影された動画の集. に用いられている [7]. 具体的には，それぞれの特徴量に対. 合である．Haar(Gray)+SVM 以外の Haar 特徴の手法は. してしきい値を設け， { 1 if f (x) ≥ θf hf (x) = 0 if f (x) < θf. すべて識別器として Adaboost を用いている．Haar(Gray). + SVM と Haar(Gray) を比較してわかる通り SVM より for each features f. (11). Adaboost のほうが高い正解率を示した．これは SVM では余計な特徴量も分類器に加えてしまっているためモデル. という弱識別器を作成し，Adaboost のアルゴリズムで強. を過学習してしまっているためではないかと考えられる．. 識別器を作成する．Adaboost は識別の際に必要な特徴量. また，Haar 特徴量に関してはグレースケール画像を用い. は Adaboost のイテレーションの回数だけで済むため，計. たものより HSV 画像を用いたもののほうが性能が上がり，. 算時間を短縮できる．. HSV 画像とフレームごとの差分画像を用いたものが一番. 5. 実験. 分類率が高いという結果が得られた．これによって我々の. Haar 特徴を照明変化に頑強にする手法が実際，有効に働. 実験では異なる照明環境下で撮影されたハンドジェス. いていることが実験的に示された．そして，HSV と差分画. チャーを分類する問題を用いた．データセットとして Kim. 像を用いた我々の手法はＫｉｍ等による既存のハンドジェ. 等の論文 [1] にて使われたもの [8] を使用した．これは異. スチャー分類の手法 (TCCA)[2] と同程度の精度を示した．. なる 5 種類の照明環境で撮影されたデータセットである．. 5.2.2 計算時間. Kim などの論文 [1] と同じようにその内の 1 種類を訓練. 我々は C++を用いてアルゴリズムを実装した．画像の読. データとし，他をテストデータとして，その正解率を比較. み込み，RGB から HSV への変換には OpenCV[7] を用い，. した．データセットには 9 種類のハンドジェスチャーのク. PCA のために Eigen[10] を用いた．Intel Core i7(2.4 GH). ラスが含まれており，それが異なるそれぞれの照明変化に. を搭載した PC で訓練のための計算時間は 295, 840(ms), テ. 対して 20 セットづつ録画されている．つまり，トレーニ. ストのための時間は 35, 724(ms) となった．1 動画 (およそ. ングに使用した動画は 180 本でテストデータは 720 本で. 1 秒) の動画を分類するために必要な計算時間は 50(ms) で. ある．. あり，リアルタイムに動画を処理できることがわかる．. また，参考としてこのデータセットを用いて実験した. Kim 等の手法と我々の手法との正解率も比較した．この. 5.2.3 特徴量の解釈我々は 3 次元 Haar 特徴の解釈性についても検証した．. Kim 等の手法は動画を 3 階のテンソルとみなし、動画間. 図 8 は Adaboost によって有効と判定された特徴量である．. で CCA のような類似特徴を求める手法だが、識別の際に. 最初の 4 フレームにある赤いキューブと残りの 4 フレー. も動画のテンソルを求める必要があるため非常に時間がか. ムにある青いキューブ内部のボクセル値の差が特徴量であ. かってしまうという問題点がある。. る．赤いキューブ内部には指があるが，指が移動していることにより青いキューブ内部には指がない．そのためこの. 5.1 3 次元 Haar 特徴量の選択動画内のすべての 3 次元 Haar 特徴量を列挙するのは時間がかかりすぎるため，ある学習，識別の際に使う特徴量を事前に制限しておく必要がある．本研究では Cui 等 [2] による歩行者検出の実験に使われた特徴量に加え，それらを xy 平面で 45◦ 回転させたものを用いた．. 5.1.1 識別器の設定. 特徴量がこのジェスチャーを特徴づけるものだと確認できる．このように Haar 特徴量は容易にどの特徴量が有効なのかを人間が視認することができる．. 6. 結論本研究では 3 次元 Haar 特徴量を改良し，その新しい特徴量をハンドジェスチャー分類問題に適用した．3 次元. 実験では Haar 特徴量を用いた SVM と Adaboost の両方. Haar 特徴量が照明変化に弱いことを指摘し，その問題点. で識別機を作成し性能を比較した．ただし Adaboost のイ. を解決するために HSV 画像や差分画像を用い Haar 特徴量. テレーションの回数 T は 128 で固定した．SVM, Adaboost. を改良する手法を提案した．実験では実際のデータセット. とも 2 クラス分類のための識別機だが，今回用いたデータ. を用いオリジナルの 3 次元 Haar 特徴，我々の提案する新. セットは 9 種類のクラスからなっているため，one-vesus-. しい 3 次元 Haar 特徴を使用したもの，既存のハンドジェ. rest の識別機を 9 種類作成し，識別の際はそれらのうち. スチャー分類手法とで性能を比較した．そして我々の特徴. 信頼度の一番高い識別機の結果を採用した．Adaboost は. 量を用いた手法は既存手法と同等の識別率を保ちつつ高速. C++で独自に実装し，SVM は LIBSVM[9] を用いた．. に識別を行うことができることが示された．また，3 次元. ⓒ 2014 Information Processing Society of Japan. 5.

(14) Vol.2014-MPS-97 No.13 2014/3/4. 情報処理学会研究報告 IPSJ SIG Technical Report 表 2 ハンドジェスチャー分類の正解率 (%). 識別率なので数値が大きいほど性能がよいことを示している．識別器として SVM より Adaboost を用いたほうが高い識別率が得られることが示された．また Haar 特徴量に関してグレースケール画像を用 s いた特徴量は. TCCA（既存手法）には及ばなかった．しかし HSV と差分画像を用いた手法では既存手法と同等の精度を示した． Method. Set1. Set2. Set3. Set4. Total. 81. 81. 78. 86. 82±1.4. Haar(Gray). 82. 40. 54. 74. 63 ± 8.3. Haar(Gray,DIFF). 81. 53. 66. 83. 71 ±6.1. Haar(HSV). 87. 73. 74. 82. 79± 2.9. Haar(HSV,DIFF). 83. 78. 83. 88. 84±1.8. TCCA(the state-of-art) [1] Haar(Gray) + SVM [2]. 図 8. 58. あるジェスチャーの分類で Adaboost により有効だと判定された特徴量．Haar 特徴量を用いると，どの特徴量が有効なのかすぐに視認することができる．この例では赤いキューブと青いキューブそれぞれの内部にあるボクセル値の和が特徴量になっている．赤いキューブ内部には指が入っている一方青いキューブ内部には指が入っていない．そのためこの 2 つのキューブの差がこのモーションを特徴づけていることがわかる．. Haar 特徴量の解釈性に関する実験も行い，Haar 特徴を用いれば容易にどの特徴量が有効なのかを人間が視認するこ. [8]. とができることを確認した．今後の研究課題としては，識別率をさらに向上すること. [9]. が第一の目標としてあげられる．また，我々の特徴量をハンドジェスチャー分類以外の分野にも適用することも研究課題となるだろう． [10]. //docs.opencv.org/. The Imperial Computer Vision and Learning Lab: Cambridge Hand Gesture Data set (2007). http://www.iis. ee.ic.ac.uk/icvl/ges_db.htm|. Chang, C.-C. and Lin, C.-J.: LIBSVM: A library for support vector machines, ACM Transactions on Intelligent Systems and Technology, Vol. 2, pp. 27:1–27:27 (2011). Software available at http://www.csie.ntu. edu.tw/~cjlin/libsvm. Guennebaud, G., Jacob, B. et al.: Eigen v3, http: //eigen.tuxfamily.org (2010).. 参考文献 [1]. [2]. [3]. [4]. [5]. [6]. [7]. Kim, T.-K., Wong, S.-F. and Cipolla, R.: Tensor canonical correlation analysis for action classification, Computer Vision and Pattern Recognition, 2007. CVPR’07. IEEE Conference on, IEEE, pp. 1–8 (2007). Cui, X., Liu, Y., Shan, S., Chen, X. and Gao, W.: 3d haar-like features for pedestrian detection, Multimedia and Expo, 2007 IEEE International Conference on, IEEE, pp. 1263–1266 (2007). Ren, Z., Meng, J. and Yuan, J.: Depth camera based hand gesture recognition and its applications in human-computer-interaction, Information, Communications and Signal Processing (ICICS) 2011 8th International Conference on, IEEE, pp. 1–5 (2011). Viola, P. and Jones, M.: Rapid object detection using a boosted cascade of simple features, Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on, Vol. 1, IEEE, pp. I–511 (2001). Lienhart, R. and Maydt, J.: An extended set of haarlike features for rapid object detection, Image Processing. 2002. Proceedings. 2002 International Conference on, Vol. 1, IEEE, pp. I–900 (2002). Freund, Y. and Schapire, R. E.: A desicion-theoretic generalization of on-line learning and an application to boosting, Computational learning theory, Springer, pp. 23–37 (1995). opencv dev team: opencv documentation (2013). http:. ⓒ 2014 Information Processing Society of Japan. 6.

(15)