距離情報を用いた回帰分析による人体姿勢推定

全文

(1)Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. ス，ロボットの運動制御，CG アニメーションや監視システムなど多くの分野で応用が期待されている．従来，人体の姿勢計測にはモーションキャプチャが利用されている1) ．モーショ. 距離情報を用いた回帰分析による人体姿勢推定縣. 禎輝†1. 藤吉. 弘. ンキャプチャは高精度な姿勢推定が可能であるが，複数台のカメラや関節に取り付けるマーカなどの特殊な撮影環境が必要であり汎用的でないという問題がある．. 亘†1. 特殊な撮影環境を必要としない単眼カメラからの人体姿勢推定として，HOG 特徴量やシルエット特徴量等のアピアランス特徴を用いた手法が提案されている2)3)4) ．アピアランス. 本稿では，距離情報を用いた回帰分析による人体姿勢推定手法を提案する．従来のアピアランス特徴を用いた人体姿勢推定手法では，画像から得られる 2 次元情報のみを用いるため正確な姿勢推定が困難な場合がある．提案手法では，距離情報を用いることで高精度な姿勢推定を実現する．距離情報は TOF カメラにより取得し，取得した距離情報を有効に利用するために新しい特徴量として距離差分特徴量を提案する．距離差分特徴量は，2 つの局所領域から平均距離の差分値を算出した特徴量であるため，身体の重なり及び身体と背景の関係性を捉えることができる．提案手法の有効性を示すために，従来のアピアランス特徴を用いた手法 (D-HOG，HOG) と姿勢推定精度の比較を行う．その結果，提案手法では，Recall の平均値が D-HOG より 0.07， HOG より 0.16 優れていることを確認できた．. 特徴を用いる手法は，画像から抽出した特徴量と姿勢の関係を事前に学習しておき，未知入力画像から得られる特徴量と学習データをマッチングすることで人体姿勢推定を実現している．単眼画像から得られるアピアランス特徴により，人の形状を捉えることができ，学習画像と推定画像のマッチングが可能となる．しかし，単眼カメラから得られるアピアランス情報を利用する場合，自己遮蔽の問題が生じると複雑な姿勢を観測することができないことがある．例えば，カメラに対し人が画像上を横断するような場合，背面の手足をカメラが観測することは難しい．また，身体パーツが光軸方向に前後運動する場合，人の向きを推定することが困難である．そこで，このようなアピアランス情報のみでは捉えることが困難な姿勢を推定するために，距離情報を用いた姿勢推定手法が提案されている5)6) ．これらの手法は，. Pose Estimation by Regression Analysis with Depth Information. 距離情報を用いて身体パーツの前後関係を捉えることで，姿勢推定精度を向上させることができる．人体の姿勢を推定するために学習を用いる場合，様々な姿勢の画像を大量に収集する必. Yoshiki Agata†1 and Hironobu Fujiyoshi†1. 要がある5)7)8) ．Jamie ら5) の手法では，約 50 万枚という膨大な画像を用いることで人体姿勢推定を実現している．しかし，実環境から様々な姿勢の学習サンプルを収集することは多. A method for estimating the pose of a human from depth image by using regression analysis is proposed. With conventional pose estimation methods that use appearance features, it is sometimes difficult to obtain correct results because only two-dimensional information is used. The proposed method uses depth information acquired from a TOF camera to achieve highly accurate pose estimation. For effective use of the depth information, we propose the Depth Difference Feature(DDF). Because the DDF is calculated as a difference is the average distance of two regions, it can be used to distinguish the body from occluding objects and the background behind the body. A comparison of accuracy with the results obtained by the conventional method using appearance features (D-HOG and HOG features) confirmed that the mean recall for the proposed method was 0.07 better than D-HOG and 0.16 better than HOG.. 大な労力を伴うことになる．そこで，本稿では距離情報を用いて身体パーツの前後関係を捉えることによって，アピアランス特徴の問題を解決し，3 次元人体モデルにより学習サンプルを自動的に生成することで，学習サンプルの収集コストを必要としない手法を提案する．提案手法では，TOF カメラから得られる距離情報を用いて回帰分析により姿勢推定する．距離情報を用いることにより，アピアランス特徴では捉えることが困難な身体パーツの前後関係を捉える．しかし，取得した距離情報の 1 つの局所領域に着目すると身体パーツの前後関係を捉えることができないため，2 つの局所領域の関係に着目する．そこで，本研究では 2 つの局所領域の距離平均値から差分を算出した距離差分特徴量を提案する．本稿では，第 2 章にて従来の人体姿勢推定手法について述べ，第 3 章で学習サンプルの. 1. はじめに. 生成に用いる 3 次元人体モデルと距離情報を用いた距離差分特徴量，回帰分析について述べ. 画像処理における人体の姿勢や動作認識は，ジェスチャ等の動作入力によるインターフェー. る．第 4 章では，評価実験により提案手法と従来法を比較し，提案手法の有効性を示す．. †1 中部大学 Chubu University. 1. c 2011 Information Processing Society of Japan.

(2) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 2 3 次元人体モデル Fig. 2 3D human model.. ツ毎に捉える手法は腕や脚などの各パーツを推定する必要があるため，処理コストが比較的大きい．しかし，全てのパーツが検出できなくても，姿勢推定が可能であり，自己遮蔽に頑健となるメリットも得られる．図 1 提案手法の流れ Fig. 1 The flow of proposed method.. 2.3 問題点モデルフィッティングの手法は，最適解を求めるフィッティング処理に膨大な処理コストが必要となる問題がある．また，フィッティングする前に初期姿勢を入力する必要がある場. 2. 従来の人体姿勢推定. 合が多く，全自動で人体姿勢推定を行うことは困難である．学習ベースの手法は，学習していない未知の姿勢に対して推定精度が低下するという問題がある．しかしながら，学習ベー. 一般的な姿勢推定の手法は，モデルフィッティングの手法と学習ベースの手法に大別でき. スの手法は，あらゆる姿勢を網羅するように用意した大量の学習サンプルを用いることで高. る．以下に各手法と問題点について述べる． . 2.1 モデルフィッティングの手法. 精度な人体姿勢推定を実現することができる．そこで，本研究では 3 次元人体モデルにより. モデルフィッティングの手法1)9)10) は，推定画像と人体モデルをフィッティングすること. 自動生成した大量の学習サンプルを用いて学習することにより高精度な人体姿勢推定を実現する．. で姿勢を推定する．モデルは手法により異なるが，各関節を線で結んだ人体スケルトンモデルが用いられることが多い．モデルフィッティングを行う手順として，まずモデルを定義し，. 3. 距離情報を用いた回帰分析による人体姿勢推定. モデルと画像から得られる特徴のマッチングをする．そして，マッチングスコアが最大となる解を求めることで，人体モデルと推定画像のフィッティングを行う．つまり，人体スケル. 提案手法は，学習過程では推定する姿勢を回帰分析により学習し，推定過程では TOF カ. トンモデルの姿勢パラメータを変化させたときに，推定したい姿勢と照合することで人体姿. メラの距離画像から姿勢を推定する．図 1 に提案手法の流れを示す．学習過程では，まず 3. 勢推定を行う．. 次元人体モデルから各姿勢の関節パラメータと疑似距離画像を生成し，学習用データベース. 2.2 学習ベースの手法. を構築する．次に，関節パラメータと疑似距離画像から抽出した特徴量を回帰分析により対. 学習ベースの手法は，事前に推定したい姿勢を学習しておくことで，人体姿勢推定を行う．. 応付けし，特徴量を関節パラメータに変換する変換行列を求める．推定過程では，TOF カ. 学習する際には，人の姿勢を画像特徴などで捉える必要がある．抽出した画像特徴を学習. メラにより距離画像を取得し，特徴量を抽出する．変換行列を用いて関節パラメータを推定. し，未知入力姿勢の画像特徴と学習データを参照することで人体の姿勢を推定することがで. することで人体姿勢推定を行う．本章では，はじめに学習データベースを作成する 3 次元人. きる．姿勢を捉えるための表現方法には，画像一枚または人の身体全体を捉える手法3)4)7). 体モデルについて述べ，学習サンプルの生成例を示す．次に，提案する距離差分特徴量につ. 5)11)12)13)14). と身体をパーツごとに捉える手法. いて述べる．最後に，回帰分析による関節パラメータと距離差分特徴量の対応付けについて. がある．身体全体を捉える手法に比べ，パー. 2. c 2011 Information Processing Society of Japan.

(3) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 4 ブロックに分割 Fig. 4 Division of block.. に 57 の関節パラメータと生成した疑似距離画像を学習サンプルとして用いる．3 次元人体モデルより取得した学習サンプル例を図 3 に示す．. 3.2 距離差分特徴量本研究では，未知入力画像の姿勢推定時に距離情報を取得するために TOF カメラを用いる．TOF カメラは，カメラの周囲に付いた LED より照射される赤外光が対象物に反射し，カメラで観測されるまでの時間を計測することにより，物体までの距離を計測するカメラである．本研究で用いる TOF カメラは，MESA 社の SR-4000 である．SR-4000 は，0.3m∼. 5.0m までの距離情報をリアルタイムで取得することができる．姿勢推定の際には，TOF カメラより得られる距離情報を用いて人体の各パーツの関係性を捉えることが有効であると考えられる．そこで，本稿では 2 つの局所領域間の平均距離の差分値から得られる距離差分特徴量を提案する．距離画像から距離差分特徴量を抽出するために，距離画像をブロック分割する．TOF カメラより距離画像 (176 × 144[pixel]) を取得し，人検出15) により距離画像から人領域を切り出す．切り出された人領域を 64 × 128[pixel] の大きさに正規化し，ブロック (16 × 16[pixel]) の大きさに分割する (図 4 参照)．ブロック. 図 3 学習サンプルの例 Fig. 3 Examples of training sample.. サイズを小さくすると，物体の形状をより細かく表現することができるが，位置ずれの影響を受けやすくなる．本研究では実験的にブロックサイズを 16 × 16[pixel] に設定し，一枚の. 述べる．. 入力画像のブロック数 M は 32 とした．. 3.1 3 次元人体モデル. 距離差分特徴量 D は，図 5 に示すように 2 つの選択されたブロックから，式 (1) より算. 本研究で用いる 3 次元人体モデルを図 2 に示す．3 次元人体モデルは，19 の関節より構成さ. 出する．. れており，1 つの関節に (x, y, z) の 3 パラメータを持つ．そのため，1 つの姿勢は 19 × 3 = 57. D(i, j) =. パラメータにより表現することができる．また，仮想カメラの位置は自由に設定することが. (. N 1 ∑ i dn N n=1. できる．本手法では，実環境で姿勢推定を行うために，モデル内のカメラの位置も実環境に. ). ( −. N 1 ∑ j dn N. ) (1). n=1. 合わせる必要がある．そこで，一般家庭でテレビの前面にカメラが置かれることを想定し，. N はブロック内のピクセル数，d は各ピクセルの距離，i，j は選択されたブロック. 高さ 1m，人までの距離 4m の位置に仮想カメラの位置を設置した．そして，3 次元人体モ. を表す．これを全てのブロックの組み合わせに対して求め，距離差分特徴量 D. デルより各姿勢に対応する関節パラメータから疑似距離画像を生成する．疑似距離画像は，. {D(i, j)}i=1,2,...,M −1,j=2,3,...,M とする．. =. 図 6 に従来の特徴量抽出に用いられる画像の例を示す．従来のアピアランスに基づく特. モデルとカメラ間の距離情報をレイトレーシングにより取得することで生成する．各姿勢毎. 3. c 2011 Information Processing Society of Japan.

(4) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. A0 = (X T X)−1 X T Y. (3). 回帰分析により求めた変換行列 A0 を用いて人体姿勢推定を行う．. 3.4 変換行列を用いた人体姿勢推定人体姿勢推定過程の手順を示す．まず，TOF カメラから距離情報を取得し，人検出により人領域のみを切り出す．切り出された領域から距離差分特徴量 X 0 を抽出し，変換行列 A0 に入力することで関節パラメータ Y 0 を推定する．関節パラメータ Y 0 の算出式を式 (4) に示す．. 図 5 距離差分特徴量 Fig. 5 Depth difference feature.. Y 0 = A0 X 0. (4). 上式により，57 個の関節パラメータを求めることで，3 次元人体モデルにより姿勢を表現することが可能となる．. 4. 評価実験評価実験により，提案手法の有効性を示す．評価には，提案手法と従来のアピアランス特徴量を用いた手法の人体姿勢推定の精度比較を行う．まず，評価方法について述べた後，適切な学習サンプル枚数の調査について示し，最後に特徴量毎の比較結果を示す．. 4.1 評価方法推定精度の評価には，入力画像と推定結果画像の Recall(再現率) を用いる．まず，図 7 に示すように，入力画像からシルエット画像と推定結果から 3 次元人体モデルによりシルエット画像を作成する．入力シルエット画像と推定シルエット画像の人領域が一致したピクセル. 図 6 従来の特徴量では推定が困難な一例 Fig. 6 Examples of difficult situation by conventional method.. 数を true positive，推定シルエット画像の人領域の総ピクセル数を total pixel と表す．式. (5) より算出される Recall を用いて比較する．徴量では，カメラに対して人が横断する場合，左右の腕と脚の区別が困難となる場合がある．. Recall =. これは，アピアランス情報では，前後方向の運動を捉えることが困難なためである．しかし，. true positive total pixel. (5). Recall の値が 1 に近づくほど，入力シルエット画像と推定シルエット画像が一致すること. 提案手法は，図 6 に示すように距離情報を用いるため身体パーツの前後関係を捉えることが. になり，精度が高いことを示す．. できる．. 4.2 最適な学習サンプル枚数の調査実験. 3.3 回帰分析によるパラメータの対応付け回帰分析を用いて距離差分特徴量と関節パラメータを対応付ける．496 次元からなる距離差. 提案手法で用いる線形分析法の回帰分析は，従属変数を予測するための説明変数が従属変. 分特徴量を x0 = (x1 , x2 , ..., x496 )，57 次元からなる関節パラメータを y 0 = (y1 , y2 , ..., y57 ). 数より多くなければならない．一般に，説明変数であるサンプル枚数が多いほど精度が良く. とすると，学習サンプル数が n 枚の場合，特徴量を 496 × n 行列の X = (x01 , x02 , ..., x0n )T ，. なる．そこで，サンプル枚数を増加させた際の精度を調査する．学習サンプルを 100 枚か. (y10 , y20 , ..., yn0 )T. ら 1000 枚まで 100 枚ずつ変化させたときの正面を向いて手を振る動作，横を向いた歩行動. 関節パラメータを 57 × n 行列の Y =. と表す．推定問題は式 (2) のように. 作，同じく横を向いて走る動作について実験する．学習サンプルのモデルの向きは 1 方向に. 表せる．. A0 := arg min ||AX − Y ||2. 固定する．1 動作 100 フレームの各動作に対して，特徴量の値にガウシアンノイズを付加す. (2). A. ることにより学習サンプルを生成する．評価サンプルは，学習サンプルのモデルの向きより 0. 本手法では，回帰分析により式 (3) を用いて 496 × 57 行列の変換行列 A を算出する．. 1∼10 °の範囲で向きを変化させ生成する．精度の評価は推定された関節パラメータと真値. 4. c 2011 Information Processing Society of Japan.

(5) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 8 サンプル枚数ごとの推定精度 Fig. 8 Precision for number of training sample.. 図 7 評価方法 Fig. 7 Evaluation method.. 表 1 各動作における Recall の平均値 Table 1 Average recall of each actions.. のパラメータから関節ごとにユークリッド距離を算出し，19 関節の平均誤差 E を式 (6) より求める．. E=. N 1 ∑√. N. 0. 0. 0. (xn − xn )2 + (yn − yn )2 + (zn − zn )2. WAVE WALK RUN 平均. (6). n=1 0. 0. DDF. D-HOG. HOG. 0.76 0.70 0.59 0.68. 0.67 0.60 0.57 0.61. 0.63 0.53 0.41 0.52. 0. N は関節数（19 関節），(x , y , z ) は推定されたパラメータ，(x, y, z) を真値のパラメータを表す．図 8 にサンプル枚数ごとの精度を示す．実験結果より，姿勢の変化が大きい歩行動. いた場合，最も精度が低いことがわかった．歩行動作において，姿勢の変化が少ない直立姿. 作と走る動作に比べ，手を振る動作は平均誤差が低いことがわかる．これは，手を振る動作. 勢時は精度が良いが，姿勢の変化が大きいフレームでは著しく精度が低下した．また，距離. では形状変化が少ないため，学習サンプルと評価サンプルで類似した特徴量を得られるため. 画像から抽出した HOG 特徴量と距離差分特徴量は，距離情報により身体の重なりの関係と. である．走る動作は，歩行動作よりも姿勢の変化が大きいため，平均誤差が高く精度が悪い. 身体と背景の関係を捉えることができるため，精度が良いことがわかる．一方，走る動作で. ことがわかる．. は，図 14 からわかるように他の動作に比べ精度が低下した．TOF カメラは赤外光を照射. 4.3 特徴量毎の精度比較. し，その反射時間を計測するカメラのため，動きが早い部位は赤外光を反射できないため，. 従来の人体姿勢推定，及び人検出に用いられる特徴量 (HOG，D-HOG) と提案手法であ. シルエット画像や正確な距離画像を取得できなかったからである．. る距離差分特徴量 (DDF) の比較を行う．手を振る動作と歩行動作，走る動作を評価の対象. Recall の平均値を表 1 に示す．DDF は，手を振る動作において，HOG より 0.13，D-HOG. とし，各動作に学習用サンプル 900 枚，評価用サンプル 60 枚を用いる．実験に用いる特徴. より 0.09，歩行動作において，HOG より 0.17，D-HOG より 0.1，走る動作においては，. 量は，シルエット画像から求めた HOG 特徴量 (HOG)，距離画像から求めた HOG 特徴量. HOG より 0.17，D-HOG より 0.01 優れている．この結果からも距離差分特徴量の有効性. (D-HOG)，距離差分特徴量 (DDF) の 3 つを比較する．距離差分特徴量を用いた姿勢推定. を確認できた．. の一例を図 9，10，11 に示す．姿勢推定結果より精度良く推定できていることがわかる．. 各特徴量における姿勢推定例を図 15 に示す．歩行動作に着目すると，HOG では，左右. 図 12 に手を振る動作，図 13 に歩行動作，図 14 に走る動作における各特徴量の Recall. の腕と脚を識別することは困難であり，左右反対に誤って推定されている．また，D-HOG. を示す．実験結果より，距離差分特徴量の Recall が最も高いことがわかる．まず，手を振る. では，内部エッジにより左右の腕と脚は識別できているが，距離情報を正確に捉えることが. 動作と歩行動作に着目して考察する．手を振る動作，歩行動作において，HOG 特徴量を用. できないため，肩が不自然に開いた姿勢となった．DDF では，距離情報を効果的に捉える. 5. c 2011 Information Processing Society of Japan.

(6) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 9 手を振る動作の姿勢推定例 Fig. 9 Examples of estimated pose for hand-waving.. 図 11 走る動作の姿勢推定例 Fig. 11 Examples of estimated pose for runing.. 図 12 手を振る動作における特徴量毎の精度比較 Fig. 12 Precision for hand-waving.. 図 10 歩行動作の姿勢推定例 Fig. 10 Examples of estimated pose for walking.. 6. c 2011 Information Processing Society of Japan.

(7) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 13 歩行動作における特徴量毎の精度比較 Fig. 13 Precision for walking.. 図 15 特徴量毎の姿勢推定結果例 Fig. 15 Examples of estimated pose for each features.. ため，左右の腕と脚を正確に推定できていることがわかる．実験結果より，距離差分特徴量の有効性を示すことができた．. 5. おわりに本稿では，距離情報を用いた回帰分析による人体姿勢推定手法を提案した．提案した距離差分特徴量を用いて，身体の重なり及び身体と背景の関係性を捉えることにより，従来のアピアランス特徴では困難な姿勢推定を可能にした．提案手法と従来の特徴量の姿勢推定精度を手を振る動作，歩行動作，走る動作において比較し，提案手法の有効性を確認した．実験結果より，提案手法の各動作における Recall の平均値は，シルエット画像から抽出した図 14. HOG 特徴量より 0.07，距離画像から抽出した HOG 特徴量より 0.16 高精度であることを. 走る動作における特徴量毎の精度比較 Fig. 14 Precision for runing.. 確認できた．今後は，未学習の姿勢における推定を検討する．. 7. c 2011 Information Processing Society of Japan.

(8) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 参. 考. 文. 献. 1) 田中秀典，中澤篤志，町田貴史，竹村治雄：ボリュームデータの細線化とグラフマッチングを用いた事例ベース人体姿勢推定，MIRU, pp.70–77 (2006). 2) 大西克則，博格利，滝口哲也，有木康雄：HOG 特徴に基づく単眼画像からの人体 3 次元姿勢推定，MIRU, pp.960–965 (2008). 3) 大西克則，博格利，滝口哲也，有木康雄：固有空間でのモデルフィッティングによる単眼画像からの人体 3 次元姿勢推定，MIRU, pp.589–594 (2010). 4) 岡田隆三，シュテンガビヨン：シルエットを用いた tree based filtering による人体の姿勢推定，MIRU, pp.63–69 (2006). 5) Shotton, J., Fitzgibbon, A., Cook, M., Sharp, T., Finocchio, M., Moore, R., Kipman, A. and Blake, A.: Real-Time Human Pose Recognition in Parts from Single Depth Images, CVPR (2011). 6) Luo, X., Berendsen, B., Tan, R.T. and Veltkamp, R.C.: Human Pose Estimation for Multiple Persons Based on Volume Reconstruction, ICPR (2010). 7) Baysal, S., Kurt, M.C. and Duygulu, P.: Recognizing Human Actions Using Key Poses, ICPR (2010). 8) Jiang, H.: 3D Human Pose Reconstruction Using Millions of Exemplars, ICPR (2010). 9) Deutscher, J., Blake, A. and Reid, I.: Articulated Body Motion Capture by Annealed Particle Filtering, CVPR, pp.126–133 (2000). 10) Ye, L., Zhang, Q. and Guan, L.: Use Hierarchical Genetic Particle Filter to Figure Articulated Human Tracking, ICME, pp.1561–1564 (2008). 11) Andriluka, M., Roth, S. and Schiele, B.: Pictorial structures revisited: People detection and articulated pose estimation, CVPR, pp.1014–1021 (2009). 12) Bissacco, A., Yang, M.H. and Soatto, S.: Fast human pose estimation using appearance and motion via multi-dimensional boosting regression, CVPR, pp.1–8 (2007). 13) Ferrari, V., Marin-Jimenez, M. and Zisserman, A.: Pose search: retrieving people using their pose, CVPR, pp.1–8 (2009). 14) Xia, X., Yang, W., Li, H. and Zhang, S.: Part-based object detection using cascades of boosted classiers, ACCV, pp.556–565 (2009). 15) 池村翔，藤吉弘亘：距離情報に基づく局所特徴量によるリアルタイム人検出，電子情報通信学会論文誌，pp.355–364 (2010).. 8. c 2011 Information Processing Society of Japan.

(9)