距離情報を用いた回帰分析による人体姿勢推定
全文
(2) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 2 3 次元人体モデル Fig. 2 3D human model.. ツ毎に捉える手法は腕や脚などの各パーツを推定する必要があるため,処理コストが比較的 大きい.しかし,全てのパーツが検出できなくても,姿勢推定が可能であり,自己遮蔽に頑 健となるメリットも得られる. 図 1 提案手法の流れ Fig. 1 The flow of proposed method.. 2.3 問 題 点 モデルフィッティングの手法は,最適解を求めるフィッティング処理に膨大な処理コスト が必要となる問題がある.また,フィッティングする前に初期姿勢を入力する必要がある場. 2. 従来の人体姿勢推定. 合が多く,全自動で人体姿勢推定を行うことは困難である.学習ベースの手法は,学習して いない未知の姿勢に対して推定精度が低下するという問題がある.しかしながら,学習ベー. 一般的な姿勢推定の手法は,モデルフィッティングの手法と学習ベースの手法に大別でき. スの手法は,あらゆる姿勢を網羅するように用意した大量の学習サンプルを用いることで高. る.以下に各手法と問題点について述べる. . 2.1 モデルフィッティングの手法. 精度な人体姿勢推定を実現することができる.そこで,本研究では 3 次元人体モデルにより. モデルフィッティングの手法1)9)10) は,推定画像と人体モデルをフィッティングすること. 自動生成した大量の学習サンプルを用いて学習することにより高精度な人体姿勢推定を実現 する.. で姿勢を推定する.モデルは手法により異なるが,各関節を線で結んだ人体スケルトンモデ ルが用いられることが多い.モデルフィッティングを行う手順として,まずモデルを定義し,. 3. 距離情報を用いた回帰分析による人体姿勢推定. モデルと画像から得られる特徴のマッチングをする.そして,マッチングスコアが最大とな る解を求めることで,人体モデルと推定画像のフィッティングを行う.つまり,人体スケル. 提案手法は,学習過程では推定する姿勢を回帰分析により学習し,推定過程では TOF カ. トンモデルの姿勢パラメータを変化させたときに,推定したい姿勢と照合することで人体姿. メラの距離画像から姿勢を推定する.図 1 に提案手法の流れを示す.学習過程では,まず 3. 勢推定を行う.. 次元人体モデルから各姿勢の関節パラメータと疑似距離画像を生成し,学習用データベース. 2.2 学習ベースの手法. を構築する.次に,関節パラメータと疑似距離画像から抽出した特徴量を回帰分析により対. 学習ベースの手法は,事前に推定したい姿勢を学習しておくことで,人体姿勢推定を行う.. 応付けし,特徴量を関節パラメータに変換する変換行列を求める.推定過程では,TOF カ. 学習する際には,人の姿勢を画像特徴などで捉える必要がある.抽出した画像特徴を学習. メラにより距離画像を取得し,特徴量を抽出する.変換行列を用いて関節パラメータを推定. し,未知入力姿勢の画像特徴と学習データを参照することで人体の姿勢を推定することがで. することで人体姿勢推定を行う.本章では,はじめに学習データベースを作成する 3 次元人. きる.姿勢を捉えるための表現方法には,画像一枚または人の身体全体を捉える手法3)4)7). 体モデルについて述べ,学習サンプルの生成例を示す.次に,提案する距離差分特徴量につ. 5)11)12)13)14). と身体をパーツごとに捉える手法. いて述べる.最後に,回帰分析による関節パラメータと距離差分特徴量の対応付けについて. がある.身体全体を捉える手法に比べ,パー. 2. c 2011 Information Processing Society of Japan.
(3) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 4 ブロックに分割 Fig. 4 Division of block.. に 57 の関節パラメータと生成した疑似距離画像を学習サンプルとして用いる.3 次元人体 モデルより取得した学習サンプル例を図 3 に示す.. 3.2 距離差分特徴量 本研究では,未知入力画像の姿勢推定時に距離情報を取得するために TOF カメラを用い る.TOF カメラは,カメラの周囲に付いた LED より照射される赤外光が対象物に反射し, カメラで観測されるまでの時間を計測することにより,物体までの距離を計測するカメラで ある.本研究で用いる TOF カメラは,MESA 社の SR-4000 である.SR-4000 は,0.3m∼. 5.0m までの距離情報をリアルタイムで取得することができる. 姿勢推定の際には,TOF カメラより得られる距離情報を用いて人体の各パーツの関係性 を捉えることが有効であると考えられる.そこで,本稿では 2 つの局所領域間の平均距離の 差分値から得られる距離差分特徴量を提案する.距離画像から距離差分特徴量を抽出するた めに,距離画像をブロック分割する.TOF カメラより距離画像 (176 × 144[pixel]) を取得 し,人検出15) により距離画像から人領域を切り出す.切り出された人領域を 64 × 128[pixel] の大きさに正規化し,ブロック (16 × 16[pixel]) の大きさに分割する (図 4 参照).ブロック. 図 3 学習サンプルの例 Fig. 3 Examples of training sample.. サイズを小さくすると,物体の形状をより細かく表現することができるが,位置ずれの影響 を受けやすくなる.本研究では実験的にブロックサイズを 16 × 16[pixel] に設定し,一枚の. 述べる.. 入力画像のブロック数 M は 32 とした.. 3.1 3 次元人体モデル. 距離差分特徴量 D は,図 5 に示すように 2 つの選択されたブロックから,式 (1) より算. 本研究で用いる 3 次元人体モデルを図 2 に示す.3 次元人体モデルは,19 の関節より構成さ. 出する.. れており,1 つの関節に (x, y, z) の 3 パラメータを持つ.そのため,1 つの姿勢は 19 × 3 = 57. D(i, j) =. パラメータにより表現することができる.また,仮想カメラの位置は自由に設定することが. (. N 1 ∑ i dn N n=1. できる.本手法では,実環境で姿勢推定を行うために,モデル内のカメラの位置も実環境に. ). ( −. N 1 ∑ j dn N. ) (1). n=1. 合わせる必要がある.そこで,一般家庭でテレビの前面にカメラが置かれることを想定し,. N は ブ ロック内の ピク セル数 ,d は各ピク セルの 距離 ,i,j は選択 された ブロック. 高さ 1m,人までの距離 4m の位置に仮想カメラの位置を設置した.そして,3 次元人体モ. を 表 す.こ れ を 全 て の ブ ロック の 組 み 合 わ せ に 対 し て 求 め ,距 離 差 分 特 徴 量 D. デルより各姿勢に対応する関節パラメータから疑似距離画像を生成する.疑似距離画像は,. {D(i, j)}i=1,2,...,M −1,j=2,3,...,M とする.. =. 図 6 に従来の特徴量抽出に用いられる画像の例を示す.従来のアピアランスに基づく特. モデルとカメラ間の距離情報をレイトレーシングにより取得することで生成する.各姿勢毎. 3. c 2011 Information Processing Society of Japan.
(4) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. A0 = (X T X)−1 X T Y. (3). 回帰分析により求めた変換行列 A0 を用いて人体姿勢推定を行う.. 3.4 変換行列を用いた人体姿勢推定 人体姿勢推定過程の手順を示す.まず,TOF カメラから距離情報を取得し,人検出によ り人領域のみを切り出す.切り出された領域から距離差分特徴量 X 0 を抽出し,変換行列 A0 に入力することで関節パラメータ Y 0 を推定する.関節パラメータ Y 0 の算出式を式 (4) に 示す.. 図 5 距離差分特徴量 Fig. 5 Depth difference feature.. Y 0 = A0 X 0. (4). 上式により,57 個の関節パラメータを求めることで,3 次元人体モデルにより姿勢を表現す ることが可能となる.. 4. 評 価 実 験 評価実験により,提案手法の有効性を示す.評価には,提案手法と従来のアピアランス特 徴量を用いた手法の人体姿勢推定の精度比較を行う.まず,評価方法について述べた後,適 切な学習サンプル枚数の調査について示し,最後に特徴量毎の比較結果を示す.. 4.1 評 価 方 法 推定精度の評価には,入力画像と推定結果画像の Recall(再現率) を用いる.まず,図 7 に 示すように,入力画像からシルエット画像と推定結果から 3 次元人体モデルによりシルエッ ト画像を作成する.入力シルエット画像と推定シルエット画像の人領域が一致したピクセル. 図 6 従来の特徴量では推定が困難な一例 Fig. 6 Examples of difficult situation by conventional method.. 数を true positive,推定シルエット画像の人領域の総ピクセル数を total pixel と表す.式. (5) より算出される Recall を用いて比較する. 徴量では,カメラに対して人が横断する場合,左右の腕と脚の区別が困難となる場合がある.. Recall =. これは,アピアランス情報では,前後方向の運動を捉えることが困難なためである.しかし,. true positive total pixel. (5). Recall の値が 1 に近づくほど,入力シルエット画像と推定シルエット画像が一致すること. 提案手法は,図 6 に示すように距離情報を用いるため身体パーツの前後関係を捉えることが. になり,精度が高いことを示す.. できる.. 4.2 最適な学習サンプル枚数の調査実験. 3.3 回帰分析によるパラメータの対応付け 回帰分析を用いて距離差分特徴量と関節パラメータを対応付ける.496 次元からなる距離差. 提案手法で用いる線形分析法の回帰分析は,従属変数を予測するための説明変数が従属変. 分特徴量を x0 = (x1 , x2 , ..., x496 ),57 次元からなる関節パラメータを y 0 = (y1 , y2 , ..., y57 ). 数より多くなければならない.一般に,説明変数であるサンプル枚数が多いほど精度が良く. とすると,学習サンプル数が n 枚の場合,特徴量を 496 × n 行列の X = (x01 , x02 , ..., x0n )T ,. なる.そこで,サンプル枚数を増加させた際の精度を調査する.学習サンプルを 100 枚か. (y10 , y20 , ..., yn0 )T. ら 1000 枚まで 100 枚ずつ変化させたときの正面を向いて手を振る動作,横を向いた歩行動. 関節パラメータを 57 × n 行列の Y =. と表す.推定問題は式 (2) のように. 作,同じく横を向いて走る動作について実験する.学習サンプルのモデルの向きは 1 方向に. 表せる.. A0 := arg min ||AX − Y ||2. 固定する.1 動作 100 フレームの各動作に対して,特徴量の値にガウシアンノイズを付加す. (2). A. ることにより学習サンプルを生成する.評価サンプルは,学習サンプルのモデルの向きより 0. 本手法では,回帰分析により式 (3) を用いて 496 × 57 行列の変換行列 A を算出する.. 1∼10 °の範囲で向きを変化させ生成する.精度の評価は推定された関節パラメータと真値. 4. c 2011 Information Processing Society of Japan.
(5) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 8 サンプル枚数ごとの推定精度 Fig. 8 Precision for number of training sample.. 図 7 評価方法 Fig. 7 Evaluation method.. 表 1 各動作における Recall の平均値 Table 1 Average recall of each actions.. のパラメータから関節ごとにユークリッド距離を算出し,19 関節の平均誤差 E を式 (6) よ り求める.. E=. N 1 ∑√. N. 0. 0. 0. (xn − xn )2 + (yn − yn )2 + (zn − zn )2. WAVE WALK RUN 平均. (6). n=1 0. 0. DDF. D-HOG. HOG. 0.76 0.70 0.59 0.68. 0.67 0.60 0.57 0.61. 0.63 0.53 0.41 0.52. 0. N は関節数(19 関節),(x , y , z ) は推定されたパラメータ,(x, y, z) を真値のパラメータ を表す.図 8 にサンプル枚数ごとの精度を示す.実験結果より,姿勢の変化が大きい歩行動. いた場合,最も精度が低いことがわかった.歩行動作において,姿勢の変化が少ない直立姿. 作と走る動作に比べ,手を振る動作は平均誤差が低いことがわかる.これは,手を振る動作. 勢時は精度が良いが,姿勢の変化が大きいフレームでは著しく精度が低下した.また,距離. では形状変化が少ないため,学習サンプルと評価サンプルで類似した特徴量を得られるため. 画像から抽出した HOG 特徴量と距離差分特徴量は,距離情報により身体の重なりの関係と. である.走る動作は,歩行動作よりも姿勢の変化が大きいため,平均誤差が高く精度が悪い. 身体と背景の関係を捉えることができるため,精度が良いことがわかる.一方,走る動作で. ことがわかる.. は,図 14 からわかるように他の動作に比べ精度が低下した.TOF カメラは赤外光を照射. 4.3 特徴量毎の精度比較. し,その反射時間を計測するカメラのため,動きが早い部位は赤外光を反射できないため,. 従来の人体姿勢推定,及び人検出に用いられる特徴量 (HOG,D-HOG) と提案手法であ. シルエット画像や正確な距離画像を取得できなかったからである.. る距離差分特徴量 (DDF) の比較を行う.手を振る動作と歩行動作,走る動作を評価の対象. Recall の平均値を表 1 に示す.DDF は,手を振る動作において,HOG より 0.13,D-HOG. とし,各動作に学習用サンプル 900 枚,評価用サンプル 60 枚を用いる.実験に用いる特徴. より 0.09,歩行動作において,HOG より 0.17,D-HOG より 0.1,走る動作においては,. 量は,シルエット画像から求めた HOG 特徴量 (HOG),距離画像から求めた HOG 特徴量. HOG より 0.17,D-HOG より 0.01 優れている.この結果からも距離差分特徴量の有効性. (D-HOG),距離差分特徴量 (DDF) の 3 つを比較する.距離差分特徴量を用いた姿勢推定. を確認できた.. の一例を図 9,10,11 に示す.姿勢推定結果より精度良く推定できていることがわかる.. 各特徴量における姿勢推定例を図 15 に示す.歩行動作に着目すると,HOG では,左右. 図 12 に手を振る動作,図 13 に歩行動作,図 14 に走る動作における各特徴量の Recall. の腕と脚を識別することは困難であり,左右反対に誤って推定されている.また,D-HOG. を示す.実験結果より,距離差分特徴量の Recall が最も高いことがわかる.まず,手を振る. では,内部エッジにより左右の腕と脚は識別できているが,距離情報を正確に捉えることが. 動作と歩行動作に着目して考察する.手を振る動作,歩行動作において,HOG 特徴量を用. できないため,肩が不自然に開いた姿勢となった.DDF では,距離情報を効果的に捉える. 5. c 2011 Information Processing Society of Japan.
(6) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 9 手を振る動作の姿勢推定例 Fig. 9 Examples of estimated pose for hand-waving.. 図 11 走る動作の姿勢推定例 Fig. 11 Examples of estimated pose for runing.. 図 12 手を振る動作における特徴量毎の精度比較 Fig. 12 Precision for hand-waving.. 図 10 歩行動作の姿勢推定例 Fig. 10 Examples of estimated pose for walking.. 6. c 2011 Information Processing Society of Japan.
(7) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 13 歩行動作における特徴量毎の精度比較 Fig. 13 Precision for walking.. 図 15 特徴量毎の姿勢推定結果例 Fig. 15 Examples of estimated pose for each features.. ため,左右の腕と脚を正確に推定できていることがわかる.実験結果より,距離差分特徴量 の有効性を示すことができた.. 5. お わ り に 本稿では,距離情報を用いた回帰分析による人体姿勢推定手法を提案した.提案した距離 差分特徴量を用いて,身体の重なり及び身体と背景の関係性を捉えることにより,従来のア ピアランス特徴では困難な姿勢推定を可能にした.提案手法と従来の特徴量の姿勢推定精 度を手を振る動作,歩行動作,走る動作において比較し,提案手法の有効性を確認した.実 験結果より,提案手法の各動作における Recall の平均値は,シルエット画像から抽出した 図 14. HOG 特徴量より 0.07,距離画像から抽出した HOG 特徴量より 0.16 高精度であることを. 走る動作における特徴量毎の精度比較 Fig. 14 Precision for runing.. 確認できた.今後は,未学習の姿勢における推定を検討する.. 7. c 2011 Information Processing Society of Japan.
(8) Vol.2011-CVIM-177 No.16 2011/5/19. 情報処理学会研究報告 IPSJ SIG Technical Report. 参. 考. 文. 献. 1) 田中秀典,中澤篤志,町田貴史,竹村治雄:ボリュームデータの細線化とグラフマッ チングを用いた事例ベース人体姿勢推定,MIRU, pp.70–77 (2006). 2) 大西克則,博格利,滝口哲也,有木康雄:HOG 特徴に基づく単眼画像からの人体 3 次 元姿勢推定,MIRU, pp.960–965 (2008). 3) 大西克則,博格利,滝口哲也,有木康雄:固有空間でのモデルフィッティングによる単 眼画像からの人体 3 次元姿勢推定,MIRU, pp.589–594 (2010). 4) 岡田隆三,シュテンガビヨン:シルエットを用いた tree based filtering による人体の 姿勢推定,MIRU, pp.63–69 (2006). 5) Shotton, J., Fitzgibbon, A., Cook, M., Sharp, T., Finocchio, M., Moore, R., Kipman, A. and Blake, A.: Real-Time Human Pose Recognition in Parts from Single Depth Images, CVPR (2011). 6) Luo, X., Berendsen, B., Tan, R.T. and Veltkamp, R.C.: Human Pose Estimation for Multiple Persons Based on Volume Reconstruction, ICPR (2010). 7) Baysal, S., Kurt, M.C. and Duygulu, P.: Recognizing Human Actions Using Key Poses, ICPR (2010). 8) Jiang, H.: 3D Human Pose Reconstruction Using Millions of Exemplars, ICPR (2010). 9) Deutscher, J., Blake, A. and Reid, I.: Articulated Body Motion Capture by Annealed Particle Filtering, CVPR, pp.126–133 (2000). 10) Ye, L., Zhang, Q. and Guan, L.: Use Hierarchical Genetic Particle Filter to Figure Articulated Human Tracking, ICME, pp.1561–1564 (2008). 11) Andriluka, M., Roth, S. and Schiele, B.: Pictorial structures revisited: People detection and articulated pose estimation, CVPR, pp.1014–1021 (2009). 12) Bissacco, A., Yang, M.H. and Soatto, S.: Fast human pose estimation using appearance and motion via multi-dimensional boosting regression, CVPR, pp.1–8 (2007). 13) Ferrari, V., Marin-Jimenez, M. and Zisserman, A.: Pose search: retrieving people using their pose, CVPR, pp.1–8 (2009). 14) Xia, X., Yang, W., Li, H. and Zhang, S.: Part-based object detection using cascades of boosted classiers, ACCV, pp.556–565 (2009). 15) 池村翔,藤吉弘亘:距離情報に基づく局所特徴量によるリアルタイム人検出,電子情 報通信学会論文誌,pp.355–364 (2010).. 8. c 2011 Information Processing Society of Japan.
(9)
図
関連したドキュメント
Recently, it was reported that ketoconazole, which is a well-known inhibitor of CYP3A4, potently inhibits the morphine glucuronosyltransferase activity catalyzed by recombinant UGT2B7
This paper proposes a method of enlarging equivalent loss factor of a damping alloy spring by using a negative spring constant and it is confirmed that the equivalent loss factor of
By means of a simulation study the estimation method is compared by using a local polynomial kernel regression with the use of radial kernel functions in relation with the average
The problem is modelled by the Stefan problem with a modified Gibbs-Thomson law, which includes the anisotropic mean curvature corresponding to a surface energy that depends on
Based on the Perron complement P(A=A[ ]) and generalized Perron comple- ment P t (A=A[ ]) of a nonnegative irreducible matrix A, we derive a simple and practical method that
We proposed an additive Schwarz method based on an overlapping domain decomposition for total variation minimization.. Contrary to the existing work [10], we showed that our method
p-Laplacian operator, Neumann condition, principal eigen- value, indefinite weight, topological degree, bifurcation point, variational method.... [4] studied the existence
Based on these results, we first prove superconvergence at the collocation points for an in- tegral equation based on a single layer formulation that solves the exterior Neumann