Marker-free Motion Capture for Multiple Persons based on Three-dimensional Human Area Segmentation using Graph Cut

(1)

Marker-free Motion Capture for Multiple Persons based on Three-dimensional Human Area Segmentation using Graph Cut

Yasutoshi TANIMURA^* , Kazuhiko TAKAHASHI^** and Masafumi HASHIMOTO^***

(Received 03 April, 2013)

Recently, demands of human motion analysis are increasing in various ﬁelds. In order to estimate human body postures of multiple persons, this paper investigates the introduction of a graph cut method into a marker-free motion capture system. The latter is composed of human silhouette extraction using background subtraction, back projection of the silhouette image from the 2D plane to 3D space, reconstruction of human body in 3D volume using silhouette volume intersection, and estimation of 3D skeleton information by ﬁtting an articulated cylindrical human model to the reconstructed human body with 3D voxel. Results of computational experiments for estimating human body postures show the feasibility of the proposed method for segmenting, reconstructing and estimating multiple human body postures.

Key words：motion capture, silhouette volume intersection, graph cut, area segmentation, model matching キーワード：モーションキャプチャ,視体積交差,グラフカット, 領域分割,モデルマッチング

グラフカットによる三次元人物領域分割を用いた複数人物のマーカフリーモーションキャプチャ

谷村安敏

^,

高橋和彦

^,

橋本雅文

1. 緒論

人物の姿勢や表情を動的に計測することが可能なモーションキャプチャ技術は，様々な分野での応用が期待されており，その需要は高まっている¹⁾．モーションキャプチャの方式としては様々なものが提案されているが，特に画像処理式のモーションキャプチャはセンサやマーカを必要としないため，使用者への負担が少なく，自然な動作情報の獲得が可能であり，更に対象の表面形状の変化も取得することも可能であること

* Graduate School of Doshisha University, Kyoto (currently at Fujitsu CIT Ltd.)

** Department of Information Systems Design, Doshisha University, Kyoto

Telephone: +81-774-65-6434, Fax: +81-774-65-6801, E-mail: [email protected]

*** Department of Intelligent Information Engineering and Sciences, Doshisha University, Kyoto Telephone: +81-774-65-6410, Fax: +81-774-65-6801, E-mail: [email protected]

から，研究が盛んに行われている²^,³^, ⁴⁾．画像処理式モーションキャプチャにより人物の姿勢推定を行う手法は，画像特徴から姿勢を計算するアルゴリズムをあらかじめ設計し，観測した特徴点をもとに計算を行って姿勢を推定する計測ベースの手法と，画像特徴と姿勢の組をデータベースに事前に蓄積しておき，観測した特徴をデータベースから検索して姿勢を推定する事例データベースの手法に分けることができる．例えば，

計測ベースの手法では，多視点画像解析より求めた肌

(2)

色部位の三次元位置とシルエットを用いて人体モデルのフィッティングを行う姿勢推定法⁵^, ⁶⁾，事例データベースの手法では，多視点画像から復元した人体の三次元形状を事例として利用する姿勢推定法⁷^,⁸⁾等が提案されている．従来より提案されている推定法では，

モーションキャプチャの対象領域に存在する人物が単独の場合に限定されているが，モーションキャプチャの実用上では，複数の人物を同時にモーションキャプチャすることが要求されることも多い．これまで筆者らも画像処理によるマーカフリーなモーションキャプチャ手法⁶^, ⁹^,¹⁰⁾を提案してきたが，いずれの手法においても，モーションキャプチャを行う領域内に単一の人物が存在する場合のみ当該人物の姿勢推定を行うことが可能であり，複数の人物が存在している場合について対応することは困難であった．

複数人物の姿勢推定は，田中ら⁸⁾が，2名の人物の 3次元形状とその時の姿勢の組み合わせを事例ベースとすることにより2名同時の姿勢推定を実現しているが，人物が増加することによって事例が増大するという問題がある．Sagawaら⁷⁾，Huangら¹¹⁾は，複数人物の3次元形状を個別に分割し，各人物について個人を対象とした姿勢推定法を適用することで複数人物の姿勢推定を行なっているが，三次元形状に対するラベリングを用いているため，人物が接触している場合に対応することができない等の問題がある．江頭ら¹²⁾， Guillemautら¹³⁾は，2名の人物を仮定し，ボクセルデータによって表現された人物の3次元形状に対して人物ラベルに基づくエネルギー関数を定義し，このエネルギー最小化問題をグラフカット¹⁴⁾により解くことによって人物分割を行う手法を検討しているが，複数人物の姿勢推定に関する評価は行なっていない．

そこで本報告では，多視点画像の視野内に複数人が存在している場合のモーションキャプチャを実現する方法として，複数人物の多視点画像からシルエット情報を抽出し，視体積交差法を用いて仮想空間内に復元されたボクセルデータをグラフカットによって各人物毎に分割し，こられに対して人体の三次元モデルを

マッチングすることで同時に複数人物の姿勢推定を行う手法を提案し，その有効性について検討する．

2. 複数人物の姿勢推定法

2.1 姿勢推定アルゴリズムの概要

多視点画像の視野内に複数の人物が存在している場合，複数人を対象とした同時のマーカフリーなモーションキャプチャは，以下のステップに従って行われる．

1) 人物画像取得：モーションキャプチャの対象空間を囲むように配置したカメラで人物を撮影する．

2) 背景差分処理：各カメラにおいて事前に取得した背景画像と入力画像に対し差分処理により人物のシルエット画像を得る．

3) ボクセル復元：全てのシルエット画像を用いてSpace Carving Methodによる視体積交差を行いボクセルデータで人物形状を再構成する．

4) 人物領域分割：ボクセルデータに対してエネルギー関数を定義し，エネルギー最小化問題をグラフカットにより解くことでボクセルデータを人物毎に分割する．

5) モデルマッチング：人物CGモデルと人物毎のボクセルデータのマッチングを行い，各人物の関節及び骨格線情報を得る．

以下，人物領域分割法，モデルマッチングについて説明する．

2.2 グラフカットによる人物領域の分割

グラフカットは，グラフに定義されたエネルギー関数を最小切断アルゴリズムによって最小化する手法であり，近年画像処理の分野で広く利用されている

15,16)．ここでは，Fig. 1に示されるような分割の対象が２つであるボクセルデータに対してグラフカットによる領域分割を考える．Fig. 1では，S（source）と T（sink）の２つのターミナルがt-linkによるエッジで各ノード（ボクセル）と接続されており，各ノード間もn-linkによるエッジで接続されている．このSか

(3)

t-link n-link

s

t

Fig. 1. Schematic of graph cut for 3D voxel data.

らTへと流れるフローを切断するエッジの値が最小となる部分で分割することにより，各ノードがS，Tのいずれかに属するかを判別することができる．フレーム時刻pの多視点画像から抽出したシルエット情報により復元された人物領域を示すボクセルの集合をV，ボクセル対を(u, v)，V に含まれるボクセルの中で連結しているボクセル対の集合をN，ボクセルのラベルをX = (X₁, X₂,· · ·, XM)とする．このとき，次式のエネルギー関数E^V(X)を定義する．

E^V(X) =k

v∈V

g^V(Xv) +

(u,v)∈N

h^V(Xu, Xv) (1)

ここで，g^V(Xv)はボクセルvが人物Aもしくは人物 Bの可能性（n-linkのコスト）を表し，その和である第一項はデータ項と呼ばる．h^V(Xu, Xv)は隣接しているノードとの６方向の連結強度（t-linkのコスト）を示しており，その和である第二項は平滑化項と呼ばれる．kは比例係数である．t-linkのコストは，Xu=Xv

のとき１，Xu =Xvのとき０であり，n-linkのコストは，Xv =iのときg_i^V(x)（i=A, B），Xv∈/ A, B のとき０に設定する．g_i^V(x)は，(p−1)時刻の人物A と人物Bの人物領域のボクセルの重心Gⁱ（i=A, B）

を用いて，以下のように設定する．

g_i^V(x) =

x(p)∈V

Gⁱ(p−1)−x(p)² (2)

関数E^V(X)を最小とするようなX をグラフカットにより求め，カット後に描くターミナルと繋がってるノードを人物Aもしくは人物Bとすることで人物の分割処理が可能となる．S,Tについての切断のうち,コストが最小のものを見つける問題は最小切断問題と呼

ばれ，最大流問題の線形計画法における双対にあたり，

最大流最小切断定理により最小切断は最大流と一致する．最大流問題を多項式時間で解く方法としてエッジの重みが全て非負である場合にはAugmenting path アルゴリズムやPush relabelアルゴリズム等，多くのアルゴリズムが存在している．

提案する人物領域分割処理では，式(2)に示すように，一時刻前のフレームの各人物の重心と現フレームのボクセルデータをt-linkのエッジのコストとして使用している．従って，初期フレームではグラフカットにおける評価関数を設定することができないため，提案手法による人物領域分割処理は，２フレーム目以降においてのみ可能となる．そのため，初期フレームにおいては人物が離れていると仮定し，三次元ラベリング処理を用いて初期値の設定を行うものとする．

二人よりも多く人物が存在する場合の分割処理は，

二人の場合の人物領域分割処理を拡張することで容易に行うことができる．例として，三人の人物が多視点画像の領域内に存在する場合の人物領域分割処理の手順を示す．始めに，三次元復元したボクセルに対して三次元ラベリング処理を行うことにより連続領域のボクセルを検出し，各連続領域のボクセル数と連続領域数を求める．連続領域数が３つ検出された場合，三人が全員接触していないと判定されるため，ラベリングによって算出された各連続領域を人物A，人物B，人物Cとする．連続領域数が２つ検出された場合，三人のうち二人が接触していると判定され，ボクセル数が少ない連続領域が接触していない人物であると判定される．ボクセル数が多い連続領域は人物が接触しているため，グラフカットによる人物領域分割処理を行うことで人物毎に分割する．連続領域数が１つ検出された場合は，三人全員が接触していると判定されるため，

グラフカットによる人物領域分割処理により，二人の人物が存在する領域と一人の人物が存在する領域に分割し，更に二人の人物が存在する領域をグラフカットによる人物領域分割処理を行って人物を分割する．

(4)

2.3 多関節人物モデルマッチングによる姿勢推定人物姿勢の推定は，先行研究⁶⁾で提案された人物多関節モデルマッチングを基礎としており，三次元復元された人物のボクセルデータに対して人物を円柱で近似した多関節人物モデルとのマッチング処理を行い，体の部位と各部位の接続関係をグラフ構造で表した骨格線を取得するものである．多関節人物モデルは10個の円柱Ci（i = body, head, upperArm₁, upperArm₂, lowerArm₁, lowerArm₂, upperLeg₁, upperLeg₂, lowerLeg₁, lowerLeg₂）からなり，接続されている円柱どうしはそれぞれ，底面の中心あるいは底面の円周上の点で接続されている．骨格線モデルは15 個の関節ノードPi（i = Head, N eck, Shoulder₁, Shoulder₂, Elbow₁, Elbow₂, Hand₁, Hand₂, W aistc, W aist₁, W aist₂, Knee₁, Knee₂, T oe₁,T oe₂）と14本のエッジ（関節ノードを接続する線分）からなり，各関節ノードは多関節人物モデルにおける円柱どうしの接続点と一致する．各部のマッチング処理によって得られた多関節人物モデルにおいて，各関節ノードを各部位の接続関係に基づいてエッジにより接続することで骨格線モデルを求めることができ，得られた骨格線モデルが姿勢推定結果となる．

モデルマッチングは，始めに入力画像の肌色領域を抽出し，復元対象となる三次元空間内のボクセル領域上へ逆投影することで，頭，手の三次元位置を推定する．次に，頭の位置を基準として胴体に相当する円柱のマッチングを行い，肩，腰の三次元位置を推定する．更に，手の位置と肩の位置を基準として腕に相当する円柱のマッチングを行い，肘の三次元位置を推定する．最後に，靴の色によって足の領域を抽出することによって得られた足の位置と腰の位置を基準として太股，脹脛に相当する円柱のマッチングを行い，膝の三次元位置を推定をする．

しかしながら，従来の推定手法を用いて，円柱モデルによるマッチングを行った場合，特に脚を閉じた状態などのように両足の膝の位置が接近している場合に，

左右の膝関節を逆にマッチングする誤検出が頻出する

ことがあった．そこで，このような誤検出を減らすため，一時刻前のフレームと現フレームでは膝の位置が大きく離れていないと仮定し，円柱マッチングを行って決定した膝の位置において以下の式を満たすものは膝の候補から除外する．

LW ideLegPKnee_i−Pbef oreKnee_i (3) ここで，Pbef oreKnee_i（i= 1,2）は一時刻前のフレームの膝の位置，LW ideLegはマッチングに用いる円柱モデルの直径である．

3. シミュレーション実験

提案する姿勢推定手法の評価を行うため，Direct X を使用した仮想カメラによる視体積交差法シミュレータ¹⁷⁾を用いてシミュレーション実験を行った．本実験では，3Dキャラクタ作成ソフトウェアPoser（Smith-

Micro社）によって作成した複数の人物の3DCGモ

デルを用いて，歩行，握手等の動作を行う三次元アニメーションを作成し，これをモーションキャプチャにおける撮影対象とした．

3.1 人物領域分割処理の評価

３名の人物モデル（人物ラベルをA，B，Cとする）

が離れた状態から接近し，全員の手先が接触する動画を対象としてグラフカットによる人物の領域分割法のシミュレーション実験を行った．仮想カメラは１２台，

仮想空間内での三次元復元におけるボクセル解像度は 100×100×100である．Fig. 2は全員の手先が接触した状態における人物モデルの3Dデータ，Fig. 3は三次元復元されたボクセルデータに対してグラフカットにより人物領域分割処理を行った結果を示したものである（Aは左，Bは右，Cは中央のボクセルにより表示されている）．提案手法により，人物が接触している場合でも正確に領域分割が行われていることが確認できる．

3.2 複数人物の姿勢推定

２名の人物モデル（人物ラベルをA，Bとする）が離れた状態よりお互い対向して歩いて接近し，すれ違

(5)

Fig. 2. 3D CG model of three persons.

Fig. 3. Result of human area segmentation with voxel reconstruction (the left voxel is person A, the right voxel is person B and the center voxel is person C).

いにおいて手先が接触，その後離れていく動画を対象として人物の姿勢推定に関するシミュレーション実験を行った．仮想カメラは８台，仮想空間内での三次元復元におけるボクセル解像度は100×100×100である．Fig. 4は，すれ違い時に人物どうしの手が接触している人物モデルの3Dデータ，Fig. 5はグラフカットによる人物の領域分割を行った結果である（Aは前方，

Bは後方のボクセルにより表示されている）．Figs. 6，

7は，Fig. 5の各人物のボクセルデータに対して従来の姿勢推定法によって骨格線の推定を行った結果と，

Fig. 4. 3D CG model of two persons.

Fig. 5. Result of human area segmentation with voxel reconstruction (the front voxel is person A and the rear voxel is person B).

提案する脚の推定法を改善したモデルマッチングにより姿勢推定を行った結果を比較したものである．人物 A，Bいずれにおいても提案手法により膝の推定精度が改善されており，良好に姿勢推定が行われていることがわかる．

3.3 実環境データを用いた複数人物の姿勢推定実験実環境において取得された動画像データに対する提案手法の有効性を評価するため，マルチカメラシステムにより取得された成人男性の歩行動画¹⁸⁾（画像サイズ320×240，150フレーム）から足踏み1周期分のデータ（10フレーム）を使用して２名の人物が接

(6)

Fig. 6. Result of human body posture estimation for person A (left: 3D reconstruction with colour voxel, middle: estimated skeleton by conven- tional method, right: estimated skelton by proposed method).

Fig. 7. Result of human body posture estimation for person B (left: 3D reconstruction with colour voxel, middle: estimated skeleton by conven- tional method, right: estimated skelton by proposed method).

触するように歩行するデータを作成し，これを対象として姿勢推定実験を行った．カメラは６台であり，仮想空間内での三次元復元におけるボクセル解像度は 50×50×50である．Fig. 8は，人物どうしの手が接触しているシーンのボクセルデータによる三次元復元結果，Fig. 9はFig. 8に対してグラフカットによる人物の領域分割を行った結果である．Fig. 10は，Fig.

9の各人物のボクセルデータに対してモデルマッチングにより骨格線の推定を行った結果である．人物の各

Fig. 8. 3D reconstruction with voxel using multiple silhouette images captured from multi-camera system.

Fig. 9. Result of human area segmentation (the left voxel is person A and the right voxel is person B).

Person A Person B

Fig. 10. Results of human body posture estimation (left: 3D reconstruction with colour voxel, right: estimated skeleton).

(7)

ノードの位置を推定できており，提案手法が実環境で取得したデータに対しても適用できることが確認された．これにより，実際のマルチカメラシステムで得られた動画像に対して提案手法を用いることで，複数人物の姿勢推定が可能であると言える．

4. 結論

本報告では，モーションキャプチャの対象となる領域内に複数人物が存在する状況下において，同時に複数人の姿勢を推定することのできる画像処理式モーションキャプチャを実現することを目的に，多視点シルエット画像からボクセル復元された複数人物の三次元データに対してグラフカットによる人物領域分割を行う手法を導入し，分割した人物毎に人物モデルマッチングによる姿勢推定を適用することで，複数人物に対するマーカフリーなモーションキャプチャを行う手法を検討した．得られた結果は以下の通りである．

1) 複数の人物が含まれた多視点シルエット画像より三次元復元したボクセルデータに対し，各ボクセルの属性を規定するエネルギーと分割境界線の滑らかさのエネルギーで構成されるエネルギー関数の最小化問題をグラフカットにより解くことで三次元ボクセルにおける複数人物の領域分割を行う手法を提案し，仮想シミュレータと3DCGモデルを用いたシミュレーション実験により提案手法の有効性を確認した．

2) 人物モデルマッチングによる姿勢推定の精度を改善する手法として，フレーム間でのノードの移動量とモデルサイズにより現フレームにおけるノード位置の誤検出を除外する推定アルゴリズムを提案し，シミュレーション実験によって提案手法により膝の誤検出を低減させることができることを示した．

3) 実環境におけるマルチカメラシステムで取得した動画像データにより構成した複数人物のシミュレーションデータを対象として姿勢推定実験を行い，

提案手法により複数人物の姿勢が同時に推定可能であることを示した．

参考文献

1) L. Wang, W. Hu and T. Tan, “Recent Devel- opments in Human Motion Analysis”, Pattern Recognition, 36 (3), 585–601 (2003).

2) T. B. Moeslund, A. Hilton and V. Kruger,

“A Survey of Advances in Vision-based Human Motion Capture and Analysis”, Computer Vi- sion and Image Understanding, 104 (2), 90–126 (2006).

3) D. A. Forsyth, O. Arikan, L. Ikemoto, J. O’Brien and D. Ramanan, “Computational Studies of Human Motion: Part 1, Tracking and Motion Synthesis”, Foundations and Trends in Com- puter Graphics and Vision, 1, 77–254 (2006).

4) R. Poppe, “Vision-Based Human Motion Analy- sis: An Overview”,Computer Vision and Image Understanding, 108, 4–18 (2007).

5) T. Saiki, A. Shimada, D. Arita and R. Taniguchi,

“A Vison-based Real-time Motion Capture Sys- tem using Fast Model Fitting”, in Proceedings of 14th Korea-Japan Joint Workshop on Frontiers of Computer, (2008).

6) K. Takahashi, Y. Nagasawa and M. Hashimoto,

“Markerless Human Motion Capture from Voxel Reconstruction with Simple Human Model”, JSME Journal of Advanced Mechanical Design, Systems, and Manufacturing, 2 (6), 985–997 (2008).

7) Y. Sagawa, M. Shimosaka, T. Mori and T. Sato,

“Fast Online Human Pose Estimation via 3D Voxel Data”, in Proceedings of IEEE/RSJ Inter-

(8)

national Conference on Intelligent Robots and Systems, 1034–1040 (2007).

8) 田中秀典, 中澤篤志, 竹村治雄, “ボリュームデータの細線化とグラフマッチングを用いた事例ベース人体姿勢推定”,情報処理学会研究報告CVIM, 51, 131–136 (2006).

9) K. Takahashi and T. Kodama, “Remarks on Simple Motion Capture Using Heuristic Rules and Monte Carlo Filter”, in Proceedings of the 5th International Conference on Image and Graphics, 808–813 (2009).

10) 老田隆,堀純一郎,高橋和彦,橋本雅文, “三次元人体CGモデルを用いた多眼視マーカレスモーションキャプチャ”,日本機械学会論文集, 76 C(772), 3422–3429 (2010).

11) K. S. Huang and M. M. Trived, “3D Shape Context Based Gesture Analysis Integrated with Tracking using Omni Video Array”, in Proceed- ings of IEEE Computer Society International Conference on Computer Vision and Pattern Recognition Workshops, 3, 80 (2005).

12) 江頭裕彬,島田敬士,有田大作,谷口倫一郎, “複数人物を対象としたビジョンベースモーションキャプチャのための人物領域分割”，電子情報通信学会技術研究報告PRMU, 108 (363), 55–60 (2008).

13) J. Y. Guillemaut, J. Kilner and A. Hilton, “Ro- bust Graph-Cut Scene Segmentation and Re- construction for Free-Viewpoint Video of Com- plext Dynamic Scenes”, In Proceedings of Inter- national Conference on Computer Vision, 809–

816 (2009).

14) 石川博, “グラフカット”, 情報処理学会研究報告 CVIM, 158 (26), 193–204 (2007).

15) 下坂正倫, 村崎和彦,森武俊,佐藤知正, “ボクセルベースモーションキャプチャのためのグラフカットに基づく人領域抽出”,第9回システムインテグレーション部門講演会講演論文集, 603–604 (2008).

16) 津田佳行, 延原章平,松山隆司, “連結性を考慮したグラフカットによる多視点画像からの3次元形状復元”,画像の認識・理解シンポジウム講演論文集, 1524–1531 (2009).

17) K. Hashimoto, K. Takahashi and M. Hashimoto,

“Marker-Free Human Body Posture Estimation From Multiple Camera Images”, in Proceedings of the 6th International Conference on Mecha- tronics and Information Technology, CD-ROM- 029, (2011).

18) K. Ueda, K. Takahashi and M. Hashimoto, “Re- marks on Volume Reconstruction-based Marker- less Human Motion Capture”, in Proceedings of the 5th International Conference on Mechatron- ics and Information Technology, 160–161 (2009).

Marker-free Motion Capture for Multiple Persons based on Three-dimensional Human Area Segmentation using Graph Cut