• 検索結果がありません。

Marker-free Motion Capture for Multiple Persons based on Three-dimensional Human Area Segmentation using Graph Cut

N/A
N/A
Protected

Academic year: 2021

シェア "Marker-free Motion Capture for Multiple Persons based on Three-dimensional Human Area Segmentation using Graph Cut"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

Marker-free Motion Capture for Multiple Persons based on Three-dimensional Human Area Segmentation using Graph Cut

Yasutoshi TANIMURA* , Kazuhiko TAKAHASHI** and Masafumi HASHIMOTO***

(Received 03 April, 2013)

Recently, demands of human motion analysis are increasing in various fields. In order to estimate human body postures of multiple persons, this paper investigates the introduction of a graph cut method into a marker-free motion capture system. The latter is composed of human silhouette extraction using background subtraction, back projection of the silhouette image from the 2D plane to 3D space, reconstruction of human body in 3D volume using silhouette volume intersection, and estimation of 3D skeleton information by fitting an articulated cylindrical human model to the reconstructed human body with 3D voxel. Results of computational experiments for estimating human body postures show the feasibility of the proposed method for segmenting, reconstructing and estimating multiple human body postures.

Key words:motion capture, silhouette volume intersection, graph cut, area segmentation, model matching キーワード :モーションキャプチャ,視体積交差,グラフカット, 領域分割,モデルマッチング

グラフカットによる三次元人物領域分割を用いた 複数人物のマーカフリーモーションキャプチャ

谷村 安敏

,

高橋 和彦

,

橋本 雅文

1. 緒 論

人物の姿勢や表情を動的に計測することが可能な モーションキャプチャ技術は,様々な分野での応用が 期待されており,その需要は高まっている1).モーショ ンキャプチャの方式としては様々なものが提案されて いるが,特に画像処理式のモーションキャプチャはセ ンサやマーカを必要としないため,使用者への負担が 少なく,自然な動作情報の獲得が可能であり,更に対 象の表面形状の変化も取得することも可能であること

* Graduate School of Doshisha University, Kyoto (currently at Fujitsu CIT Ltd.)

** Department of Information Systems Design, Doshisha University, Kyoto

Telephone: +81-774-65-6434, Fax: +81-774-65-6801, E-mail: [email protected]

*** Department of Intelligent Information Engineering and Sciences, Doshisha University, Kyoto Telephone: +81-774-65-6410, Fax: +81-774-65-6801, E-mail: [email protected]

から,研究が盛んに行われている2,3, 4).画像処理式 モーションキャプチャにより人物の姿勢推定を行う手 法は,画像特徴から姿勢を計算するアルゴリズムをあ らかじめ設計し,観測した特徴点をもとに計算を行っ て姿勢を推定する計測ベースの手法と,画像特徴と姿 勢の組をデータベースに事前に蓄積しておき,観測し た特徴をデータベースから検索して姿勢を推定する事 例データベースの手法に分けることができる.例えば,

計測ベースの手法では,多視点画像解析より求めた肌

(2)

色部位の三次元位置とシルエットを用いて人体モデル のフィッティングを行う姿勢推定法5, 6),事例データ ベースの手法では,多視点画像から復元した人体の三 次元形状を事例として利用する姿勢推定法7,8)等が 提案されている.従来より提案されている推定法では,

モーションキャプチャの対象領域に存在する人物が単 独の場合に限定されているが,モーションキャプチャ の実用上では,複数の人物を同時にモーションキャプ チャすることが要求されることも多い.これまで筆者 らも画像処理によるマーカフリーなモーションキャプ チャ手法6, 9,10)を提案してきたが,いずれの手法に おいても,モーションキャプチャを行う領域内に単一 の人物が存在する場合のみ当該人物の姿勢推定を行う ことが可能であり,複数の人物が存在している場合に ついて対応することは困難であった.

複数人物の姿勢推定は,田中ら8)が,2名の人物の 3次元形状とその時の姿勢の組み合わせを事例ベース とすることにより2名同時の姿勢推定を実現している が,人物が増加することによって事例が増大するとい う問題がある.Sagawaら7),Huangら11)は,複数人 物の3次元形状を個別に分割し,各人物について個人 を対象とした姿勢推定法を適用することで複数人物の 姿勢推定を行なっているが,三次元形状に対するラベ リングを用いているため,人物が接触している場合に 対応することができない等の問題がある.江頭ら12), Guillemautら13)は,2名の人物を仮定し,ボクセル データによって表現された人物の3次元形状に対して 人物ラベルに基づくエネルギー関数を定義し,このエ ネルギー最小化問題をグラフカット14)により解くこ とによって人物分割を行う手法を検討しているが,複 数人物の姿勢推定に関する評価は行なっていない.

そこで本報告では,多視点画像の視野内に複数人が 存在している場合のモーションキャプチャを実現する 方法として,複数人物の多視点画像からシルエット情 報を抽出し,視体積交差法を用いて仮想空間内に復 元されたボクセルデータをグラフカットによって各人 物毎に分割し,こられに対して人体の三次元モデルを

マッチングすることで同時に複数人物の姿勢推定を行 う手法を提案し,その有効性について検討する.

2. 複数人物の姿勢推定法

2.1 姿勢推定アルゴリズムの概要

多視点画像の視野内に複数の人物が存在している場 合,複数人を対象とした同時のマーカフリーなモーショ ンキャプチャは,以下のステップに従って行われる.

1) 人物画像取得:モーションキャプチャの対象空間 を囲むように配置したカメラで人物を撮影する.

2) 背景差分処理:各カメラにおいて事前に取得した 背景画像と入力画像に対し差分処理により人物の シルエット画像を得る.

3) ボクセル復元:全てのシルエット画像を用いてSpace Carving Methodによる視体積交差を行いボクセ ルデータで人物形状を再構成する.

4) 人物領域分割:ボクセルデータに対してエネルギー 関数を定義し,エネルギー最小化問題をグラフカッ トにより解くことでボクセルデータを人物毎に分 割する.

5) モデルマッチング:人物CGモデルと人物毎のボ クセルデータのマッチングを行い,各人物の関節 及び骨格線情報を得る.

以下,人物領域分割法,モデルマッチングについて説 明する.

2.2 グラフカットによる人物領域の分割

グラフカットは,グラフに定義されたエネルギー関 数を最小切断アルゴリズムによって最小化する手法 であり,近年画像処理の分野で広く利用されている

15,16).ここでは,Fig. 1に示されるような分割の対 象が2つであるボクセルデータに対してグラフカット による領域分割を考える.Fig. 1では,S(source)と T(sink)の2つのターミナルがt-linkによるエッジ で各ノード(ボクセル)と接続されており,各ノード 間もn-linkによるエッジで接続されている.このS

(3)

t-link n-link

s

t

Fig. 1. Schematic of graph cut for 3D voxel data.

Tへと流れるフローを切断するエッジの値が最小と なる部分で分割することにより,各ノードがS,Tの いずれかに属するかを判別することができる.フレー ム時刻pの多視点画像から抽出したシルエット情報に より復元された人物領域を示すボクセルの集合をV, ボクセル対を(u, v),V に含まれるボクセルの中で連 結しているボクセル対の集合をN,ボクセルのラベル をX = (X1, X2,· · ·, XM)とする.このとき,次式の エネルギー関数EV(X)を定義する.

EV(X) =k

vV

gV(Xv) +

(u,v)∈N

hV(Xu, Xv) (1)

ここで,gV(Xv)はボクセルvが人物Aもしくは人物 Bの可能性(n-linkのコスト)を表し,その和である 第一項はデータ項と呼ばる.hV(Xu, Xv)は隣接して いるノードとの6方向の連結強度(t-linkのコスト)を 示しており,その和である第二項は平滑化項と呼ばれ る.kは比例係数である.t-linkのコストは,Xu=Xv

のとき1,Xu =Xvのとき0であり,n-linkのコス トは,Xv =iのときgiV(x)(i=A, B),Xv∈/ A, B のとき0に設定する.giV(x)は,(p1)時刻の人物A と人物Bの人物領域のボクセルの重心Gi(i=A, B)

を用いて,以下のように設定する.

giV(x) =

x(p)∈V

Gi(p1)x(p)2 (2)

関数EV(X)を最小とするようなX をグラフカット により求め,カット後に描くターミナルと繋がってる ノードを人物Aもしくは人物Bとすることで人物の分 割処理が可能となる.S,Tについての切断のうち,コ ストが最小のものを見つける問題は最小切断問題と呼

ばれ,最大流問題の線形計画法における双対にあたり,

最大流最小切断定理により最小切断は最大流と一致す る.最大流問題を多項式時間で解く方法としてエッジ の重みが全て非負である場合にはAugmenting path アルゴリズムやPush relabelアルゴリズム等,多くの アルゴリズムが存在している.

提案する人物領域分割処理では,式(2)に示すよう に,一時刻前のフレームの各人物の重心と現フレーム のボクセルデータをt-linkのエッジのコストとして使 用している.従って,初期フレームではグラフカット における評価関数を設定することができないため,提 案手法による人物領域分割処理は,2フレーム目以降 においてのみ可能となる.そのため,初期フレームに おいては人物が離れていると仮定し,三次元ラベリン グ処理を用いて初期値の設定を行うものとする.

二人よりも多く人物が存在する場合の分割処理は,

二人の場合の人物領域分割処理を拡張することで容易 に行うことができる.例として,三人の人物が多視点 画像の領域内に存在する場合の人物領域分割処理の手 順を示す.始めに,三次元復元したボクセルに対して 三次元ラベリング処理を行うことにより連続領域のボ クセルを検出し,各連続領域のボクセル数と連続領域 数を求める.連続領域数が3つ検出された場合,三人 が全員接触していないと判定されるため,ラベリング によって算出された各連続領域を人物A,人物B,人 物Cとする.連続領域数が2つ検出された場合,三人 のうち二人が接触していると判定され,ボクセル数が 少ない連続領域が接触していない人物であると判定さ れる.ボクセル数が多い連続領域は人物が接触してい るため,グラフカットによる人物領域分割処理を行う ことで人物毎に分割する.連続領域数が1つ検出され た場合は,三人全員が接触していると判定されるため,

グラフカットによる人物領域分割処理により,二人の 人物が存在する領域と一人の人物が存在する領域に分 割し,更に二人の人物が存在する領域をグラフカット による人物領域分割処理を行って人物を分割する.

(4)

2.3 多関節人物モデルマッチングによる姿勢推定 人物姿勢の推定は,先行研究6)で提案された人物 多関節モデルマッチングを基礎としており,三次元復 元された人物のボクセルデータに対して人物を円柱 で近似した多関節人物モデルとのマッチング処理を行 い,体の部位と各部位の接続関係をグラフ構造で表 した骨格線を取得するものである.多関節人物モデ ルは10個の円柱Ci(i = body, head, upperArm1, upperArm2, lowerArm1, lowerArm2, upperLeg1, upperLeg2, lowerLeg1, lowerLeg2)からなり,接続 されている円柱どうしはそれぞれ,底面の中心ある いは底面の円周上の点で接続されている.骨格線モ デルは15 個の関節ノードPi(i = Head, N eck, Shoulder1, Shoulder2, Elbow1, Elbow2, Hand1, Hand2, W aistc, W aist1, W aist2, Knee1, Knee2, T oe1,T oe2)と14本のエッジ(関節ノードを接続す る線分)からなり,各関節ノードは多関節人物モデル における円柱どうしの接続点と一致する.各部のマッ チング処理によって得られた多関節人物モデルにおい て,各関節ノードを各部位の接続関係に基づいてエッ ジにより接続することで骨格線モデルを求めることが でき,得られた骨格線モデルが姿勢推定結果となる.

モデルマッチングは,始めに入力画像の肌色領域を 抽出し,復元対象となる三次元空間内のボクセル領 域上へ逆投影することで,頭,手の三次元位置を推定 する.次に,頭の位置を基準として胴体に相当する円 柱のマッチングを行い,肩,腰の三次元位置を推定す る.更に,手の位置と肩の位置を基準として腕に相当 する円柱のマッチングを行い,肘の三次元位置を推定 する.最後に,靴の色によって足の領域を抽出するこ とによって得られた足の位置と腰の位置を基準として 太股,脹脛に相当する円柱のマッチングを行い,膝の 三次元位置を推定をする.

しかしながら,従来の推定手法を用いて,円柱モデ ルによるマッチングを行った場合,特に脚を閉じた状 態などのように両足の膝の位置が接近している場合に,

左右の膝関節を逆にマッチングする誤検出が頻出する

ことがあった.そこで,このような誤検出を減らすた め,一時刻前のフレームと現フレームでは膝の位置が 大きく離れていないと仮定し,円柱マッチングを行っ て決定した膝の位置において以下の式を満たすものは 膝の候補から除外する.

LW ideLegPKneeiPbef oreKneei (3) ここで,Pbef oreKneei(i= 1,2)は一時刻前のフレー ムの膝の位置,LW ideLegはマッチングに用いる円柱 モデルの直径である.

3. シミュレーション実験

提案する姿勢推定手法の評価を行うため,Direct X を使用した仮想カメラによる視体積交差法シミュレー タ17)を用いてシミュレーション実験を行った.本実験 では,3Dキャラクタ作成ソフトウェアPoser(Smith-

Micro社)によって作成した複数の人物の3DCGモ

デルを用いて,歩行,握手等の動作を行う三次元アニ メーションを作成し,これをモーションキャプチャに おける撮影対象とした.

3.1 人物領域分割処理の評価

3名の人物モデル(人物ラベルをA,B,Cとする)

が離れた状態から接近し,全員の手先が接触する動画 を対象としてグラフカットによる人物の領域分割法の シミュレーション実験を行った.仮想カメラは12台,

仮想空間内での三次元復元におけるボクセル解像度は 100×100×100である.Fig. 2は全員の手先が接触 した状態における人物モデルの3Dデータ,Fig. 3は 三次元復元されたボクセルデータに対してグラフカッ トにより人物領域分割処理を行った結果を示したもの である(Aは左,Bは右,Cは中央のボクセルにより 表示されている).提案手法により,人物が接触して いる場合でも正確に領域分割が行われていることが確 認できる.

3.2 複数人物の姿勢推定

2名の人物モデル(人物ラベルをA,Bとする)が 離れた状態よりお互い対向して歩いて接近し,すれ違

(5)

Fig. 2. 3D CG model of three persons.

Fig. 3. Result of human area segmentation with voxel reconstruction (the left voxel is person A, the right voxel is person B and the center voxel is person C).

いにおいて手先が接触,その後離れていく動画を対象 として人物の姿勢推定に関するシミュレーション実験 を行った.仮想カメラは8台,仮想空間内での三次元 復元におけるボクセル解像度は100×100×100であ る.Fig. 4は,すれ違い時に人物どうしの手が接触し ている人物モデルの3Dデータ,Fig. 5はグラフカット による人物の領域分割を行った結果である(Aは前方,

Bは後方のボクセルにより表示されている).Figs. 6,

7は,Fig. 5の各人物のボクセルデータに対して従来 の姿勢推定法によって骨格線の推定を行った結果と,

Fig. 4. 3D CG model of two persons.

Fig. 5. Result of human area segmentation with voxel reconstruction (the front voxel is person A and the rear voxel is person B).

提案する脚の推定法を改善したモデルマッチングによ り姿勢推定を行った結果を比較したものである.人物 A,Bいずれにおいても提案手法により膝の推定精度 が改善されており,良好に姿勢推定が行われているこ とがわかる.

3.3 実環境データを用いた複数人物の姿勢推定実験 実環境において取得された動画像データに対する提 案手法の有効性を評価するため,マルチカメラシステ ムにより取得された成人男性の歩行動画18)(画像サ イズ320×240,150フレーム)から足踏み1周期分 のデータ(10フレーム)を使用して2名の人物が接

(6)

Fig. 6. Result of human body posture estima- tion for person A (left: 3D reconstruction with colour voxel, middle: estimated skeleton by conven- tional method, right: estimated skelton by proposed method).

Fig. 7. Result of human body posture estima- tion for person B (left: 3D reconstruction with colour voxel, middle: estimated skeleton by conven- tional method, right: estimated skelton by proposed method).

触するように歩行するデータを作成し,これを対象と して姿勢推定実験を行った.カメラは6台であり,仮 想空間内での三次元復元におけるボクセル解像度は 50×50×50である.Fig. 8は,人物どうしの手が接 触しているシーンのボクセルデータによる三次元復元 結果,Fig. 9はFig. 8に対してグラフカットによる 人物の領域分割を行った結果である.Fig. 10は,Fig.

9の各人物のボクセルデータに対してモデルマッチン グにより骨格線の推定を行った結果である.人物の各

Fig. 8. 3D reconstruction with voxel using multiple silhouette images captured from multi-camera sys- tem.

Fig. 9. Result of human area segmentation (the left voxel is person A and the right voxel is person B).

Person A Person B

Fig. 10. Results of human body posture estimation (left: 3D reconstruction with colour voxel, right: es- timated skeleton).

(7)

ノードの位置を推定できており,提案手法が実環境で 取得したデータに対しても適用できることが確認され た.これにより,実際のマルチカメラシステムで得ら れた動画像に対して提案手法を用いることで,複数人 物の姿勢推定が可能であると言える.

4. 結 論

本報告では,モーションキャプチャの対象となる領 域内に複数人物が存在する状況下において,同時に複 数人の姿勢を推定することのできる画像処理式モー ションキャプチャを実現することを目的に,多視点シ ルエット画像からボクセル復元された複数人物の三次 元データに対してグラフカットによる人物領域分割を 行う手法を導入し,分割した人物毎に人物モデルマッ チングによる姿勢推定を適用することで,複数人物に 対するマーカフリーなモーションキャプチャを行う手 法を検討した.得られた結果は以下の通りである.

1) 複数の人物が含まれた多視点シルエット画像より 三次元復元したボクセルデータに対し,各ボクセ ルの属性を規定するエネルギーと分割境界線の滑 らかさのエネルギーで構成されるエネルギー関数 の最小化問題をグラフカットにより解くことで三 次元ボクセルにおける複数人物の領域分割を行う 手法を提案し,仮想シミュレータと3DCGモデ ルを用いたシミュレーション実験により提案手法 の有効性を確認した.

2) 人物モデルマッチングによる姿勢推定の精度を改 善する手法として,フレーム間でのノードの移動 量とモデルサイズにより現フレームにおけるノー ド位置の誤検出を除外する推定アルゴリズムを提 案し,シミュレーション実験によって提案手法に より膝の誤検出を低減させることができることを 示した.

3) 実環境におけるマルチカメラシステムで取得した動 画像データにより構成した複数人物のシミュレー ションデータを対象として姿勢推定実験を行い,

提案手法により複数人物の姿勢が同時に推定可能 であることを示した.

参 考 文 献

1) L. Wang, W. Hu and T. Tan, “Recent Devel- opments in Human Motion Analysis”, Pattern Recognition, 36 (3), 585–601 (2003).

2) T. B. Moeslund, A. Hilton and V. Kruger,

“A Survey of Advances in Vision-based Human Motion Capture and Analysis”, Computer Vi- sion and Image Understanding, 104 (2), 90–126 (2006).

3) D. A. Forsyth, O. Arikan, L. Ikemoto, J. O’Brien and D. Ramanan, “Computational Studies of Human Motion: Part 1, Tracking and Motion Synthesis”, Foundations and Trends in Com- puter Graphics and Vision, 1, 77–254 (2006).

4) R. Poppe, “Vision-Based Human Motion Analy- sis: An Overview”,Computer Vision and Image Understanding, 108, 4–18 (2007).

5) T. Saiki, A. Shimada, D. Arita and R. Taniguchi,

“A Vison-based Real-time Motion Capture Sys- tem using Fast Model Fitting”, in Proceedings of 14th Korea-Japan Joint Workshop on Frontiers of Computer, (2008).

6) K. Takahashi, Y. Nagasawa and M. Hashimoto,

“Markerless Human Motion Capture from Voxel Reconstruction with Simple Human Model”, JSME Journal of Advanced Mechanical Design, Systems, and Manufacturing, 2 (6), 985–997 (2008).

7) Y. Sagawa, M. Shimosaka, T. Mori and T. Sato,

“Fast Online Human Pose Estimation via 3D Voxel Data”, in Proceedings of IEEE/RSJ Inter-

(8)

national Conference on Intelligent Robots and Systems, 1034–1040 (2007).

8) 田中秀典, 中澤篤志, 竹村治雄, “ボリュームデー タの細線化とグラフマッチングを用いた事例ベー ス人体姿勢推定”,情報処理学会研究報告CVIM, 51, 131–136 (2006).

9) K. Takahashi and T. Kodama, “Remarks on Simple Motion Capture Using Heuristic Rules and Monte Carlo Filter”, in Proceedings of the 5th International Conference on Image and Graphics, 808–813 (2009).

10) 老田隆,堀純一郎,高橋和彦,橋本雅文, “三次元人 体CGモデルを用いた多眼視マーカレスモーショ ンキャプチャ”,日本機械学会論文集, 76 C(772), 3422–3429 (2010).

11) K. S. Huang and M. M. Trived, “3D Shape Context Based Gesture Analysis Integrated with Tracking using Omni Video Array”, in Proceed- ings of IEEE Computer Society International Conference on Computer Vision and Pattern Recognition Workshops, 3, 80 (2005).

12) 江頭裕彬,島田敬士,有田大作,谷口倫一郎, “複数 人物を対象としたビジョンベースモーションキャ プチャのための人物領域分割”,電子情報通信学 会技術研究報告PRMU, 108 (363), 55–60 (2008).

13) J. Y. Guillemaut, J. Kilner and A. Hilton, “Ro- bust Graph-Cut Scene Segmentation and Re- construction for Free-Viewpoint Video of Com- plext Dynamic Scenes”, In Proceedings of Inter- national Conference on Computer Vision, 809–

816 (2009).

14) 石川博, “グラフカット”, 情報処理学会研究報告 CVIM, 158 (26), 193–204 (2007).

15) 下坂 正倫, 村崎 和彦,森 武俊,佐藤 知正, “ボク セルベースモーションキャプチャのためのグラフ カットに基づく人領域抽出”,第9回システムイン テグレーション部門講演会講演論文集, 603–604 (2008).

16) 津田 佳行, 延原 章平,松山 隆司, “連結性を考慮 したグラフカットによる多視点画像からの3次元 形状復元”,画像の認識・理解シンポジウム講演論 文集, 1524–1531 (2009).

17) K. Hashimoto, K. Takahashi and M. Hashimoto,

“Marker-Free Human Body Posture Estimation From Multiple Camera Images”, in Proceedings of the 6th International Conference on Mecha- tronics and Information Technology, CD-ROM- 029, (2011).

18) K. Ueda, K. Takahashi and M. Hashimoto, “Re- marks on Volume Reconstruction-based Marker- less Human Motion Capture”, in Proceedings of the 5th International Conference on Mechatron- ics and Information Technology, 160–161 (2009).

Fig. 1. Schematic of graph cut for 3D voxel data.
Fig. 4. 3D CG model of two persons.
Fig. 8. 3D reconstruction with voxel using multiple silhouette images captured from multi-camera  sys-tem.

参照

関連したドキュメント

4 Case 2: Detection of human by vertical sensors from ceiling Through measurements and approximation of sensor characteristics, finally we got the relationships between

6 HUMAN DETECTION BY TILTED SENSORS FROM CEILING Based on previous studies, this paper presents an approach to detect human 2D position, body orientation and motion by using

A selective, sensitive and rapid method for determining 8-OHdG in human urine was developed using hydrophilic interaction chromatography- tandem mass spectrometry (HILIC-MS/MS)

To investigate the role of the N-glycosylation on the protein folding of UGT1A9, we determined the thermal stability of single mutants of UGT1A9 or Endo H-treated wild-type

ABSTRACT — Effects of the CYP3A4 intron 6 C>T (CYP3A4*22) polymorphism, which has recent- ly been reported to have a critical role in vivo, were investigated by measuring

Effect of Porcine Placental Extract on Collagen Production in Human Skin Fibroblasts In Vitro.. Chikako Yoshikawa 1 , Fumihide Takano 2,3 , Yasuhito Ishigaki 4 , Masahiko Okada 1

Rapid Motion Change Experiment (figure 3, figure 4). The experiment environment of this experiment is as follows. y It is single-unit as for ten times of bending and stretching. y

A possible mechanism involved in the enhanced production of HCMV by dexamethasone is hormone enhancement of virus adsorption or stimulation of cell growth.. It is known that HCMV