• 検索結果がありません。

3DCG画像を教師データとしたDeepposeによる人物姿勢推定

N/A
N/A
Protected

Academic year: 2021

シェア "3DCG画像を教師データとしたDeepposeによる人物姿勢推定"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2016-ICS-184 No.5 2016/8/6. 3DCG 画像を教師データとした Deeppose による人物姿勢推定 宮森勇作†1 川村秀憲†1 概要:人物姿勢推定の研究では、多層の畳み込みニューラルネットワークを用いることで最高水準の姿勢推定を実現 している。畳み込みニューラルネットワークの学習には、ラベル付けされた膨大な数のデータセットが必要である。 しかし、現実世界で膨大な数のシチュエーションの人物画像を用意するのは難しい。より多くのシチュエーションの 人物画像と姿勢情報を同時に自動生成する仕組みを作り、生成されたデータセットを教師データとして機械学習を行 うことでより正確な人物姿勢推定が可能であると考えられる。 本研究では、学習に十分な数のデータセットを用意するために、3DCG を用いて人物画像と姿勢情報を自動生成した。 生成したデータセットを教師データとして深層学習を行った。また、現実の人物画像に則した姿勢推定モデルとなる か否かを検証する前段階として 3DCG の人物姿勢の推定を行い、精度検証を行った。 キーワード:人物姿勢推定,3DCG 画像. 1. は じ め に. . 人物姿勢推定の研究では、深層学習と呼ばれる多層の畳 み込みニューラルネットワークを用いることで最高水準の. トワーク構造として AlexNet と ResNet を用いて、学習を行 う。学習に用いるデータセットは 3DCG 画像の自動生成ツ ールを作成することで十分な数を用意する。. 姿勢推定を実現している。人物姿勢推定を目的とした畳み. 3. 3DCG 画 像 デ ー タ セ ッ ト の 自 動 生 成. 込みニューラルネットワークの学習には、人物画像と人物. Deeppose の学習を行うためには人物画像と人物姿勢情. 姿勢情報を組とした膨大な数の教師付きデータが必要なた. 報を組としたデータセットが必要である。本研究では、. め、学習に十分な教師データを用意することは難しい。し. 3DCG を用いてデータセットを自動生成するツールを作成. たがって、多種多様な教師データを自動生成する仕組みを. し、姿勢の異なる 10000 組の教師データを生成した。人物. 作り、生成されたデータセットを教師データとすることで. の 3D モデルには比較的利用しやすい 3D モデルである. 効率的に学習を行うことができ、より正確な人物姿勢推定. UNITY-CHAN を用いた[4]。. が可能になると考えられる。 本稿では、以下のような構成で議論を進める。第 2 章で 深層学習を用いた人物姿勢推定の関連研究を例に挙げる。 第 3 章では 3DCG を用いることで教師データを自動生成す るツールを作成し、学習に必要なデータセットを生成する。 第 4 章では人物姿勢推定の手法である Deeppose を用いて、 第 3 章で生成したデータセットを教師データとして学習を 行い、姿勢推定の結果をまとめる。第5章では今後の課題 と展望についてまとめる。. 2. 関 連 研 究 深 層 学 習 を 用 い た 人 物 姿 勢 推 定 の 研 究 と し て Deeppose[Toshev 2014]がある。Deeppose は深層学習を用い た人物姿勢推定を行った最初の研究であり、姿勢推定タス クを回帰問題としたアプローチをとっている。. 図1 生成したデータセットから無作為に抽出した画像群 また、人物の全身姿勢の推定を目標として画像上の頭や 手足などの全身の関節 16 点の座標を姿勢情報とした。. 深層学習のネットワーク構造として AlexNet[Krizhevsky 2012]と ResNet[He 2015]等がある。これらは ILSVRC と呼 ばれる画像認識のコンペティションにおいてトップクラス の成績を収め、汎用性の高いネットワークであるため多く の研究で利用されている。 本研究では、人物姿勢推定の手法として Deeppose、ネッ †1 北海道大学大学院情報科学研究科 Hokkaido University. ⓒ 2016 Information Processing Society of Japan. 図 2 元画像(左)と生成された姿勢情報を描画した画像(右). 1.

(2) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2016-ICS-184 No.5 2016/8/6. 4. Deeppose に よ る 学 習 3章で生成したデータセット 10000 枚のうち 9000 枚を訓 練データ、1000 枚をテストデータとして、Deeppose の手法 に基づいて学習を行った。学習時のネットワーク構造には AlexNet と ResNet を用いた。また、活性化関数には Adam、 AdaGrad、MomentumSGD を用いた。以下の図 3 は横軸を エポック数、縦軸を誤差として学習の経過をグラフにした ものである。. 図4 教師データの画像群(上)、推定データの画像群(下) 推定結果からわかるように 3DCG 画像を教師データに用 いた学習モデルは推定精度が低い結果となった。. 5. 今 後 の 課 題 と 展 望 本研究では、学習に十分な数のデータセットを用意する 図 3 AlexNet-AdaGrad(左上)・AlexNet-Adam(右上). ために、3DCG を用いて人物画像と姿勢情報を自動生成し た。生成したデータセットを教師データとして多層の畳み. AlexNet-MomentumSGD(左下)・ResNet-AdaGrad(右下). 込みニューラルネットワークの学習を行った。さらに、現. グラフの比較によって、活性化関数に Adam を使った場. 実の人物画像に則した姿勢推定モデルとなるか否かを検証. 合は発散し、それ以外は学習が進んでいることがわかる。. する前段階として 3DCG の人物姿勢の推定を行った。結果. また、活性化関数に AdaGrad を用いた場合、ResNet は. として、推定した姿勢は実際の姿勢と大きく異なった。原. AlexNet に比べて少ないエポック数で学習が進んでいるこ. 因としては、学習に用いた画像の解像度の低さ、3D モデル. とがわかる。. の形状により全身が隠れた状態のデータが複数存在したこ. さらに、学習したモデルを用いて姿勢推定を行った。以. と、データセットのシチュエーションの少なさなどが考え. 下の図4は教師データの画像群と活性化関数に AdaGrad、. られる。. ネットワークに AlexNet を用いて学習したモデルにより姿. 今後は、学習に用いる画像の解像度を大きくすることで. 勢推定を行った画像群である。. 推定精度が向上するか否かを検証する。また、実写に近い 人物モデルを利用して画像を生成し、データセットをより 多くのシチュエーションで生成できるようなツールを作る ことで現実の人物についても正確な姿勢推定を目指す。. 参考文献 [1] Toshev, Alexander, and Christian Szegedy. "Deeppose: Human pose estimation via deep neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014. [2] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012. [3] He, Kaiming, et al. "Deep residual learning for image recognition." arXiv preprint arXiv:1512.03385. 2015. [4]"UNITY-CHAN OFFICIAL WEBSITE". http://unity-chan.com/contents/guideline/.. ⓒ 2016 Information Processing Society of Japan. 2.

(3)

参照

関連したドキュメント

tandem queue effect may be detected by traffic simulation methods, it is necessary to directly observe the two successive (upstream and local) overall sojourn times for a local

In this paper we have investigated the stochastic stability analysis problem for a class of neural networks with both Markovian jump parameters and continuously distributed delays..

Besides, we offer some additional interesting properties on the ω-diffusion equations and the ω-elastic equations on graphs such as the minimum and max- imum property, the

We performed a series of simulations in order to investigate the following problems concerning the interconnection of artificial neurons by CGH: the influence on the behaviour of

3 by two simple examples: we first give another solution of (2) obtained when m = 2, and then a generating function proof of MacMahon’s formula for the number of standard tableaux of

(4S) Package ID Vendor ID and packing list number (K) Transit ID Customer's purchase order number (P) Customer Prod ID Customer Part Number. (1P)

また、同法第 13 条第 2 項の規定に基づく、本計画は、 「北区一般廃棄物処理基本計画 2020」や「北区食育推進計画」、

画像 ノッチ ノッチ間隔 推定値 1 1〜2 約15cm. 1〜2 約15cm 2〜3 約15cm