俯瞰カメラと人物視点カメラの連携によるシーンの四次元構造化成果報告大阪大学産業科学研究所満上育久 1

(1)

「俯瞰カメラと人物視点カメラの連携

によるシーンの四次元構造化」

成果報告

大阪大学産業科学研究所

満上育久

1

(2)

背景

• 「今や世界は多種多様なカメラで溢れている！」

• 膨大な数の固定カメラ

– 防犯・犯罪捜査での有効性の認知 – デジタルサイネージ等，マーケティング解析への利用可能性

• ウェアラブルカメラの出現・普及

– 新たな映像コンテンツ（GoPro, SONYアクションカム等） – 日常生活をサポートする新たな情報デバイス（Google Glass）

Google Glass GoPro SONYアクションカム

(3)

俯瞰・人間視点映像の処理

• 俯瞰（客観視点）映像

• 人物視点（主観視点）映像

人物検出・追跡ジェスチャー認識人間関係の推定周囲の三次元形状復元手元物体認識行動認識注意対象の推定

映像の特性が大きく異なるため，

これら映像処理は別々の研究として実施されている

3

(4)

目的

• 研究目的：

俯瞰映像

(Global)と人物視点映像(Local)を

密に連携させたシーン理解

• 共同研究者：

– 西野恒（ドレクセル大学教授） • 大阪大学国際共同研究促進プログラム (2015-2017) – 八木康史（大阪大学理事・副学長） • JST-CREST (2010-2016) 4

(5)

研究項目

1. 複数台のKinectを用いたシーンの四次元構造復元

2. 俯瞰映像と人物視点映像を用いたシーンの

三次元復元精度の向上

3. 俯瞰映像に対する人物位置アノテーションツールの開発

4. 注視ヒートマップ可視化による購買客と万引き犯の

注視行動の違いに関する解析

5. 人物視点映像によるアイトラッカーレス注視推定

5

(6)

複数台の

Kinectを用いたシーンの四次元構造復元

(7)

俯瞰センサ群によるシーンの四次元構造化

複数のセンシングデータ 3D形状＋時間変化 © Microsoft http://www.xbox.com/en-US/Xbox360/ • カラー画像＋奥行き画像 • 手頃な価格 Color image Depth map Integrated image

Microsoft Kinect

7

(8)

Kinect

12670

7200

複数台

Kinectによるシーンの四次元構造化

(9)

Kinect A Kinect B

Kinectの非同期撮影によって

動的シーンで形状にずれが発生

複数台

Kinectデータを統合する際の難しさ

9

(10)

Kinect1

Time

Kinect2

非同期

Kinect群の擬似同期

(11)

i-th fr a m e i+1 -t h fr a m e

Point cloud Clustering

Earth mover’s

distance flow _Interpolated

Point cloud

P

oi

nt

C

loud T

rans

por

t

Kinect1 Time Kinect2

非同期

Kinect群の擬似同期

11

(12)

動的シーンの復元結果（足踏み）

カラー画像

従来手法

提案手法

実験結果

(13)

実環境に設置した俯瞰カメラ・人物視点カメラ群による

人物行動解析

注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析人物視点映像によるアイトラッカーレス注視推定 13

(14)

購買客

万引き犯

「目は口ほどにものを言う」

(15)

データ収集実験の実施

– 場所： • 大阪大学吹田キャンパス工学部生協ショップ内 – 日時： • 平成26年9月20日（土）９：３０～１６：３０（撮影） – 実施内容： • 被撮影者は八木研メンバーおよびアルバイト（計140人） • すべての被撮影者からデータ公開に関する同意書を収集 • 各被撮影者には通常の購買行動 or 万引きの指示を与える • 各シーンでは，購買客役と万引き犯役（合計4～5名）が同時に行動

実環境での映像データ収集

15

(16)

出入口（使用しない）レジレジ出入口（使用しない）出入口（屋根付き通路）

環境側のカメラ

実環境での映像データ収集

16

(17)

頭部カメラ

(GoPro)

眼球計測装置

(EMR-9)

胸部カメラ

(GoPro)

実環境での映像データ収集

被験者側のカメラ

17

(18)

注視ヒートマップ可視化による

購買客と万引き犯の注視行動の違いに関する解析

(19)

注視ヒートマップ

1. 三次元環境モデルの構築

2. 環境モデル表面への注視の投票

(20)

三次元環境モデルの構築

• Manhattan-World仮説

– 1st axis: normal vector of a plane which fits to chest camera’s trajectory

– 2nd axis: manually selected – 3rd axis: 1st × 2nd

• 局所平面仮説

– Make inlier histogram along each axis

• 1 peak => 1 plane

– Add some hypotheses manually

• Floor, ceiling, texture-less surface … 2nd

3rd

2nd

3rd

(21)

• Extract Piecewise-Planar Model [Chauve+, CVPR2010]

– Input: bounding box, plane hypotheses, visibility rays

21

(22)

• 復元された環境モデル

22

(23)

23

• Gaze model

– Gaussian centered at point of gaze

• σ = 20 pixel

(24)

注視ヒートマップの可視化と

万引き犯検出の可能性

棚の裏側（ボールペン棚）「阪大グッズ」防犯ミラー購買客への指示：「阪大グッズを買ってきてください」万引き犯への指示：「ボールペンを万引きしてきてください」指定された商品のみ注視指定された商品に加えて_{ミラーや防犯カメラ}_を注視

注視の可視化による行動認識への展開

「ボールペン」防犯ミラー遠くの壁 24

(25)

人物視点映像によるアイトラッカーレス注視推定

(26)

アイトラッカーを使わない注視情報獲得

視線方向 = 頭部方向 [Kojima et al. 2015] 0度 45度 90度 3方向のみの推定 [Nakazawa et al. 2014] 視線頭部

？

26 頭部の見えによる注視方向推定歩容を用いた注視方向推定

(27)

頭部運動と眼球運動

注視点の遷移時

歩行時非歩行時頭部方向 [度] 視線方向 [度 ]

注視点の固定時

D 垂直方向 U L R 水平方向

• [Yu Fang et al. 2015] • [Okada et al. 2013] • [前迫 et al. 1993] 眼球視線頭部 27

(28)

推定手法

• 胸部、

頭部

、

視線

方向の取得

• 頭部

方向と

視線

方向の関係のモデル化

視線推定モデル既知視線方向推定視線方向既知未知頭部方向胸部方向既知 28

(29)

Structure from Motion (SfM)

による方向情報の算出

http://www.cs.cornell.edu/~snavely/bundler / 胸部方向頭部方向視線方向 29

(30)

視線推定モデル

𝐹𝐹 = 𝑚𝑚𝑚

′′

𝑡𝑡 = 𝑘𝑘{𝑔𝑔 𝑡𝑡 − 𝑚 𝑡𝑡 − 𝑙𝑙} − λ𝑚′(𝑡𝑡)

𝑔𝑔 𝑡𝑡 = 𝑎𝑎𝑚 𝑡𝑡 + 𝑏𝑏𝑚

′

𝑡𝑡 + 𝑐𝑐𝑚

′′

𝑡𝑡 + 𝑑𝑑

𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺 𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑 𝑙𝑙 + Δx 𝑙𝑙 粘性抵抗_{: λ𝑋𝑋′(𝑡𝑡)} 𝐹𝐹 𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑 𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺 𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑 𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺 𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑:頭部角度 𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺:視線角度

𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺

𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑

30

眼球視線頭部 30

(31)

推定結果

水平方向

実測値推定視線方向頭部方向

(32)

モデルの妥当性評価

0 100 200 300 400 500 600 -40 -35 -30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30 35 40 頭部方向との差 0 100 200 300 400 500 600 -40 -35 -30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30 35 40 推定視線方向との差頻度 [度] [度] 頻度 実際の視線方向との誤差ヒストグラム（4シーン） 頭部方向推定視線方向誤差平均 [度] 11.6 7.9 32

(33)

注視推定性能評価

被験者学習テスト頭部方向との差推定視線方向との差

A

シーン

1 シーン

2

9.2

7.7 シーン

2 シーン

1

9.7

8.2 B

シーン

3 シーン

4

22.2

16.8 シーン

4 シーン

3

14.9

9.9 C

シーン

5 シーン

6

15.6

10.9 シーン

6 シーン

5

12.9

9.5 すべての被験者において、推定精度が向上

33

(34)

まとめ

34

• まとめ

1. 複数台のKinectを用いたシーンの四次元構造復元 2. 注視ヒートマップ可視化による購買客と万引き犯の注視行動の違いに関する解析 3. 人物視点映像によるアイトラッカーレス注視推定

• 今後の展開

– 俯瞰カメラ映像からの注視・興味の推定 – 注視活動を中心とした人物行動解析 mitsugami@am.sanken.osaka-u.ac.jp 満上 mitsugami

俯瞰カメラと人物視点カメラの連携 によるシーンの四次元構造化 成果報告 大阪大学産業科学研究所 満上育久 1