「俯瞰カメラと人物視点カメラの連携
によるシーンの四次元構造化」
成果報告
大阪大学 産業科学研究所
満上 育久
1背景
• 「今や世界は多種多様なカメラで溢れている!」
• 膨大な数の固定カメラ
– 防犯・犯罪捜査での有効性の認知 – デジタルサイネージ等,マーケティング解析への利用可能性• ウェアラブルカメラの出現・普及
– 新たな映像コンテンツ(GoPro, SONYアクションカム等) – 日常生活をサポートする新たな情報デバイス(Google Glass)Google Glass GoPro SONYアクションカム
俯瞰・人間視点映像の処理
• 俯瞰(客観視点)映像
• 人物視点(主観視点)映像
人物検出・追跡 ジェスチャー認識 人間関係の推定 周囲の三次元形状復元 手元物体認識 行動認識 注意対象の推定映像の特性が大きく異なるため,
これら映像処理は別々の研究として実施されている
3目的
• 研究目的:
俯瞰映像
(Global)と人物視点映像(Local)を
密に連携させたシーン理解
• 共同研究者:
– 西野 恒 (ドレクセル大学 教授) • 大阪大学国際共同研究促進プログラム (2015-2017) – 八木 康史(大阪大学 理事・副学長) • JST-CREST (2010-2016) 4研究項目
1. 複数台のKinectを用いたシーンの四次元構造復元
2. 俯瞰映像と人物視点映像を用いたシーンの
三次元復元精度の向上
3. 俯瞰映像に対する人物位置アノテーションツールの開発
4. 注視ヒートマップ可視化による購買客と万引き犯の
注視行動の違いに関する解析
5. 人物視点映像によるアイトラッカーレス注視推定
5複数台の
Kinectを用いたシーンの四次元構造復元
俯瞰センサ群によるシーンの四次元構造化
複数の センシングデータ 3D形状 + 時間変化 © Microsoft http://www.xbox.com/en-US/Xbox360/ • カラー画像+奥行き画像 • 手頃な価格 Color image Depth map Integrated imageMicrosoft Kinect
7Kinect
12670
7200
複数台
Kinectによるシーンの四次元構造化
Kinect A Kinect B
Kinectの非同期撮影によって
動的シーンで形状にずれが発生
複数台
Kinectデータを統合する際の難しさ
9Kinect1
Time
Kinect2
非同期
Kinect群の擬似同期
i-th fr a m e i+1 -t h fr a m e
Point cloud Clustering
Earth mover’s
distance flow Interpolated
Point cloud
P
oi
nt
C
loud T
rans
por
t
Kinect1 Time Kinect2非同期
Kinect群の擬似同期
11動的シーンの復元結果(足踏み)
カラー画像
従来手法
提案手法
実験結果
実環境に設置した俯瞰カメラ・人物視点カメラ群による
人物行動解析
注視ヒートマップ可視化による 購買客と万引き犯の注視行動の違いに関する解析 人物視点映像によるアイトラッカーレス注視推定 13購買客
万引き犯
「目は口ほどにものを言う」
データ収集実験の実施
– 場所: • 大阪大学吹田キャンパス 工学部生協ショップ内 – 日時: • 平成26年9月20日(土) 9:30~16:30(撮影) – 実施内容: • 被撮影者は八木研メンバーおよびアルバイト(計140人) • すべての被撮影者からデータ公開に関する同意書を収集 • 各被撮影者には通常の購買行動 or 万引きの指示を与える • 各シーンでは,購買客役と万引き犯役(合計4~5名)が同時に行動実環境での映像データ収集
15出入口(使用しない) レジ レジ 出入口(使用しない) 出入口 (屋根付き通路)
環境側のカメラ
実環境での映像データ収集
16頭部カメラ
(GoPro)
眼球計測装置
(EMR-9)
胸部カメラ
(GoPro)
実環境での映像データ収集
被験者側のカメラ
17注視ヒートマップ可視化による
購買客と万引き犯の注視行動の違いに関する解析
注視ヒートマップ
1. 三次元環境モデルの構築
2. 環境モデル表面への注視の投票
三次元環境モデルの構築
•
Manhattan-World仮説
– 1st axis: normal vector of a plane which fits to chest camera’s trajectory
– 2nd axis: manually selected – 3rd axis: 1st × 2nd
• 局所平面仮説
– Make inlier histogram along each axis
• 1 peak => 1 plane
– Add some hypotheses manually
• Floor, ceiling, texture-less surface … 2nd
3rd
2nd
3rd
•
Extract Piecewise-Planar Model [Chauve+, CVPR2010]
– Input: bounding box, plane hypotheses, visibility rays
21
• 復元された環境モデル
22
23
•
Gaze model
– Gaussian centered at point of gaze
• σ = 20 pixel
注視ヒートマップの可視化と
万引き犯検出の可能性
棚の裏側 (ボールペン棚) 「阪大グッズ」 防犯ミラー 購買客への指示: 「阪大グッズを買ってきてください」 万引き犯への指示: 「ボールペンを万引きしてきてください」 指定された商品のみ注視 指定された商品に加えてミラーや防犯カメラを注視注視の可視化による行動認識への展開
「ボールペン」 防犯ミラー 遠くの壁 24人物視点映像によるアイトラッカーレス注視推定
アイトラッカーを使わない注視情報獲得
視線方向 = 頭部方向 [Kojima et al. 2015] 0度 45度 90度 3方向のみの推定 [Nakazawa et al. 2014] 視線 頭部?
26 頭部の見えによる注視方向推定 歩容を用いた注視方向推定頭部運動と眼球運動
注視点の遷移時
歩行時 非歩行時 頭部方向 [度] 視線 方向 [度 ]注視点の固定時
D 垂直方向 U L R 水平方向• [Yu Fang et al. 2015] • [Okada et al. 2013] • [前迫 et al. 1993] 眼球 視線 頭部 27
推定手法
• 胸部、
頭部
、
視線
方向の取得
•
頭部
方向と
視線
方向の関係のモデル化
視線推定 モデル 既知 視線方向 推定視線方向 既知 未知 頭部方向 胸部方向 既知 28Structure from Motion (SfM)
による方向情報の算出
http://www.cs.cornell.edu/~snavely/bundler / 胸部方向 頭部方向 視線方向 29視線推定モデル
𝐹𝐹 = 𝑚𝑚𝑚
′′𝑡𝑡 = 𝑘𝑘{𝑔𝑔 𝑡𝑡 − 𝑚 𝑡𝑡 − 𝑙𝑙} − λ𝑚′(𝑡𝑡)
𝑔𝑔 𝑡𝑡 = 𝑎𝑎𝑚 𝑡𝑡 + 𝑏𝑏𝑚
′𝑡𝑡 + 𝑐𝑐𝑚
′′𝑡𝑡 + 𝑑𝑑
𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺 𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑 𝑙𝑙 + Δx 𝑙𝑙 粘性抵抗: λ𝑋𝑋′(𝑡𝑡) 𝐹𝐹 𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑 𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺 𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑 𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺 𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑:頭部角度 𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺:視線角度𝐺𝐺𝑎𝑎𝐺𝐺𝐺𝐺
𝐻𝐻𝐺𝐺𝑎𝑎𝑑𝑑
30
眼球 視線 頭部 30推定結果
水平方向
実測値 推定視線方向 頭部方向