人間の視覚的注意を予測するモデル
~ 動的ベイジアンネットワークに基づく 最新のアプローチ ~ 木村 昭悟 (きむら あきさと) 日本電信電話(株) NTTコミュニケーション科学基礎研究所 E-mail: akisato at ieee dot orgReady ?
Where would you focus?
特徴統合理論
[Treisman et al. 1980]• いくつかの基本的な特徴量(輝度・色など)を抽出し
処理することで、各々 feature map を生成。
• Feature map を統合することで、saliency map(SM) を生成。 • Saliency map内で最も輝度値が大きくなる箇所に
最初に視線が向けられる。
これをもし計算機上で実現できれば
…
• 与えられた映像のみから
人間が注目しやすい領域を自動的に特定できる。
• 人間と同様に、重要性に応じて視覚情報を
能動的に取捨選択できるシステムの構築が可能に。
(菊池・荻野・浅田© 2009 日本ロボット学会誌)(Su and Takahashi © 2010 VISAPP)
今日お話しすること
• 人間の映像注視行動を高速かつ高精度に模擬する
計算モデルについて のお話
具体的には
…
• Saliency map: 視覚的注意の計算モデルの基本
• 視覚的注意の確率モデル
• 拡張モデル: より精緻なモデルへ
• 応用: 領域分割、物体検出、物体認識学習
Saliency map の計算モデル
• 数多くの研究がなされている
– Itti, Koch & Niebur @ IEEE Trans PAMI 1998:
• 特徴統合理論を源流とする生理学モデル [Koch 1985] の計算モデル実装
– Itti & Baldi @ CVPR2003:
• 各種画像特徴の事前分布と事後分布との相違の検出
– Frintrop @ 2005, Gao & Vasconcelos @ ICCV2007:
• Itti モデル + トップダウン情報の考慮
– Avraham & Lindenbaum @ IEEE PAMI 2009:
Saliency map の計算
intensity color orientation motion
Feature extraction & recursive Gaussian convolution
Center-surround differences & normalization
Across-scale summation & normalization
Linear combination Feature maps Conspicuity maps Input image
(Itti and Koch © 2000 Vision Research)
(Itti, Koch and Niebur © 1998 IEEE Trans PAMI)
Saliency mapモデルの問題点
• 与えられた入力画像について決定論的にSMが計算される。 • SM内で最も輝度値が大きい領域に最初に視線が向く。 → 同じ映像が与えられると、誰がいつその映像を 見ても同じ場所に視線が向く ことを主張 → 明らかに人間の直感と乖離 入力画像視線位置が変動する要因
• 「トップダウンな制御」が支配的と考えられていた
– 視聴者の趣味や嗜好: 好き/嫌いなものに目が向く、粗探しをする – 映像を見る目的: 探し物をしている、車を運転している、時刻が知りたい – 映像文脈、先見的な知識: ジャンル特有の映像の見方、字幕の出る位置• 計算モデルでもトップダウン情報の導入が進んだ
– Peters & Itti @ CVPR2007
では、この例ではどうでしょうか?
• 斜め30度に傾いた線を見つけてみて下さい。
• どちらの例が早く見つけられましたか?
– 左の方が簡単でしたね (たぶん)• でも、ちょっとおかしいと思いませんか?
– 早く見つける = 目的の箇所に早く視線を向ける – 目的は一緒なのに、視線位置が変化する、の? ↓ これです ↓この現象をどう説明するのか?
• 信号検出理論
を用いた解釈が有用
信号検出理論
• 軍事目的の統計理論が発祥
[Peterson 1954] – ノイズの多いレーダー信号を受け取ったときに、 どのような基準で敵がいる・いないを判断するか?• 直後に、心理学での意思決定に転用
[Tanner 1954] – 以降、刺激検出力に関する心理物理学の理論として定着• 以降、通信理論や信号処理など幅広く利用される
• 視覚探索課題への転用はごく最近
[Eckstein 2000]信号検出理論を用いた解釈
• 実際に知覚されるsaliencyは、入力された視覚刺激に対して 常に一定ではなく、ガウス分布に従って得られる確率的数量 であると仮定。 • 実際に知覚されたsaliencyが最も大きな領域に視線が向く。 Target DistractersStochastic saliency model
Kimura, Pang, Takeuchi, Miyazato, Yamato, Kashino
“A stochastic model of human visual attention with a dynamic Bayesian network,” conditionally accepted to IEEE Trans. PAMI, September 2010.
確率モデルの概略
Saliency map (SM)
• 映像入力によって人間が受ける 視覚刺激の強さを表現
<従来技術>
Stochastic saliency map (SSM)
• 信号検出理論 [Eckstein 2000] に 基づき、 刺激に対する応答を ガウス分布でモデル化
Eye movement patterns (EMP)
• 視線移動の戦略を制御する 人間の内部状態をモデル化
(動かしたい or 動かしたくない)
• 映像入力とは独立に決定される
Eye-focusing density map
• Bottom-up/Top-down情報を 統合することで、視線が向く 確率の高い領域を推定
Top-down
動的ベイジアンネットワークによる表現
Eye-focusing density maps Stochastic saliency maps (deterministic) saliency maps Eye movement patterns Bottom-up Top-down Action Response Stimulus Intention Input video Input Given in advance To be estimated 刺激 どんな視覚情報が入ってきたか? 応答 刺激をどう受け取ったか? 行動 ・視線移動の大きさは意図で決まる ・応答が大きい箇所に視線が向く 意図 視線を動かしたいかどうか?確率モデルの処理
Stochastic saliency map (Time = t ) “passive” or “active” Saliency map Input frame(Time = t ) Eye-focusingdensity map
Eye movement pattern Saliency Saliency Prob. s.t. it takes the highest = 0.55 Prob. s.t. it takes the highest = 0.01 視覚系内部の 観測雑音を考慮 (信号検出理論) 時間連続性 “passive” or “active” Stochastic saliency map (Time = t-1 )
Saliency map の抽出
• Itti model
[Itti 1998]を利用
– 特徴統合理論に基づき、 映像の各フレームから独立にSMを生成 – 基本特徴量の空間的なコントラストを 多重解像度処理によって抽出し統合
• 抽出に用いた基本特徴量
– 輝度 – 補色 (赤/緑、青/黄) – 方向 (0, π/4, π/2, 3π/4) – 運動 (水平、垂直)intensity color orientation motion
Feature extraction & recursive Gaussian convolution
Center-surround differences & normalization
Across-scale summation & normalization
Linear combination Feature maps Conspicuity maps Input image
• SMを観測とする
Gaussian状態空間モデル
• SSMの分布 (を決める平均・分散) は、
SMを観測とする Kalman filter により解析的に導出可能。
Stochastic saliency map の推定
Stochastic saliency maps (deterministic) saliency maps Response Stimulus 1 2 モデル SSMがガウス分布を介し、SMとして観測される。 SSMの時間方向での連続性を仮定。
Eye-focusing density map の推定 (1)
• 信号検出理論
に基づく確率計算
Eye-focusing density maps Eye movement patterns Action Response Intention Stochastic saliency maps 1 モデル 映像中の位置 x(t) において実際に観測された応答 (=SSMの実現値)が、それ以外の位置での応答よりも x(t) に視線が向く。信号検出理論に基づく確率計算
1. 右側PDFの1点sを固定 2. 左側PDFからの出力が sよりも小さくなる確率を 計算 3. 右側PDFの値sを 少しずつ動かしながら 1-2を繰り返すEye-focusing density mapの推定 (2)
• EMPを隠れ状態とする
隠れマルコフモデル
(HMM)
Eye-focusing density maps Action Response Intention Stochastic saliency maps 3 32 Eye movement patterns
モデル
EMP状態遷移確率 視線移動距離に 関するPDF
Eye movement patternとその意味
視線移動距離 を小さく抑える
大きな視線移動 をある程度許容
Eye-focusing density mapの推定 (3)
• サンプリングを用いた密度推定
– EMPに依存する部分から
Markov chain Monte Carlo (MCMC) でサンプリング – SFMに依存する部分でサンプルの重みを決定
サンプルベース密度推定の詳細
• サンプリングを2段階に分割
Sampling from EMP part
Samples at time t-1 Samples at time t
Weighting with SFM part Re-sampling … … … SFMから決定 EMPから決定 MCMCサンプリングにより サンプリング処理量を平準化 木構造を用いた繰り返し演算・ 並列化により高速化
モデルパラメータの学習
• 映像入力、及び対応する視線位置測定結果を用いて、 モデルパラメータを自動的に学習。 EMPモデルパラメータ SSMモデルパラメータ 入力映像 EMアルゴリズムを用いて モデルパラメータを推定 ビタビ学習を用いて モデルパラメータを推定 視線位置系列 視線測定機器を用いて 実際の視線位置を測定 Saliency mapを抽出脱線: 視線位置測定機器とその仕組み
• 近赤外線を眼球に投射し、その反射像から推定。
• 様々な形態の機器が開発されています。
(Ohno, Mukawa & Yoshikawa © 2002 Proc. ETRA)
プルキニエ像 (投射近赤外の 網膜反射像) 瞳孔中心 据え置き型 ディスプレイ一体型 携帯型
実験条件
• 公開データベース CRCNS eye-1
※1を使用
– 映像: 100本、MPEG-1、640x480 pixels、30fps – 視線データ: 各映像4~6名分、240fps – ”Original experiments” と称する映像群(50本) 及び対応する視線測定結果を使用• モデルパラメータの学習: 5-fold cross validation
– 40本をパラメータ学習に、残り10本を評価に用いる
• 計算機スペック
– CPU: Intel Core2 Quad Q6600 (2.40GHz) – GPU: NVIDIA GeForce 8800GT
(112 cores, 512MB VRAM)
評価尺度
• Normalized scanpath saliency (NSS)
– ランダムな視線移動に対する有意差を測定する尺度 1. 出力画像のピクセル値を、 平均=0、分散=1となるように正規化 2. 各フレームについて、 被験者の視線位置での出力画像のピクセル値を抽出。 3. 上記ピクセル値のフレーム平均を取り、NSSを算出。 NSS=1.75 正規化した ピクセル値の分布 出力画像 正規化
実験結果 (1/3)
• 被験者の視線位置との一致性の比較
信号検出理論を用いた 視線位置推定により 大幅な精度向上 EMPの導入により さらなる精度向上 Saliency map SMをSSMにしても 直接の効果はないExtended model
Kimura, Pang, Takeuchi, Yamato, Kashino
“Dynamic Markov random fields for stochastic modeling of visual attention,” Proc. ICPR2008, December 2008.
• SMを観測とする Gaussian状態空間モデル
• 空間的な関係性を考慮していない!
– Saliencyが高い箇所の周辺もsaliencyが高いはず
Stochastic saliency map の推定
Stochastic saliency maps (deterministic) saliency maps Response Stimulus 1 2 モデル SSMがガウス分布を介し、SMとして観測される。 SSMの時間方向での連続性を仮定。
空間的な関係性を考慮すると
• 動的マルコフ確率場 によるモデル化
– Saliencyの時空間的な関係を統一的に記述 – ナイーブ平均場近似により、 初期モデルとほぼ同様のコストで視線位置を推定 動的マルコフ確率場 (dynamic MRF) 時間方向のダイナミクスを取り込んだ マルコフ確率場 (MRF) の拡張 : 観測 : 隠れ状態SSM推定処理の概要
• SSMの時間方向での連続性を仮定。
• SSMがガウス分布を介し、SMとして観測される。
• SSMの空間的な連続性も同様に仮定。
Stochastic saliency maps Saliency maps (y の近傍)実験結果
• 平均NSSの比較
– 提案法 with MRF >> Itti-Koch model (約2倍)
– 提案法 with MRF > 提案法 without MRF (約1.2倍) 0 0.5 1 1.5 2 2.5 3 3.5 4 A ve ra ge NS S sc o re
Applications
Akamine, Fukuchi, Kimura, Takagi
“Fully automatic extraction of salient objects in near real-time,” the Computer Journal, November 2010.
福地、宮里、木村、赤嶺、高木、大和
“グラフコストの逐次更新を用いた映像顕著領域の自動抽出,” 電子情報通信学会 論文誌 D、2009年8月
映像領域分割
• 問題設定
– 映像から、興味の対象である領域 (物体領域) を、 背景などそれ以外の領域 (背景領域) と区別して抽出• 有力な解法:
Graph cuts
– 領域分割の問題をMRFの最尤推定問題として定式化 – このMRF最尤推定問題は MRFと等価なグラフの最小カット問題に置き換えられる[Greig 1989] [Boykov & Jolly 2001] [Kohli & Torr 2007]
– 最小カット問題を多項式時間で解くアルゴリズムがある
[Ford & Fulkerson 1956] [Boykov & Jolly 2001]
Graph cutsを用いた領域分割
• Interactive graph cuts
[Boykov & Jolly 2001]– 手動で与えられたラベル(「物体」 or 「背景」)を用いた graph cutsに基づく静止画像分割の手法
入力画像 ラベル
分割結果
(手動ラベリング) 画像特徴分布をGMMでモデル化
Features for “obj” Features for “bkg”
グラフ作成および グラフカット
この部分を 何とかしたい!
顕著性を手がかりとする領域分割
• 「視覚的注意の確率モデル」の出力結果を
手がかりとすれば、自動抽出を実現可能に
入力映像 視線位置推定 •人間の視覚特性を模擬する 統計モデルを独自に構築 •そのモデルに基づいて、 注目しやすい画像中の 位置を自動的に推定 注目領域抽出 •推定視線位置周辺の画像 特徴、及び構成要素の 空間的連続性を考慮して、自動領域抽出方法の構成
入力フレーム 統計モデル構築 注目対象の特徴量尤度 非注目対象の特徴量尤度 注目点推定 抽出結果 注目領域 事前確率 特徴量尤度 逐次更新 ポイント 1 注目点推定の結果から大まかな 「もの」の場所を自動的に特定 ポイント 2 現在の抽出結果を未来のモデル 構築に利用、安定した抽出を実現 ポイント 1 ポイント 2 尤度 尤度注目領域抽出方法の効果
入力映像 1. 先頭フレームのみ 手動でラベル付け +抽出領域の追跡 ([Kohli 2007] 等に対応) 2. 顕著性に基づき 事前確率を自動設定 +領域追跡なし ([Fu 2008] 等に対応) 3. 注目位置に基づき 事前確率を自動設定 +事前確率を逐次更新 (提案技術) 先頭で構成要素を手動設定しても、一度見失うとそれ以降抽出不能に。 「注目しやすさ」だけでは、その確率的な変動により抽出結果が安定しない。 提案技術は、上記2つの問題を同時に解決。Demonstration
Sekhon、木村、南、坂野、前田
“Action planning for interactive visual scene understanding based on knowledge confidence defined on latent spaces,”
電子情報通信学会 PRMU & IBISML研究会、2010年9月 木村、南、坂野、前田、杉山
“対話型映像認識理解のための動的学習戦略に関する試み,”
人間の発達初期段階を模した物体認識学習
• 映像顕著性に基づく視覚情報フィルタリングにより、
事前知識を仮定せずに重要領域を自動的に抽出
• 抽出された領域に対して蓄積された知識を用いて
自動/手動でアノテーション
入力映像 注目位置推定 重要領域抽出 特徴抽出 – 画像認識 モデル学習 視覚特性に基づく処理で 人間が目を向けそうな 箇所を自動的に推定 (その付近に「もの」が あるだろうという仮説) 「もの」のありそうな 箇所から、「もの」 らしい領域を自動的 に抽出 「もの」らしい領域から 画像特徴量を抽出、その 特徴量と蓄えた知識から 「もの」が何であるか? 「もの」に関する教示情報 と「もの」の画像特徴量と から、それらの関係性を 教示情報まとめ
人間の映像注視行動を高速かつ高精度に模擬する
計算モデルについて ご紹介しました。
具体的には…
Saliency map
視覚的注意の確率モデル
その応用(領域分割、物体認識学習)
今後の課題は…
より広範囲にわたるトップダウン制御の実現
音響信号に起因する注意の計算モデル
Acknowledgments (敬称略)
Collaborators
竹内龍人、大和淳司、柏野邦夫 @ NTT CS Labs.
高木茂、宮里洸司、福地賢、赤嶺一馬 @ 沖縄高専
Derek Pang @ Stanford Univ. Clement Leung @ Univ. Toronto
南泰浩、坂野鋭、前田英作、杉山弘晃 @ NTT CS Labs.
Supporters
Laurent Itti @ Univ. Southern California, USA Minho Lee @ Kyungpook Univ., South Korea
Thank you for your kind attention.
Questions / comments ?
Corresponding author Akisato Kimura, Ph.D @ NTT CS Labs.