人間の視覚的注意を予測するモデル～動的ベイジアンネットワークに基づく最新のアプローチ～

(1)

人間の視覚的注意を予測するモデル

～動的ベイジアンネットワークに基づく最新のアプローチ～木村昭悟 (きむらあきさと) 日本電信電話(株) NTTコミュニケーション科学基礎研究所 E-mail: akisato at ieee dot org

(2)

Ready ?

Where would you focus?

(3)

特徴統合理論

_{[Treisman et al. 1980]}

• いくつかの基本的な特徴量（輝度・色など）を抽出し

処理することで、各々 feature map を生成。

• Feature map を統合することで、saliency map（SM）を生成。 • Saliency map内で最も輝度値が大きくなる箇所に

最初に視線が向けられる。

(4)

これをもし計算機上で実現できれば

…

• 与えられた映像のみから

人間が注目しやすい領域を自動的に特定できる。

• 人間と同様に、重要性に応じて視覚情報を

能動的に取捨選択できるシステムの構築が可能に。

(5)

今日お話しすること

• 人間の映像注視行動を高速かつ高精度に模擬する

計算モデルについてのお話

具体的には

…

• Saliency map：視覚的注意の計算モデルの基本

• 視覚的注意の確率モデル

• 拡張モデル：より精緻なモデルへ

• 応用：領域分割、物体検出、物体認識学習

(6)

(7)

Saliency map の計算モデル

• 数多くの研究がなされている

– Itti, Koch & Niebur @ IEEE Trans PAMI 1998:

• 特徴統合理論を源流とする生理学モデル [Koch 1985] の計算モデル実装

– Itti & Baldi @ CVPR2003:

• 各種画像特徴の事前分布と事後分布との相違の検出

– Frintrop @ 2005, Gao & Vasconcelos @ ICCV2007:

• Itti モデル＋トップダウン情報の考慮

– Avraham & Lindenbaum @ IEEE PAMI 2009:

(8)

Saliency map の計算

intensity color orientation motion

Feature extraction & recursive Gaussian convolution

Center-surround differences & normalization

Across-scale summation & normalization

Linear combination Feature maps Conspicuity maps Input image

(9)

Saliency mapモデルの問題点

• 与えられた入力画像について決定論的にSMが計算される。 • SM内で最も輝度値が大きい領域に最初に視線が向く。 → 同じ映像が与えられると、誰がいつその映像を見ても同じ場所に視線が向くことを主張 → 明らかに人間の直感と乖離入力画像

(10)

視線位置が変動する要因

• 「トップダウンな制御」が支配的と考えられていた

– 視聴者の趣味や嗜好：好き/嫌いなものに目が向く、粗探しをする – 映像を見る目的：探し物をしている、車を運転している、時刻が知りたい – 映像文脈、先見的な知識：ジャンル特有の映像の見方、字幕の出る位置

• 計算モデルでもトップダウン情報の導入が進んだ

– Peters & Itti @ CVPR2007

(11)

では、この例ではどうでしょうか？

• 斜め30度に傾いた線を見つけてみて下さい。

• どちらの例が早く見つけられましたか？

– 左の方が簡単でしたね（たぶん）

• でも、ちょっとおかしいと思いませんか？

– 早く見つける＝目的の箇所に早く視線を向ける – 目的は一緒なのに、視線位置が変化する、の？ ↓ これです ↓

(12)

この現象をどう説明するのか？

• 信号検出理論

を用いた解釈が有用

信号検出理論

• 軍事目的の統計理論が発祥

[Peterson 1954] – ノイズの多いレーダー信号を受け取ったときに、どのような基準で敵がいる・いないを判断するか？

• 直後に、心理学での意思決定に転用

[Tanner 1954] – 以降、刺激検出力に関する心理物理学の理論として定着

• 以降、通信理論や信号処理など幅広く利用される

• 視覚探索課題への転用はごく最近

[Eckstein 2000]

(13)

信号検出理論を用いた解釈

• 実際に知覚されるsaliencyは、入力された視覚刺激に対して常に一定ではなく、ガウス分布に従って得られる確率的数量であると仮定。 • 実際に知覚されたsaliencyが最も大きな領域に視線が向く。 Target Distracters

(14)

Stochastic saliency model

Kimura, Pang, Takeuchi, Miyazato, Yamato, Kashino

“A stochastic model of human visual attention with a dynamic Bayesian network,” conditionally accepted to IEEE Trans. PAMI, September 2010.

(15)

確率モデルの概略

Saliency map (SM)

• 映像入力によって人間が受ける視覚刺激の強さを表現

＜従来技術＞

Stochastic saliency map (SSM)

• 信号検出理論 [Eckstein 2000] に基づき、刺激に対する応答をガウス分布でモデル化

Eye movement patterns (EMP)

• 視線移動の戦略を制御する人間の内部状態をモデル化

（動かしたい or 動かしたくない）

• 映像入力とは独立に決定される

Eye-focusing density map

• Bottom-up/Top-down情報を統合することで、視線が向く確率の高い領域を推定

Top-down

(16)

動的ベイジアンネットワークによる表現

Eye-focusing density maps Stochastic saliency maps (deterministic) saliency maps Eye movement patterns Bottom-up Top-down Action Response Stimulus Intention Input video Input Given in advance To be estimated 刺激どんな視覚情報が入ってきたか？応答刺激をどう受け取ったか？行動・視線移動の大きさは意図で決まる・応答が大きい箇所に視線が向く意図視線を動かしたいかどうか？

(17)

確率モデルの処理

Stochastic saliency map (Time = t ) “passive” or “active” Saliency map Input frame

(Time = t ) Eye-focusingdensity map

Eye movement pattern Saliency Saliency Prob. s.t. it takes the highest = 0.55 Prob. s.t. it takes the highest = 0.01 視覚系内部の観測雑音を考慮（信号検出理論）時間連続性 “passive” or “active” Stochastic saliency map (Time = t-1 )

(18)

Saliency map の抽出

• Itti model

[Itti 1998]

を利用

– 特徴統合理論に基づき、映像の各フレームから独立にSMを生成 – 基本特徴量の空間的なコントラストを多重解像度処理によって抽出し統合

• 抽出に用いた基本特徴量

– 輝度 – 補色（赤/緑、青/黄） – 方向（0, π/4, π/2, 3π/4） – 運動（水平、垂直）

intensity color orientation motion

Feature extraction & recursive Gaussian convolution

Center-surround differences & normalization

Across-scale summation & normalization

Linear combination Feature maps Conspicuity maps Input image

(19)

• SMを観測とする

Gaussian状態空間モデル

• SSMの分布（を決める平均・分散）は、

SMを観測とする Kalman filter により解析的に導出可能。

Stochastic saliency map の推定

Stochastic saliency maps (deterministic) saliency maps Response Stimulus 1 2 モデル SSMがガウス分布を介し、SMとして観測される。 SSMの時間方向での連続性を仮定。

(20)

Eye-focusing density map の推定（１）

• 信号検出理論

に基づく確率計算

Eye-focusing density maps Eye movement patterns Action Response Intention Stochastic saliency maps 1 モデル映像中の位置 x(t) において実際に観測された応答（＝SSMの実現値）が、それ以外の位置での応答よりも x(t) に視線が向く。

(21)

信号検出理論に基づく確率計算

1. 右側PDFの1点sを固定 2. 左側PDFからの出力が sよりも小さくなる確率を計算 3. 右側PDFの値sを少しずつ動かしながら 1-2を繰り返す

(22)

Eye-focusing density mapの推定（２）

• EMPを隠れ状態とする

隠れマルコフモデル

(HMM)

Eye-focusing density maps Action Response Intention Stochastic saliency maps 3 3

2 Eye movement patterns

モデル

EMP状態遷移確率視線移動距離に関するPDF

(23)

Eye movement patternとその意味

視線移動距離を小さく抑える

大きな視線移動をある程度許容

(24)

Eye-focusing density mapの推定 (3)

• サンプリングを用いた密度推定

– EMPに依存する部分から

Markov chain Monte Carlo (MCMC) でサンプリング – SFMに依存する部分でサンプルの重みを決定

(25)

サンプルベース密度推定の詳細

• サンプリングを２段階に分割

Sampling from EMP part

Samples at time t-1 Samples at time t

Weighting with SFM part Re-sampling … _… … SFMから決定 _{EMPから決定} MCMCサンプリングにより サンプリング処理量を平準化木構造を用いた繰り返し演算・並列化により高速化

(26)

モデルパラメータの学習

• 映像入力、及び対応する視線位置測定結果を用いて、モデルパラメータを自動的に学習。 EMPモデルパラメータ SSMモデルパラメータ入力映像ＥＭアルゴリズムを用いてモデルパラメータを推定ビタビ学習を用いてモデルパラメータを推定視線位置系列視線測定機器を用いて実際の視線位置を測定 Saliency mapを抽出

(27)

脱線：視線位置測定機器とその仕組み

• 近赤外線を眼球に投射し、その反射像から推定。

• 様々な形態の機器が開発されています。

プルキニエ像（投射近赤外の網膜反射像）瞳孔中心据え置き型ディスプレイ一体型携帯型

(28)

(29)

(30)

(31)

実験条件

• 公開データベース CRCNS eye-1

※１

_を使用

– 映像： 100本、MPEG-1、640x480 pixels、30fps – 視線データ：各映像4～6名分、240fps – ”Original experiments” と称する映像群（５０本）及び対応する視線測定結果を使用

• モデルパラメータの学習： 5-fold cross validation

– 40本をパラメータ学習に、残り１０本を評価に用いる

• 計算機スペック

– CPU: Intel Core2 Quad Q6600 (2.40GHz) – GPU: NVIDIA GeForce 8800GT

(112 cores, 512MB VRAM)

(32)

評価尺度

• Normalized scanpath saliency (NSS)

– ランダムな視線移動に対する有意差を測定する尺度 1. 出力画像のピクセル値を、平均=0、分散=1となるように正規化 2. 各フレームについて、被験者の視線位置での出力画像のピクセル値を抽出。 3. 上記ピクセル値のフレーム平均を取り、NSSを算出。 NSS=1.75 正規化したピクセル値の分布出力画像正規化

(33)

実験結果（１／３）

• 被験者の視線位置との一致性の比較

信号検出理論を用いた視線位置推定により大幅な精度向上 EMPの導入により さらなる精度向上 Saliency map SMをSSMにしても 直接の効果はない

(34)

Extended model

Kimura, Pang, Takeuchi, Yamato, Kashino

“Dynamic Markov random fields for stochastic modeling of visual attention,” Proc. ICPR2008, December 2008.

(35)

• SMを観測とする Gaussian状態空間モデル

• 空間的な関係性を考慮していない！

– Saliencyが高い箇所の周辺もsaliencyが高いはず

Stochastic saliency map の推定

Stochastic saliency maps (deterministic) saliency maps Response Stimulus 1 2 モデル SSMがガウス分布を介し、SMとして観測される。 SSMの時間方向での連続性を仮定。

(36)

空間的な関係性を考慮すると

• 動的マルコフ確率場によるモデル化

– Saliencyの時空間的な関係を統一的に記述 – ナイーブ平均場近似により、初期モデルとほぼ同様のコストで視線位置を推定動的マルコフ確率場 (dynamic MRF) 時間方向のダイナミクスを取り込んだマルコフ確率場 (MRF) の拡張：観測：隠れ状態

(37)

SSM推定処理の概要

• SSMの時間方向での連続性を仮定。

• SSMがガウス分布を介し、SMとして観測される。

• SSMの空間的な連続性も同様に仮定。

Stochastic saliency maps Saliency maps （y の近傍）

(38)

実験結果

• 平均ＮＳＳの比較

– 提案法 with MRF ＞＞ Itti-Koch model （約２倍）

– 提案法 with MRF ＞提案法 without MRF （約１．２倍） 0 0.5 1 1.5 2 2.5 3 3.5 4 A ve ra ge NS S sc o re

(39)

Applications

Akamine, Fukuchi, Kimura, Takagi

“Fully automatic extraction of salient objects in near real-time,” the Computer Journal, November 2010.

福地、宮里、木村、赤嶺、高木、大和

“グラフコストの逐次更新を用いた映像顕著領域の自動抽出,” 電子情報通信学会論文誌 D、2009年8月

(40)

映像領域分割

• 問題設定

– 映像から、興味の対象である領域（物体領域）を、背景などそれ以外の領域（背景領域）と区別して抽出

• 有力な解法：

Graph cuts

– 領域分割の問題をMRFの最尤推定問題として定式化 – このMRF最尤推定問題は MRFと等価なグラフの最小カット問題に置き換えられる

[Greig 1989] [Boykov & Jolly 2001] [Kohli & Torr 2007]

– 最小カット問題を多項式時間で解くアルゴリズムがある

[Ford & Fulkerson 1956] [Boykov & Jolly 2001]

(41)

Graph cutsを用いた領域分割

• Interactive graph cuts

[Boykov & Jolly 2001]

– 手動で与えられたラベル（「物体」 or 「背景」）を用いた graph cutsに基づく静止画像分割の手法

入力画像ラベル

分割結果

（手動ラベリング）画像特徴分布をGMMでモデル化

Features for “obj” Features for “bkg”

グラフ作成およびグラフカット

この部分を何とかしたい！

(42)

顕著性を手がかりとする領域分割

• 「視覚的注意の確率モデル」の出力結果を

手がかりとすれば、自動抽出を実現可能に

入力映像視線位置推定 •人間の視覚特性を模擬する統計モデルを独自に構築 •そのモデルに基づいて、注目しやすい画像中の位置を自動的に推定注目領域抽出 •推定視線位置周辺の画像特徴、及び構成要素の空間的連続性を考慮して、

(43)

自動領域抽出方法の構成

入力フレーム統計モデル構築注目対象の特徴量尤度非注目対象の特徴量尤度注目点推定抽出結果注目領域事前確率特徴量尤度逐次更新ポイント 1 注目点推定の結果から大まかな「もの」の場所を自動的に特定ポイント 2 現在の抽出結果を未来のモデル構築に利用、安定した抽出を実現ポイント 1 ポイント 2 尤度尤度

(44)

注目領域抽出方法の効果

入力映像 1. 先頭フレームのみ 手動でラベル付け＋抽出領域の追跡（[Kohli 2007] 等に対応） 2. 顕著性に基づき 事前確率を自動設定＋領域追跡なし（[Fu 2008] 等に対応） 3. 注目位置に基づき 事前確率を自動設定＋事前確率を逐次更新（提案技術）先頭で構成要素を手動設定しても、一度見失うとそれ以降抽出不能に。「注目しやすさ」だけでは、その確率的な変動により抽出結果が安定しない。提案技術は、上記２つの問題を同時に解決。

(45)

Demonstration

Sekhon、木村、南、坂野、前田

“Action planning for interactive visual scene understanding based on knowledge confidence defined on latent spaces,”

電子情報通信学会 PRMU & IBISML研究会、2010年9月木村、南、坂野、前田、杉山

“対話型映像認識理解のための動的学習戦略に関する試み,”

(46)

人間の発達初期段階を模した物体認識学習

• 映像顕著性に基づく視覚情報フィルタリングにより、

事前知識を仮定せずに重要領域を自動的に抽出

• 抽出された領域に対して蓄積された知識を用いて

自動／手動でアノテーション

入力映像注目位置推定重要領域抽出特徴抽出 – 画像認識 モデル学習視覚特性に基づく処理で人間が目を向けそうな箇所を自動的に推定（その付近に「もの」があるだろうという仮説）「もの」のありそうな箇所から、「もの」らしい領域を自動的に抽出「もの」らしい領域から画像特徴量を抽出、その特徴量と蓄えた知識から「もの」が何であるか？「もの」に関する教示情報と「もの」の画像特徴量とから、それらの関係性を教示情報

(47)

(48)

まとめ



人間の映像注視行動を高速かつ高精度に模擬する

計算モデルについてご紹介しました。

具体的には…



Saliency map



視覚的注意の確率モデル



その応用（領域分割、物体認識学習）

今後の課題は…



より広範囲にわたるトップダウン制御の実現



音響信号に起因する注意の計算モデル

(49)

Acknowledgments （敬称略）



Collaborators

 竹内龍人、大和淳司、柏野邦夫＠ NTT CS Labs.

 高木茂、宮里洸司、福地賢、赤嶺一馬＠沖縄高専

 Derek Pang @ Stanford Univ.  Clement Leung @ Univ. Toronto

 南泰浩、坂野鋭、前田英作、杉山弘晃＠ NTT CS Labs.



Supporters

 Laurent Itti @ Univ. Southern California, USA  Minho Lee @ Kyungpook Univ., South Korea

(50)

Thank you for your kind attention.



Questions / comments ?

Corresponding author Akisato Kimura, Ph.D @ NTT CS Labs.

人間の視覚的注意を予測するモデル ～ 動的ベイジアンネットワークに基づく 最新のアプローチ ～