Applications

Akamine, Fukuchi, Kimura, Takagi

“Fully automatic extraction of salient objects in near real-time,”

the Computer Journal, November 2010.

福地、宮里、木村、赤嶺、高木、大和

“グラフコストの逐次更新を用いた映像顕著領域の自動抽出,”

電子情報通信学会論文誌 D、2009年8月

映像領域分割

• 問題設定

–

映像から、興味の対象である領域（物体領域）を、

背景などそれ以外の領域（背景領域）と区別して抽出

• 有力な解法： Graph cuts

–

領域分割の問題を

MRF

の最尤推定問題として定式化

–

この

MRF

最尤推定問題は

MRF

と等価なグラフの最小カット問題に置き換えられる

[Greig 1989] [Boykov & Jolly 2001] [Kohli & Torr 2007]

–

最小カット問題を多項式時間で解くアルゴリズムがある

[Ford & Fulkerson 1956] [Boykov & Jolly 2001]

– Computer vision

系研究における流行技術の

1

つ

Graph cuts を用いた領域分割

• Interactive graph cuts [Boykov & Jolly 2001]

–

手動で与えられたラベル（「物体」

or

「背景」）を用いた

graph cuts

に基づく静止画像分割の手法

入力画像ラベル

分割結果

（手動ラベリング）画像特徴分布を

GMM

でモデル化

Features for “obj” Features for “bkg”

グラフ作成およびグラフカット

この部分を何とかしたい！

顕著性を手がかりとする領域分割

• 「視覚的注意の確率モデル」の出力結果を手がかりとすれば、自動抽出を実現可能に

入力映像

視線位置推定

•

人間の視覚特性を模擬する統計モデルを独自に構築

•

そのモデルに基づいて、

注目しやすい画像中の位置を自動的に推定

注目領域抽出

•

推定視線位置周辺の画像特徴、及び構成要素の空間的連続性を考慮して、

自動領域抽出方法の構成

入力フレーム

統計モデル構築

注目対象の特徴量尤度非注目対象の特徴量尤度

注目点推定抽出結果

注目領域事前確率

特徴量尤度

逐次更新

ポイント

1

注目点推定の結果から大まかな

「もの」の場所を自動的に特定

ポイント

2

現在の抽出結果を未来のモデル構築に利用、安定した抽出を実現

ポイント

1

ポイント

2

尤度尤度

注目領域抽出方法の効果

入力映像

1.

先頭フレームのみ手動でラベル付け

＋抽出領域の追跡

（

[Kohli 2007]

等に対応）

2.

顕著性に基づき事前確率を自動設定

＋領域追跡なし

（

[Fu 2008]

等に対応）

3.

注目位置に基づき事前確率を自動設定

＋事前確率を逐次更新

（提案技術）

先頭で構成要素を手動設定しても、一度見失うとそれ以降抽出不能に。

「注目しやすさ」だけでは、その確率的な変動により抽出結果が安定しない。

提案技術は、上記２つの問題を同時に解決。

Demonstration

Sekhon

、木村、南、坂野、前田

“Action planning for interactive visual scene understanding based on knowledge confidence defined on latent spaces,”

電子情報通信学会 PRMU & IBISML研究会、2010年9月木村、南、坂野、前田、杉山

“対話型映像認識理解のための動的学習戦略に関する試み,”

（発表予定）電子情報通信学会 PRMU研究会、2010年12月

人間の発達初期段階を模した物体認識学習

• 映像顕著性に基づく視覚情報フィルタリングにより、

事前知識を仮定せずに重要領域を自動的に抽出

• 抽出された領域に対して蓄積された知識を用いて自動／手動でアノテーション

入力映像注目位置推定重要領域抽出

特徴抽出

–

画像認識モデル学習

視覚特性に基づく処理で人間が目を向けそうな箇所を自動的に推定

（その付近に「もの」があるだろうという仮説）

「もの」のありそうな箇所から、「もの」

らしい領域を自動的に抽出

「もの」らしい領域から画像特徴量を抽出、その特徴量と蓄えた知識から

「もの」が何であるか？

「もの」に関する教示情報と「もの」の画像特徴量とから、それらの関係性を

教示情報

デモシステム

まとめ

 人間の映像注視行動を高速かつ高精度に模擬する計算モデルについてご紹介しました。

具体的には…

 Saliency map

 視覚的注意の確率モデル

 その応用（領域分割、物体認識学習）

今後の課題は…

 より広範囲にわたるトップダウン制御の実現

 音響信号に起因する注意の計算モデル

 Multi-modal attention estimation

Acknowledgments （敬称略）

 Collaborators



竹内龍人、大和淳司、柏野邦夫＠

NTT CS Labs.



高木茂、宮里洸司、福地賢、赤嶺一馬＠沖縄高専

 Derek Pang @ Stanford Univ.

 Clement Leung @ Univ. Toronto



南泰浩、坂野鋭、前田英作、杉山弘晃＠

NTT CS Labs.

 Supporters

 Laurent Itti @ Univ. Southern California, USA

 Minho Lee @ Kyungpook Univ., South Korea

ドキュメント内人間の視覚的注意を予測するモデル～動的ベイジアンネットワークに基づく最新のアプローチ～ (ページ 39-50)

Akamine, Fukuchi, Kimura, Takagi

“Fully automatic extraction of salient objects in near real-time,”

the Computer Journal, November 2010.

映像領域分割

• 問題設定

–

• 有力な解法： Graph cuts

–

MRF

–

MRF

MRF

[Greig 1989] [Boykov & Jolly 2001] [Kohli & Torr 2007]

–

[Ford & Fulkerson 1956] [Boykov & Jolly 2001]

– Computer vision

1

Graph cuts を用いた領域分割

• Interactive graph cuts [Boykov & Jolly 2001]

–

or

graph cuts

GMM

顕著性を手がかりとする領域分割

• 「視覚的注意の確率モデル」の出力結果を 手がかりとすれば、自動抽出を実現可能に

•

•

•

自動領域抽出方法の構成

1

2

1

2

注目領域抽出方法の効果

1.

[Kohli 2007]

2.

[Fu 2008]

3.

Demonstration

Sekhon

“Action planning for interactive visual scene understanding based on knowledge confidence defined on latent spaces,”

人間の発達初期段階を模した物体認識学習

• 映像顕著性に基づく視覚情報フィルタリングにより、

事前知識を仮定せずに重要領域を自動的に抽出

• 抽出された領域に対して蓄積された知識を用いて 自動／手動でアノテーション

–

デモシステム

まとめ

 人間の映像注視行動を高速かつ高精度に模擬する 計算モデルについて ご紹介しました。

具体的には…

 Saliency map

 視覚的注意の確率モデル

 その応用（領域分割、物体認識学習）

今後の課題は…

 より広範囲にわたるトップダウン制御の実現

 音響信号に起因する注意の計算モデル

 Multi-modal attention estimation

Acknowledgments （敬称略）

 Collaborators



NTT CS Labs.



 Derek Pang @ Stanford Univ.

 Clement Leung @ Univ. Toronto



NTT CS Labs.

 Supporters

 Laurent Itti @ Univ. Southern California, USA

 Minho Lee @ Kyungpook Univ., South Korea

• 「視覚的注意の確率モデル」の出力結果を手がかりとすれば、自動抽出を実現可能に

• 抽出された領域に対して蓄積された知識を用いて自動／手動でアノテーション

 人間の映像注視行動を高速かつ高精度に模擬する計算モデルについてご紹介しました。