• 検索結果がありません。

研究概要

N/A
N/A
Protected

Academic year: 2021

シェア "研究概要"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

研究概要

意味

コンピュータビジョン

機械学習やデータマイニング技術を用いた、マルチメディアデータからの意味情報抽出

生データ

行動認識

食べる 歩く 座る

セマンティック ギャップ

映像検索

ドア

室内、歌っている

食べ物 テーブル

子供 子供

機械学習、データマイニング

00110101001 11101000111

精度改善

(深度センサ)

(ビデオ) (ウェアラブル端末)

(2)

概念に基づく映像検索

テキスト形式で与えられたクエリ(検索要求)に適合する映像を検索する

(手動で付与されたタグは一切使用しない)

クエリ:

誕生日パーティ Web映像

概念:人間が映像から知覚可能な意味内容の総称

1. 概念認識:各概念の出現可能性を表す認識スコアを算出する

Person:

Car:

Building:

Sky:

Food:

Fire:

Outdoors:

Indoors:

Beach:

Walking:

Throwing:

Singing:

0.9 0.0 0.1 0.0 1.0 0.8 0.3 0.9 0.0 0.2 0.1 0.7

シーン 物体

動作

概念:人間が映像から知覚可能な意味内容の総称

1. 概念認識:各概念の出現可能性を表す認識スコアを算出する

2. 検索:クエリに関連する概念に対する認識スコアが高い映像を検索 多くの概念を認識しておけば、あらゆるクエリに対応可能!

Person:

Car:

Building:

Sky:

Food:

Fire:

Outdoors:

Indoors:

Beach:

Walking:

Throwing:

Singing:

0.9 0.0 0.1 0.0 1.0 0.8 0.3 0.9 0.0 0.2 0.1 0.7

シーン 物体

動作

関連概念:

Person Food Fire Indoors Singing etc. クエリ:

誕生日パーティ Web映像

(3)

概念認識手法

学習用 映像

認識

モデル 未知映像 画像特徴 認識結果

GMM SVM

GMM SVM

動き特徴

GMM SVM

音声特徴

概念の見た目の多様性

概念の出現時間・位置の多様性

大量の学習用映像

局所特徴の時空間的に密なサンプリング Carの認識

異なる特徴 を統合

(4)

概念認識精度

TREC Video Retrieval Evaluation (TRECVID):

米国標準技術局(NIST)主催の映像解析・検索に関する国際競争型ワークショップ

Mean inferred Average Precision (MAP)

世界

25

機関(

IBM

、スタンフォード大、

CMU

など)で開発された全

91

手法中、

トップの概念認識精度を達成!

TRECVID 2012で開発された概念認識手法のランキング

- 145,634本のWeb映像に対して15種類の概念を認識

認識対象 概念の例

Airplane_Flying Boat_Ship Instrumental_Musician Landscape Throwing

(5)

検索精度

参加

8

機関中、第

2

位(全

22

手法中第

5

位)の検索精度を達成!

TRECVID 2016アドホック映像検索(manually-assisted)部門で開発された手法のランキング - 335,944本のWeb映像から30種類のクエリに適合する映像を検索

- 各映像の検索スコアは、関連する概念に対する認識スコアの和として計算

Mean inferred Average Precision (MAP)

同一機関で開発された手法

クエリ の例

屋外でギターを

弾いている 何かを飲んでいる

ダイビングスーツを 着て水中にいる

本棚を背に、カメラに 向かって話している

夜間にストリートで群衆 がデモを行っている

(6)

サンプル映像からの概念選択

クエリに対する概念の関連性を表す隠れ状態を用いて映像を分類するモデル

サンプル 映像

0.247 (Moonlight) 0.204 (Nighttime) 0.192 (Entertainment) 0.125 (Event)

0.121 (Singing)

0.097 (Celebrity_Entertainment) 0.093 (Dancing)

0.093 (Instrumental_Musician) 0.057 (Person)

0.056 (Face)

1.665 (Text_On_Artificial_Background) 1.421 (Waterscape_Waterfront) 1.342 (Head_And_Shoulder) 1.316 (Car)

1.208 (Infants) 1.112 (Outdoor)

1.085 (Adult_Male_Human) 1.081 (Daytime_Outdoor) 1.065 (Driver)

1.051 (Human_Young_Adult)

「誕生日パーティ」に対する隠れ状態の例 「スタックした車を脱出させる」に対する隠れ状態の例 サンプル映像を正確に分類

できるように最適化

時間

誕生日パーティ

(7)

人物のグループ(コンボイ)の抽出

多数の人物が映る監視カメラ映像における膨大な情報量

疑わしい行動を自動的、もしくは対話的に検出可能なシステムの必要性

共に動いている歩行者のグループをコンボイとして抽出

1.

各人物の軌跡抽出

2.

軌跡解析によるコンボイ検出

(8)

映像における 3 次元情報の欠如

高精度なコンボイ検出には、人物間の空間的関係性を検証する必要がある

元の

3

次元空間が、

2

次元フレームに写像されている

人間は、

2

次元フレームから容易に

3

次元の空間的関係を認識できる

2

次元フレームの系列である映像から

3

次元軌跡を抽出

3

次元空間における物体位置の推移を表す)

(9)

確率的な 3 次元軌跡抽出

1= (∆𝑥1, ∆1𝑦, ∆𝑧1)

2

次元フレームにおける物体の映り方に対して、最も適切な

3

次元空間における 物体とカメラ位置を推定

隠れ変数 観測変数

2

3

𝑟1 = (𝑟𝑥1, 𝑟𝑦1, 𝑟𝑤1, 𝑟1)

𝑟2 𝑟3

𝑟

2

𝑟

3

𝑟

1

2次元フレーム中の物体領域 3次元空間にお けるカメラ位置 3次元空間における物体位置

2次元フレームに 写像しマッチング

y x z

𝜑 = (𝑥, 𝑦, 𝑧)

1

2

𝜑

3

デモ映像:https://www.youtube.com/watch?v=GgKEOTlUZxw

(10)

コンボイ検出手法

t=0 t=1 t=2 t=3 t=4

p1 p2

p3

p1

p1

p1

p1 p2

p2 p2

p2

p3 p3 p3 p3

p4 p4

p4

p4

p4

1.

密度クラスタリング:互いに近い位置にいる人物のクラスターを抽出

2.

共通部分抽出:前後の時間に抽出されたクラスター間での共通部分を

とって、時間的に一貫性のある人物のグループを特定

(共通部分の短時間の不連続性は許容)

デモ映像:https://www.youtube.com/watch?v=p4zN39u_Waw

(11)

高齢化少子化:高齢者の面倒を見る人手が不足

様々なセンサを用いて、高齢者の行動を認識・監視し、自立生活や健康管理を サポートするシステムを開発

Cognitive Village プロジェクト

“Cognitive Village: Adaptively Learning Technical Support System for Elderly”

ドイツ連邦教育研究省(BMBF

Source: Cathrin Warnke

(12)

異分野交流に基づくシステム開発

ハードウェア

(センサ)

ソフトウェア

(行動認識)

ユーザ

(フィードバック)

社会

(倫理)

ウェブサイト:http://www.cognitive-village.de/

(13)

センサデータからの行動認識

日常生活下でセンサからデータを継続的に収集し、ユーザの行動を認識 高齢者の様々な行動を認識し、自立生活や健康管理をサポート

JINS MEME (JIN CO., LTD.)

インテリジェントグラス

頭と眼の動き

加速度計

角速度計

眼電位(EOG

Microsoft Band (Microsoft Corp.)

スマートウォッチ

手の動きと生理学データ

加速度計

角速度計

心拍数

皮膚コンダクタンス

スマートフォン

身体の動き

加速度計

角速度計

重力計

磁力計

SensFloor

(Future-Shape GmbH)

移動軌跡と歩行

(14)

デモ映像(旧バージョン): https://www.youtube.com/watch?v=sIL08IE_QLE&t=115s デモ映像(新バージョン): https://www.youtube.com/watch?v=hr3i9I5Ga0M&t=213s

プロトタイプ行動認識システム

(加速度計)

(角速度計)

(重力計)

(線形加速度計)

(磁力計)

(加速度計)

(角速度計)

スマートウォッチ

Microsoft Band

(加速度計)

インテリジェントグラス

JINS MEME

歩いている スマートフォン

(Nexus 5X) Bluetooth

Bluetooth

ホームゲート ウェイ(ミニPC

Intel NUC

NUC5i5RYK 立っている

座って いる

センサデータのどういった特徴が認識に有用か分からない

特徴学習:統計的に特徴的な部分系列(コードワード)を抽出し、コードワードの分布を表すベクトルを抽出

参照

関連したドキュメント

研究開発活動  は  ︑企業︵企業に所属する研究所  も  含む︶だけでなく︑各種の専門研究機関や大学  等においても実施 

2 解析手法 2.1 解析手法の概要 本研究で用いる個別要素法は計算負担が大きく,山

 検査に用いた標本は手術直:後に病巣の反対側で噴門

 毛髪の表面像に関しては,法医学的見地から進めら れた研究が多い.本邦においては,鈴木 i1930)が考

「Skydio 2+ TM 」「Skydio X2 TM 」で撮影した映像をリアルタイムに多拠点の遠隔地から確認できる映像伝送サービ

仏像に対する知識は、これまでの学校教育では必

はたらき 本機への電源の供給状態、HDC-RH100-D またはツイストペアケーブル対 応製品との接続確立、映像信号の HDCP

ImproV allows the users to mix multiple videos and to combine multiple video effects on VJing arbitrary by data flow editor. We employ a unified data type, we call, Video Type which