• 検索結果がありません。

PowerPoint プレゼンテーション

N/A
N/A
Protected

Academic year: 2021

シェア "PowerPoint プレゼンテーション"

Copied!
71
0
0

読み込み中.... (全文を見る)

全文

(1)

コンテンツを見ないコンテンツ内容理解

- 人間行動から読み解くコンテンツ

木村 昭悟

(きむら あきさと)

NTTコミュニケーション科学基礎研究所

E-mail: [email protected], @_akisato

(2)

自己紹介

http://www.kecl.ntt.co.jp/people/kimura.akisato

(3)

研究ではない活動

Google Glass

とは何か

http://www.brl.ntt.co.jp/people/akisato/googleGlass.html

2

章: すべてを「つなげる」

技術が可能にするオープンプライバシー社会

11章

ニューラルネットワーク

(4)
(5)

研究の興味

Social Media Analysis

Computer Vision

Machine Learning

Cross-Media Mining

For deep understanding of

media and real worlds

Network clustering

Content curation

Factorization

Composite data analysis & mining

Visual attention

News headline generation

Component analysis

Visual time machine

Segmentation

(6)

Distributed forests

今回しないお話

Social Media Analysis

Machine Learning

Network clustering

Content curation

Factorization

Composite data analysis & mining

News headline generation

Component analysis

Visual time machine

Computer Vision

Cross-Media Mining

For deep understanding of

media and real worlds

Visual attention

Segmentation

(7)

今日のお話

Computer Vision

Machine Learning

Factorization

Composite data analysis & mining

Visual attention

News headline generation

Component analysis

Segmentation

Knowledge acquisition

Social Media Analysis

Cross-Media Mining

For deep understanding of

media and real worlds

Network clustering

Content curation

(8)

コンテンツを見ないコンテンツ内容理解

- 人間行動から読み解くコンテンツ

木村 昭悟

(きむら あきさと)

NTTコミュニケーション科学基礎研究所

E-mail: [email protected], @_akisato

(9)
(10)

周辺情報で変容するコンテンツの意味

http://bokete.jp/odai/2184859

https://twitter.com/BarackObama/status/266031293945503744

(11)

コンテンツに基づく内容理解の限界

どんなに言葉を尽くしても説明しきれない画像.

背景知識に大きく左右される,画像が伝える意味.

Borth+ “Large-scale visual sentiment ontology and detectors using adjective noun pairs,” Proc.

ACMMM2013.

(12)

Slaney “Web-scale multimedia analysis: Does content matter?” IEEE Multimedia, 2011.

http://d.hatena.ne.jp/n_hidekey/20120227/1330350268

(13)

Does content matter? - 1

音楽の類似度を測る

Yahoo! Music: 1000曲

ある曲をクエリとして与え,

所定の類似度に基づき

類似曲を

50曲提示.

Ratings:

全ユーザの

ratingを

特徴とするコサイン距離

Content:

当時の

state-of-the-art

(GenreGram)

(14)

Does content matter? - 2

Koren “BellKor solution to the Netflix Grand Prize,” 2009. http://bit.ly/P6wyHW

映画を推薦する

1.8万本,48万ユーザのrating

(99% sparse)

を当てる,

典型的な協調フィルタリングの設定.

(15)

Does content matter? - 3

Mahajan and Slaney “Image annotation with the web graph,” Proc. ACMMM2010.

不適切画像をフィルタリングする

Text : 周辺テキストをLSAでモデル化

Image: Auto-encoder DBN + PCA

Web: リンク関係に基づくグラフ正則化半教師付

学習を行って獲得した特徴量 (

1次元)

(16)

類似する事例 1

SNS上にアップされた

写真に写る人を当てる

それぞれの顔の尤度

2人が友人かどうか

→ 個別認識より高い精度.

(17)

類似する事例 2

同一人物が撮影した画像列の撮影箇所を同定

Where is this?

Too difficult.

Where are those taken?

Probably London.

限られた時間で移動できる

距離には物理的限界がある

→ 時刻差による事前確率

(18)

教訓として何を学ぶべきか

1. 対象コンテンツだけを解析することの危うさ

現代のコンテンツは,大量かつ多様な

メタ情報と共に生成・表示・伝搬・消費される.

コンテンツと共にあるいずれのメタ情報も,

コンテンツと何らかの文脈を持っている.

タスクによっては,コンテンツよりも

メタ情報の方がはるかに有用である.

(19)

教訓として何を学ぶべきか

2. 何を頼りにすれば良いのか

人間の行動に着目しよう

不適切コンテンツは相互リンクされやすい

人間が行動する場の構造に着目しよう

相互リンクを行うと

page rankが上がり,検索で上位に.

物理的制約に着目しよう

限られた時間で移動できる距離には物理的限界がある.

(20)

コンテンツを見ない内容理解のススメ

システムを利用する人間の行動を観察しよう

難しく考える必要はない

人間の行動を解析して付加情報を獲得しよう

コンテンツ間の関連性・類似性・補助情報

獲得した付加情報をコンテンツ解析に使おう

コンテンツを深く解析するための弱い教師情報

Human computationに通ずる考え方

(21)

以降の目次

実際の研究例から,

人間の行動をどのように利用するかを考える.

1. 画像検索でのユーザ行動 を

画像アノテーション

に活かす

2. SNS上での画像伝搬の過程 を

画像の意味の可視化

に活かす

3. 周期的な物理法則や行動 を

高度な画像検索 に活かす

(22)

画像検索でのユーザ行動 を

画像アノテーション

に活かす

(23)

研究の概要

画像検索サーバへのアクセスログのみから,

画像にテキストラベルを付与する.

画像検索サービス

本技術

Web画像

+

テキストタグ

生物多様性,

折り紙

ダッカ,中心街,

喧噪

クワガタ,

珍しい

アクセスログ

時刻,

hash化IP,

ユーザ行動(クエリ,

クリック,ページ遷移),

検索方法,クエリ語句,

クリック画像

URL,

検索ランキング

etc.

ユーザ

木村他

“画像検索でのユーザ行動を利用した大規模画像アノテーション,” 信学論D, 2013年.

(24)

クリックを利用したアノテーション

画像クリック

= 非明示的な適合フィードバック

Hua+ “Clickage: Towards bridging semantic and intent gaps via mining click logs of search engines,” Proc. ACMMM2013.

Wu+ “Search-based relevance association with auxiliary contextual cues,” Proc. ACMMM2013.

(25)

クリックだけでは不十分

クリック以外のユーザ行動にこそ滲み出る

クリックの重要性やユーザの意図を汲み取る.

行動

クエリ

A

画像

α

クリック

クエリ

B

次の結果

画像

β

クリック

画像

γ

クリック

意図

これら3つのクリックの重要性は同じではない.

次の結果

A

の画像

欲しい.

これかな?

今イチだ,

クエリ変える. ないなぁ.

ないなぁ

あー,これだよこれ.

木村他

“画像検索でのユーザ行動を利用した大規模画像アノテーション,” 信学論D, 2013年.

(26)

提案手法のポイント

クリック前後のユーザ行動から特徴量を算出.

木村他

“画像検索でのユーザ行動を利用した大規模画像アノテーション,” 信学論D, 2013年.

ログ

情報

クエリ

クリック

クエリ

次へ

次へ

クリック

次へ

行動

第1クリックの行動特徴ベクトル

第2クリックの行動特徴ベクトル

時刻(深夜・朝・昼・夜の別),滞留時間(秒),検索行動(クエリ投入,ページ遷移,クリック,

類似検索,検索開始,クエリ変更),検索順位,以前・以後の累積クリック数,系列内総クリック数

(27)

選択された素性の傾向

クリック前後のエントリからの素性が有用.

クリック直前の滞在時間が

有用性判定に寄与.

クエリ語句変更は

有用性判定に負のバイアス.

クリック数は少ない方が

有用性判定にはプラス.

木村他

“画像検索でのユーザ行動を利用した大規模画像アノテーション,” 信学論D, 2013年.

(28)

有効性の検証

正解データ: 手動正誤判定した画像・クエリ対

2000組

E@1

(サンプル調査)

E@2

(サンプル調査)

有用画像数

(全数調査)

ベースライン

(全クリック画像を有用とみなす)

11.81

17.47

213万枚

技術主要素の導入

9.64

16.02

169万枚

マイナーチェンジ (クエリ数正規化)

12.07

16.81

213万枚

提案手法

(主要素+正規化)

8.88

15.27

169万枚

木村他

“画像検索でのユーザ行動を利用した大規模画像アノテーション,” 信学論D, 2013年.

(29)

SNS上での画像伝搬の過程 を

画像の意味の可視化

に活かす

(30)

研究の概要

SNSでの画像の伝搬を用いることで,

意味・内容を共有する画像群を検出・可視化.

(31)

Pinterest

スクラップブックに写真・雑誌の切り抜きを張る感覚で

利用できる,画像共有に特化した

SNS.

comScore Inc. “Pinterest ranked #42 among all the web services in Dec 2012 with 30M visitors,”

http://bit.ly/11cxwAX

User page

ユーザが所有する

boardを一覧表示

Wall

フォローしている人が

pinした

(=自分のものとして登録した)

画像を表示するトップページ

Board

ユーザが作成した画像グループ,

数多くの

pinで構成される.

Pin

ユーザが

pinした画像の詳細情報,

画像だけでなく,

board名・説明文・

repin元・repin先・like数なども閲覧可能.

(32)

解析の手がかりを探す

典型的なユーザ行動から利用シーンを考察

仮説: 各

boardが特定のテーマを持っている.

事実: 画像が様々な

boardを伝搬していく.

帰結: 共有画像数が多い

board対は,類似したテーマを持つ.

Kimura+ “Image context discovery from socially curated contents,” Proc. ACMMM2013

(33)

手法の具体的な処理

1. 画像伝搬をグラフ表現として獲得

(34)

手法の具体的な処理

2. 画像伝搬グラフをクラスタリング

同じクラスタに入った

boardは,

画像伝搬を介して数多くの画像を共有している.

つまり,意味・内容が類似している

boardが

クラスタリングによって得られることになる.

(35)

グラフ構造の可視化

(36)

音楽類似性の可視化

(Last.fm)

3,402 user playlists,

66,890 songs.

インディーズ

(真空ホロウ, THE UNIQUE STAR, SUPER

BEAVER, rain drops pianissimo, Lyu:Lyu,

JANGA69, But by Fall, Dirty Old Men,

Lunkhead, UNCHAIN, つばき, sleepy.ab)

インディーズ~メジャー

(ストレイテナー, 椿屋四重奏, 凜と

して時雨

, GRAPEVINE)

ボカロ・シンセ

(初音ミク,植松伸夫)

声優・アニメ

(水樹奈々, 堀江由衣, 田村ゆ

かり

, 中川翔子, きゃりーぱ

みゅぱみゅ

)

70’s-90’s

(イルカ, 斉藤由貴, Princess Princess, ELT,

ZARD, 大黒摩季, )

Perfume

テクノ・シンセポップ

(サカナクション, くるり, フジファブリック,

CAPSULE, Love PHYCHEDELICO, supercar)

海外ロック

(Oasis, Radiohead,

MGMT, Coldplay,

Nirvana, Phoenix)

海外

80’s-90’s

(Red Hot Chili

Peppers, the Rolling

Stones, ABBA, Tears

for Fears, Eagles, Joy

Division, 坂本龍一)

(37)

音楽類似性の可視化

(Last.fm)

14,395 user playlists,

262,632 songs.

Ladies pop

(Lady Gaga, Madonna, Britney

Spears, Amy Winehouse, Mariah

Carey, Beyonce, Regine Spektor)

East Asia

(DIR EN GREY, GACKT, X

JAPAN, Boa, Hikaru Utada)

Rock & Pop

(Boston, Michael Jackson, Depeche Mode)

Indie rock

(MGMT, Passion Pit, Bon Iver,

Radiohead, Animal Collective,

Massive Attach, Neutral Milk

Hotel, Phoenix)

Alternative rock

(Coldplay, Modest Mouse, the Postal

Service, Death Cab for Cutie, Muse,

Yeah Yeah Yeahs, Franz Ferdinand,

Imogen Heap, Oasis, Paramore)

70’s-80’s

(Pink Floyd, David Bowie,

Eagles, the Beatles, the

Rolling Stones, the

Smiths, Jefferson

Airplane, Johnny Cash,

Joy Division, Led Zeppelin,

Simon & Gurfunkel)

Rock & House

(Gorillaz, Evenescence, Daft

Pank, Foo Fighters, Linkin

Park, Nine Inch Nails,

Nirvana, Red Hot Chili

Peppers, the Smashing

Pumpkins)

(38)

結果をコーパスとして利用

ユーザ行動から獲得した画像集合の類似関係を,

画像特徴量学習のためのコーパスとして利用.

New images

as queries

(No network info

required)

Marcos Alvarez+ “Exploiting socially generated side information in dimensionality reduction,”

Proc. IWSAM2013

(39)

Privileged information (PI)

Every sample 𝒙𝒙

𝑖𝑖 𝑖𝑖=1

𝑛𝑛

has an additional vector

𝒗𝒗

𝑖𝑖 𝑖𝑖=1

𝑛𝑛

called

privileged information

.

𝒙𝒙

𝑖𝑖

, 𝒗𝒗

𝑖𝑖

, 𝑦𝑦

𝑖𝑖 𝑖𝑖=1

𝑛𝑛

𝒙𝒙

𝑖𝑖

∈ ℝ

𝑑𝑑

, 𝒗𝒗

𝑖𝑖

∈ ℝ

𝑙𝑙

𝑦𝑦

𝑖𝑖

∈ {1,2, … , 𝑐𝑐}

Shamanska et al. “Learning to

rank using privileged

(40)

Dimensionality reduction with PI

We want to derive an embedding of samples

with the help of privileged information.

Written by person B

Written by person A

𝒙𝒙

𝑖𝑖

, 𝒗𝒗

𝑖𝑖

, 𝑦𝑦

𝑖𝑖 𝑖𝑖=1

𝑛𝑛

𝒛𝒛 = 𝑩𝑩𝒙𝒙

Training data

𝑩𝑩

Embedding matrix

Embedded sample

Note:

Embedded samples are

(41)

Supervised dimensionality reduction

The best embedding is unknown in general.

If every sample has a class label,

the best embedding is the one such that

samples in different classes are well

separated.

Better for

representing

large variances

Better for

representing

(42)

Examples of FDA (cont.)

However, FDA does not work well if samples

(43)

Local Fisher discriminant analysis (LFDA)

Idea: Take the locality of data into account.

1. Nearby samples in the same class are made close.

2. Samples in different classes are made apart.

3. Far-apart samples in the

same class can be ignored.

1.

2.

3.

M. Sugiyama: Dimensionality reduction of

multimodal labeled data by local Fisher

discriminant analysis, JMLR, 8(May), 2007.

(44)

LFDA+

Idea: Borrow the idea of LFDA

1. Samples with similar PI in the same class are

made close.

2. Samples in different classes are made apart.

3. Samples with different PI in the same class are

ignored.

1.

2.

3.

A. Marcos Alvarez, M. Yamada, A. Kimura "Exploiting

socially-generated side information to improve

dimensionality reduction,“ Proc. International

(45)
(46)

Examples of LFDA+

PCA and LFDA fails to

separate classes.

LFDA+ well describes the

distributions of classes.

Classifying images taken

from Pinterest

10 classes (architecture,

animal, cupcake…)

We use boards to which

an image belongs as

privileged information.

(47)

検証結果

Marcos Alvarez+ “Exploiting socially generated side information in dimensionality reduction,”

Proc. IWSAM2013

(48)

周期的な物理法則や行動 を

より高度な画像検索

に活かす

(49)

Visual Time Machine

(50)

Visual Time Machineがもたらすもの

昼間は良さそうだけど,夜はどうなんだろう?

この時期に行くなら夕方以降だと良いですね

あのイベント,すごかったよねー

(51)
(52)
(53)

画像-時間関係獲得への戦略

時間=1次元:従来研究でも同様

非常に複雑な変化

(54)

画像-時間関係獲得への戦略

時間=時刻(昼⇔夜)+日の流れ

照明条件などの傾向がうまく分離される

しかし、本当に2次元上の表現が最適か?

hour

day

(55)

画像-時間関係獲得への戦略

時間=時刻(昼⇔夜)+季節(1年の何日目)

+

年の流れ

hour

day

year

(56)

ベースライン:

撮影時刻が最も近い画像を検索する

Visual Time Machine at

清水寺大舞台

1

月31日

3

月31日

6

月29日

9

月27日

11

月26日

11

月26日午後10時

の清水寺は?

午前6時

午後2時

午後10時

(57)

ベースライン:

撮影時刻が最も近い画像を検索する

Visual Time Machine at

清水寺

1

月31日

3

月31日

6

月29日

9

月27日

11

月26日

6

月26日午後10時

の清水寺は?

近い時刻の画像がない!

午前6時

午後2時

午後10時

(58)

提案手法:

周期を利用して別時刻の画像を再利用

Visual Time Machine at

清水寺

1

月31日

3

月31日

6

月29日

9

月27日

11

月26日

6

月26日午後10時

の清水寺は?

周期的には

の画像だろう

hour

day

year

午前6時

午後2時

午後10時

(59)

周期成分と非周期成分を含む回帰

通常の回帰

周期成分を含む回帰

具体的には:

周期の境界をまたいだ時間ー画像関係を扱いたい

方向統計学の必要性

周期の

ない

変数同士の

対応

周期の

ある

変数との対応

周期的な変数(角度変数)上での確率モデルや統計

環境学(風向き

[SenGupta and Ugwuowo, 2006]

音響学(音源分離

[Sawada et al., 2007]

(60)

時間特徴ベクトルの提案

時刻𝑡𝑡と既知の周期の集合𝒯𝒯 = {𝑇𝑇

1

, … , 𝑇𝑇

𝐶𝐶

}について、

𝜃𝜃

𝑐𝑐

= 2𝜋𝜋

𝑡𝑡 mod 𝑇𝑇

𝑇𝑇

𝐶𝐶

𝐶𝐶

, 1 ≤ 𝑐𝑐 ≤ 𝐶𝐶

のとき、時間特徴𝒕𝒕

𝑛𝑛

𝜽𝜽

は以下のように定義される。

𝒕𝒕

𝑛𝑛

𝜽𝜽

= (

𝑡𝑡

, cos

𝜃𝜃

1

, sin

𝜃𝜃

1

, … , cos 𝑛𝑛

𝜃𝜃

1

, sin 𝑛𝑛

𝜃𝜃

1

,

… , cos

𝜃𝜃

𝐶𝐶

, sin

𝜃𝜃

𝐶𝐶

, … , cos 𝑛𝑛

𝜃𝜃

𝐶𝐶

, sin 𝑛𝑛

𝜃𝜃

𝐶𝐶

)

周期変数をフーリエ級数展開のように多次元で表現

任意の多変量解析手法へ適用可能

(61)

時間特徴量の拡張と周期選択

1.

時間特徴量 𝒕𝒕

𝑛𝑛

(𝜽𝜽) を過完備な周期の集合

𝒯𝒯から計算

2.

周期選択:時間特徴量への係数𝒗𝒗を学習

𝒕𝒕

𝑛𝑛

𝜽𝜽

= (

𝑡𝑡

, cos

𝜃𝜃

1

, sin

𝜃𝜃

1

, … , cos

𝜃𝜃

𝑐𝑐

, sin

𝜃𝜃

𝑐𝑐

, … )

𝒕𝒕

𝑛𝑛

𝜽𝜽

= (

𝑡𝑡

, cos

𝜃𝜃

1

, sin

𝜃𝜃

1

, … , cos

𝜃𝜃

𝑐𝑐

, sin

𝜃𝜃

𝑐𝑐

, … )

𝒗𝒗 =

(1,

0,

0, … ,

1,

1, … )

𝑻𝑻

𝒄𝒄

による周期:選択

𝑻𝑻

𝟏𝟏

による周期:非選択

(62)

時間特徴量の拡張と周期選択

3.

画像特徴𝒙𝒙:高次元(数千次元)

選択された𝒗𝒗

𝒕𝒕

𝑛𝑛

(𝜽𝜽) に最も”関連する”部分空間

係数 𝒖𝒖 を用いて 𝒖𝒖

𝒙𝒙 の形で獲得

関連する”度合を 𝒗𝒗

𝒕𝒕

𝑛𝑛

(𝜽𝜽) と 𝒖𝒖

𝒙𝒙 の共分散とすると

共分散の最大化 =

正則化 Partial Least Square

𝒖𝒖, 𝒗𝒗 = arg max

{cov(𝒖𝒖

𝒙𝒙, 𝒗𝒗

𝒕𝒕

𝑛𝑛

(𝜽𝜽)) + 𝒗𝒗

𝑝𝑝

}

1

日周期に対応する𝒖𝒖

𝒙𝒙=明暗の差

(63)

検出された周期の例

画像側の主成分(横軸方向)

画像の全体的な明るさに

基づいて分布

対応する時間特徴量への係数

24

時間(1日)周期の成分に対して

最もつよく重みづけされた

1

日周期での明暗の変化が画像、時間両方から獲得された

(64)

ベースライン at 京都タワー

0

1時

2時

3時

4時

5時

6時

7

8時

9時

10時

11時

12時

13

14

15時

16時

17時

18時

19時

20

21時

22時

23時

(65)

Visual Time Machine at

京都タワー

0

1時

2時

3時

4時

5時

6時

7

8時

9時

10時

11時

12時

13

14

15時

16時

17時

18時

19時

20

21時

22時

23時

(66)

ベースライン at 清水寺

0

1時

2時

3時

4時

5時

6時

7

8時

9時

10時

11時

12時

13

14

15時

16時

17時

18時

19時

20

21時

22時

23時

(67)

Visual Time Machine at

清水寺

0

1時

2時

3時

4時

5時

6時

7

8時

9時

10時

11時

12時

13

14

15時

16時

17時

18時

19時

20

21時

22時

23時

(68)

Visual Time Machine at

清水寺

0

1時

2時

3時

4時

5時

6時

7

8時

9時

10時

11時

12時

13

14

15時

16時

17時

18時

19時

20

21時

22時

23時

1

年周期の変化

(69)

Visual Time Machine at

清水寺

0

1時

2時

3時

4時

5時

6時

7

8時

9時

10時

11時

12時

13

14

15時

16時

17時

18時

19時

20

21時

22時

23時

昼夜の区別

(70)

発表の終わりに

(71)

Does content matter?

コンテンツそのものを無視するべきではない.

しかし,周辺情報を無視することも得策ではない.

人間が産み出すシグナルに耳を傾ける,それが重要.

Slaney “Web-scale multimedia analysis: Does content matter?” IEEE Multimedia, 2011.

As a content-analysis person, I would never argue that we should ignore the content.

Yet there are many ways to solve a problem.

We shouldn’t overlook the rich metadata that surrounds a multimedia content.

But the real world is not this simple.

Every object comes with a context,

and those who ignore this signal harm science and their chance of success.

Representing and manipulating this extra data is difficult.

Yet, in the end, the signals provided directly by humans tell us more about the content.

We should all be asking ourselves how we can take advantages of human signals to

understand multimedia more effectively.

参照

関連したドキュメント

• 自動溶接を行う場合、「金属アーク溶接等作 業」には、自動溶接機による溶接中に溶接機

●Gartner Magic QuadrantにてクラウドHCM Suiteにおけるリーダーの評価.. Copyright © 2022 Nomura System Corporation Co, Ltd. All Rights Reserved.. Copyright © 2022 Nomura

支援要請入力詳細 13ページ 患者受入入力詳細 14ページ 支援可能スタッフ3.

and Kristjan Vassil (2010) Internet voting in Estonia : a comparative analysis of four elections since 2005 : report for the Council of Europe”Report for the Council of Europe.

2021年1月15日にHa Tay Pharmaceutical Joint Stock Company(

がん化学療法に十分な知識・経験を持つ医師のもとで、本剤の投与が適切と判断さ

日医かかりつけ医機能研修制度 令和 年度応用研修会 「メタボリックシンドロームからフレイルまで」 飯島勝矢 Tamakoshi A ら. Obesity

(Immuno Checkpoint Inhibitor Proper use Support team