マージン最大化マルチモーダルトピックモデルによるマルチラベル分類

(1)

DEIM Forum 2016 D1-6

マージン最大化マルチモーダルトピックモデルによるマルチラベル分類

坂田洋介

†

江口浩二

†

神戸大学大学院システム情報学研究科情報科学専攻〒 657–8501 兵庫県神戸市灘区六甲台町 1-1

E-mail:

†

††

あらまし

複数の表現によるマルチモーダルデータとして，多言語データやテキストアノテーション付き画像データ

などが挙げられるが，その解析手法の高度化が望まれている．その有望なアプローチの一つに潜在トピックモデルが

挙げられる．本稿では，マルチモーダルデータにおける複数の異なる表現の相互依存性を捉えつつ，マルチモーダル

データに付与されているラベルを予測する潜在トピックモデルを提案する．これはユニモーダルデータを想定した

Gibbs-MedLDA を，マルチモーダルデータに発展させたものである．本稿では，提案モデルの有効性を示すため，日

英二言語対訳文書データ及びアノテーション付き画像データを用いて，データに付与されるラベルを予測する実験を

行う．

キーワード

トピックモデル, マルチモーダルデータ, マルチラベル分類

1. はじめに

近年，インターネットやソーシャルメディアの普及などにより，テキストや画像をはじめとする，世の中に存在する離散データの量が爆発的に増大している．このようなデータの有効な解析手法の一つとして，トピックモデルが挙げられる．トピックモデルは様々な離散データに対して解析がなされ得るが，テキストデータを例に取ると，単語の分布として表現されるトピックの混合分布によって文書を確率的に表現するモデルを指す．トピックモデルを用いることにより，大量の文書集合から話題になっているトピックを自動的に抽出することが可能となる．また，文書に付与されるべきラベル(政治，スポーツ，医療など)が何であるかを予測するトピックモデルとして，

Gibbs-Maximum Entropy Discriminated LDA(MedLDA) [1]がある．これは，代表的なトピックモデルである潜在ディリクレ配分法

(Latent Dirichlet Allocation: LDA) [2]に最大マージン学習を導入することによって拡張したものである．予測ラベルは潜在トピックの関数で表され，この関数によってラベルの分類が可能となる．一方で，多言語比較可能文書データやテキストアノテーション付き画像データなど，複数の離散データで表現されるマルチモーダルデータがある．マルチモーダルデータは，情報量が増大したり，構成が複雑であったりすることから，従来よりも解析が困難であり，より有望な解析手法が望まれている．マルチモーダルデータを扱えるトピックモデルとして，Symmetric Correspondence LDA(SymCorrLDA) [3]がある．このモデルは，主として扱うモードを示す潜在変数を利用することによって，双方のモードの相互依存性をとらえたトピックの生成を可能とする．SymCorrLDAはマルチモーダルデータに対して，モードを横断して共有されるトピックをモデル化することは可能だが，ラベルを予測する機能は備えていない．そこで本稿では，マルチモーダルデータにおける複数の異なる表現の相互依存性を捉えつつ，マルチモーダルデータに付与されるラベルを予測する潜在トピックモデルである，Symmetric Correspondence MedLDA(SCMLDA)を提案する．このモデルは，ユニモーダルデータを想定したMedLDAを，マルチモーダルデータに発展させたものである．本稿では，多言語比較可能データセット及びアノテーション付き画像データセットに対し，付与されたラベルの正解率を評価し，既存のトピックモデルよりも高精度な分類が実現できることを示す．本論文の構成は以下の通りである．第2章では，提案手法に関連したモデルの概要について説明する．第3章では，SCMLDA の概要に加え，モデル構築のためのパラメータ推定方法について述べる．第4章では，SCMLDAによるラベル分類実験及びその結果を示す．最後に，第5章で結論を述べる．

2. α

θ

z

w

φ

β

D

N

_d

K

図 1 LDA のグラフィカルモデル

α

θ

w(p) φ(p) β(p)

D

Nd(p)

K

z(p) Nd(1) z(1) w(1) Nd(L) z(L) w(L) φ(1) β(1) φ(L) β(L) 図 2 CorrLDA のグラフィカルモデル Dir(β)を選択する(k∈ {1, · · · , K})．（3）文書dのNd個の単語wdiに対し(i∈ {1, · · · , Nd}): （a）トピックzdi∼ Mult(θd)を選択する．（b）単語wdi∼ Mult(ϕk)を選択する． 2. 2 CorrLDA Correspondence LDA(CorrLDA) [4]は，多言語比較可能文書データやテキストアノテーション付き画像データなど，複数言語(複数モード)を扱えるLDAの拡張モデルである．このモデルはいずれかの1つのモード側について，基準となるトピックを生成する．選択された側のモードをピボットモードと呼ぶ．他のモードに対しては，ピボットモードで生成されたトピックを利用する．モード数をLとし，ピボットモードをpとする時のグラフィカルモデルを図2に示す．上付き文字(·)はモードのインデクスを示す．CorrLDAにおけるマルチモーダルデータの生成過程を以下に示す．（1） D個の文書のピボットモードpに対してθd∼ Dir(α) を選択する．（2） K 個のトピックと L 個のモードに対してϕ(ℓ)_k ∼ Dir(β(ℓ))を選択する(ℓ∈ {1, · · · , L})．（3）文書dのピボットモードpにおけるN_d(p) 個の単語 w_di(p)に対し: （a）トピックz_di(p)∼ Mult(θd)を選択する．（b）単語w(p)_di ∼ Mult(ϕ(p)_k )を選択する． γ π D K Nd(1) z(1) w(1) φ(1) β(1) φ(L) β(L) x(1) α(1) θ(1) Nd(L) z(L) x(L) w(L) α(L) θ(L) 図 3 SymCorrLDA のグラフィカルモデル（4）文書dのL− 1個の非ピボットモードにおけるNd(q) 個の単語w(q)_di に対し(q∈ {1, · · · , p − 1, p + 1, · · · , L}): （a）トピックz_di(q)∼ Unif(z(p)_d1,· · · , z(p) dN_d(p))を選択する．（b）単語w(q)_di ∼ Mult(ϕ(q)_k )を選択する．ここで，Unifは一様分布を表している． 2. 3 SymCorrLDA CorrLDAの問題点を改善したモデルとして，Symmetric CorrespondenceLDA(SymCorrLDA) [3]がある．CorrLDAではピボットモードを1つに定めてモデル推定を行っていたが， SymCorrLDAでは各単語に対してピボットモードをそれぞれ定めるフラグを潜在変数として表現する．これにより，多項分布を用いてピボットモードの割り当たる確率が調整できるため， 1つのモードに偏ったモデル構築が回避できるようになる．モード数をLとする時のグラフィカルモデルを図3に示す．図3中のπはピボットフラグの生成に関する多項分布パラメータであり，DL次元で表される．γはπに対するハイパーパラメータである．SymCorrLDAにおけるマルチモーダルデータの生成過程を以下に示す（注1）_． 3-cで表記されているz(m)_d は，モードm(m̸= ℓ)におけるトピック集合{z(m) d1 ,· · · , z (m) dN_d(m)}のうち，ピボットモードフラグがmとなるトピックの集合を表している．（1） D個の文書に対し: （a） L個のモードに対してθ(ℓ)d ∼ Dir(α (ℓ) )を選択する．（b） πd∼ Dir(γ)を選択する．（2） K個のトピック及びL個のモードに対してϕ(ℓ)_k ∼ Dir(β(ℓ))を選択する．（3）文書dのモードℓにおけるN_d(ℓ)個の単語w(ℓ)_di に対し: （a）ピボットモードフラグx(ℓ)_di ∼ Mult(πd)を選択する．（b） (x(ℓ)_di = ℓ)の場合，トピックz_di(ℓ)∼ Mult(θ(ℓ)_d )を選択する．（c） (x(ℓ)_di = m)の場合，トピックz(ℓ)_di ∼ Unif(z(m)_d )を選択する．（注1）：福増らの論文 [3] では，ピボットモードフラグが自身のモードと異なる 場合，それを明確に区別するために，トピック z ではなく y を定義している．本 論文では，グラフィカルモデルの複雑さを回避するため，トピック割り当てで使 用する変数を z に統一する．

(3)

α

θ

z

w

φ

β

D

N

_d

K

r

η

図 4 MedLDA のグラフィカルモデル（d）単語w(ℓ)_di ∼ Mult(ϕ(ℓ)_k )を選択する． 2. 4 MedLDA

Maximum Entropy Discriminated LDA(MedLDA) [1]は，マージン最大化法と呼ばれる教師ありの枠組みにおいて，潜在トピックを特徴として用いつつ，その潜在トピックを推定するモデルである．MedLDAのグラフィカルモデルを図4に示す．図4中のrは文書に付与されたラベルである．また，ηはラベル評価時の各トピックに対する重み係数であり，値が大きいほど，対応したトピックが対象のラベルに関わっていることを表している．MedLDAにおける文書の生成過程を以下に示す．（1） D個の文書に対してθd∼ Dir(α)を選択する．（2） K個のトピックに対してϕk∼ Dir(β)を選択する．（3）文書dのNd個の単語wdiに対し: （a）トピックzdi∼ Mult(θd)を選択する．（b）単語wdi∼ Mult(ϕk)を選択する．（4） D個の文書に対してラベルrd∼ F (zd, η)を選択する (rd∈ {1 . . . R})．関数Fはラベル評価関数で，各文書に付与されたラベルの尤度を定義している．この関数は各文書のトピック分布に依存している．F の中身は以下のように示される． F (zd, η) = argmax r (ηrT¯zd) (1) ここで，¯zd=_N1 d ∑ ivdiであり，vdiはK次元のベクトルでzdiが示すトピックに対応する成分が1，それ以外の成分が0 となる．ηはRK次元のベクトルであり，_{η1_{. . . η}R_}_である．また，ηrはK次元のベクトルであり，ラベルrに対する各トピックの重み関数である．この値が大きいほど，対象トピックが対象ラベルに密接に関連していることを示している．

3. マルチモーダルデータに対応したラベル分類

トピックモデル

3. 1 SCMLDA 2. 4節でも述べたように，テキストや画像データのラベル分類を行うためにはMedLDAを利用すれば良い．しかし，MedLDA は多モード間の相互依存性を利用したラベル分類ができない．この問題を解決するために，我々はマージン最大化マルチモー

ダルトピックモデル(Symmetric Correspondence MedLDA:

γ π D K Nd(1) z(1) w(1) φ(1) β(1) φ(L) β(L) x(1) α(1) θ(1) Nd(L) z(L) x(L) w(L) α(L) θ(L) r η 図 5 SCMLDA のグラフィカルモデル SCMLDA)を提案する．SCMLDAのグラフィカルモデルを図 5に示す．このモデルは，2. 3節で述べた手法で各モードのトピックを推定し，その各モードのトピックを利用してラベルに関する評価を行う．また，SCMLDAにおけるマルチモーダルデータの生成過程を以下に示す．（1） D個の文書に対し: （a） L個のモードに対してθ(ℓ)_d ∼ Dir(α(ℓ)₎_{を選択する．} （b） πd∼ Dir(γ)を選択する．（2） K個のトピック及びL個のモードに対してϕ(ℓ)_k ∼ Dir(β(ℓ))を選択する．（3）文書dのモードℓにおけるN_d(ℓ)個の単語w(ℓ)_di に対し: （a）ピボットモードフラグx(ℓ)_di ∼ Mult(πd)を選択する．（b） (x(ℓ)_di = ℓ)の場合，トピックz_di(ℓ)∼ Mult(θ(ℓ)_d )を選択する．（c） (x(ℓ)_di = m)の場合，トピックz(ℓ)_di ∼ Unif(z(m)_d )を選択する．（d）単語w(ℓ)_di ∼ Mult(ϕ(ℓ)_k )を選択する．（4） D個の文書に対してラベルrd ∼ F (z (1) d , . . . z (L) d , η) を選択する．但し，2章と同様に，上付き文字(·)はモードのインデクスを示す．SCMLDAでは，SymCorrLDAにおけるマルチモーダルデータの生成過程に加えて，ラベル評価関数であるFによるラベルの予測が追加されている．MedLDAでは1つのモードしか考慮しないため，ラベル評価を行う評価関数Fはzd及び ηのみで評価される．一方，SCMLDAではL個のモードを考慮するため，F は以下のように定義される． F (z(1)_d , . . . , z(L)_d , η) = argmax r (ηrT( L ∑ ℓ=1 ¯ z(ℓ)_d )) (2) 3. 2 周辺化ギブスサンプリングを用いた推定この節では，モデルの推定手法として，制約仮定を置かない単純で効率的な周辺化ギブスサンプリング[5]による推定について述べる．周辺化ギブスサンプリングのアルゴリズムはデータ拡張[6]に基づいており，MedLDAでも使用されている．以下では，MedLDAの周辺化ギブスサンプリングに関する論文[1]

(4)

に従ってSCMLDAの推定手法について述べる．まず，全ての潜在変数と未知のパラメータに関する同時分布を以下に示す． p(η, Θ, Z, Φ, Π, X|W, r) ∝ p0(η, Θ, Φ, Π)p(Z|Θ, X)p(X|Π)p(W|Z, Φ)ψ(r|Z, η) ここで，p0(η, Θ, Φ, Π)はモデルによって定義された事前分布である．また，ψ(r|Z, η)はラベルの疑尤度であり，ψ(r|Z, η) = ∏D d=1 ∏R j=1ψj(rjd|z (1) d ,· · · , z (L) d , η)である．r j dは，文書dにラベルjが付与されている場合は1，それ以外の場合は-1を返す2値変数である．ここからデータ拡張により，ψjを以下の式のように変形する[1], [6]． ψj(rjd|z (1) d , . . . , z (L) d , η) = ∫ _∞ 0 1 √ 2πλj_d exp ( −(λ j d+ cζ j d) 2 2λj_d ) dλj_d ここで，ζ_dj= l− rj_d∑L_ℓ=1ηjT_¯_z(ℓ) d であり，上の式のλが新たに拡張されたデータ拡張変数となる．lは損失パラメータである．r_djに対してλj_dが対応しており，λはRD次元のベクトルとなる．正則化パラメータcが大きければ大きいほど，誤分類を許容した推定となる．これにより，λを含んだ同時分布は以下のようになる． p(η, λ, Z, X|W, r) ∝ p0(η)p(W, Z, X|α, β, γ)ψ(r, λ|Z, η) (3) ここで， ψ(r, λ|Z, η) = R ∏ j=1 D ∏ d=1 1 √ 2πλj_d exp ( −(λj d+ cζ j d) 2 2λj_d ) であり，上式はr及びηの同時確率分布である．ここからは，さらに周辺化を行うことによって，周辺化ギブスサンプリングで用いる各パラメータの完全条件付き確率をそれぞれ示す． 3. 2. 1 重みベクトルηに関する完全条件付き確率の導出 η は RK 次元のベクトルであり，p(η|λ, Z, X) = ∏R j=1p(η j_{|λ, Z, X)}_{と変形できる．ここではラベル} jに対する重みベクトルηjに関する条件付き確率を導出する．また，ηj のガウス事前分布をp0(ηj) = ∏K k=1N (η j k; 0, ν 2₎_{と仮定する．} 式(3)から(λ, Z, X)を周辺化することによって，以下の式が成立する． p(ηj|λ, Z) ∝ p0(ηj) D ∏ d=1 exp ( −(λ j d+ cζ j d) 2 2λj_d ) ∝ exp(− K ∑ k=1 η_kj2 2ν2 − D ∑ d=1 (λj_d+ cζ_dj)2 2λj_d ) =N (ηj; µj, Σj) よって，p(ηj_{|λ, Z)}_は平均_µj_{，標準偏差}_Σj_{となる多変量正規} 分布の形を取る．µj_及び_Σj_{の逆行列に関する要素}_(Σj −1₎ ab は以下の通りである． µj = Σj ( c D ∑ d=1 rdj λj_d+ c λjd ) (Σj −1)_ab = ∆(a = b) ν2 + c 2 D ∑ d=1 ( (∑L_ℓ=1z¯(ℓ)_da)· (∑L_ℓ=1z¯(ℓ)_db) λj_d ) ∆(·)は，(·)内が真であれば1，そうでなければ0を返す関数である．また，z¯_dk(ℓ)は，モードℓにおける文書dのうち，割り当たっているトピックkの割合を表している．この多変量正規分布からηjの各要素η_kjをサンプリングすることが可能となる． 3. 2. 2 トピックZ及びピボットXに関する完全条件付き確率の導出トピック割り当ては，全モードに対して各単語それぞれに単語を割り当てていく．また，各単語に割り当てられたピボットモードフラグによりトピック割り当ての完全条件付き確率が異なる．ここでは，ピボットモードフラグx(ℓ)_di が自分自身のモードℓである場合，及びそうでないモードmである場合のそれぞれに対し，トピック割り当てz_di(ℓ)に関する完全条件付き確率を導出する．式(3)から(η, λ)を周辺化することによって，以下の式が成立する．

p(z_di(ℓ)= k, x(ℓ)_di = ℓ|w(ℓ)_di = v(ℓ), W_−di(ℓ), Z(ℓ)_−di, X(ℓ)_−di, α, β, γ, η, λ) ∝ C (ℓ) d,−di+ γ C(ℓ)_d,−di+∑_ℓ′̸=ℓC (ℓ′) d + Lγ C_d,−dik(ℓ) + α(ℓ) ∑ k′C k′(ℓ) d,−di+ Kα(ℓ) C_k,−div(ℓ) + β(ℓ) ∑ v′(ℓ)C v′(ℓ) k,−di+ V(ℓ)β(ℓ) × R ∏ j=1 exp  cη j k ( rj_d(cl + λj_d)−c 2(η j k+ ∑K k′=1η j k′C k′ d,−di) ) N_d(ℓ)λj_d   (4)

p(z_di(ℓ)= k, x(ℓ)_di = m|w_di(ℓ)= v(ℓ), W(ℓ)_−di, Z(ℓ)_−di, X(ℓ)_−di, α, β, γ, η, λ) ∝ C (m) d,−di+ γ C(m)_d,−di+∑_m′̸=mC (m′) d,−di+ Lγ C_d,−dik(m) ∑ k′C k′(m) d,−di C_k,−div(ℓ) + β(ℓ) ∑ v′(ℓ)C v′(ℓ) k,−di+ V(ℓ)β(ℓ) × R ∏ j=1 exp  cη j k ( rj_d(cl + λj_d)−c 2(η j k+ ∑K k′=1η j k′C k′ d,−di) ) N_d(ℓ)λj_d   (5) 3. 2. 3 データ拡張変数λに関する完全条件付き確率の導出 λ は RD 次元のベクトルであり，p(λ|η, Z) = ∏R j=1 ∏D d=1p(λ j d|η, Z)と変形できる．ここではラベルj に対するデータ拡張変数λj_dに関する条件付き確率を導出する．式(3)から(η, Z, X)を周辺化することによって，以下の式が成立する． p(λj_d|η, Z) ∝ √1 2πλj_d exp ( −(λ j d+ cζ j d) 2 2λj_d ) = GIG ( λj_d;1 2, 1, c 2 (ζ_dj)2 )

ここで，GIG(λd;1₂, 1, c2ζd2)は一般化逆ガウス(GIG:

General-ized inverse Gaussian)分布である．GIG分布の確率密度関数

は以下の通りである．e(p, a, b)は正規化定数である．

GIG(x; p, a, b) = e(p, a, b)xp−1_exp(₋1

2 ( b x+ ax )) 上記の3つの完全条件付き確率を反復させながら各パラメータを推定することによって，マルコフ連鎖を構築することができる．周辺化ギブスサンプリングでは，これらのパラメータの値が収束するまで繰り返し推定を行う．

(5)

4. 実

験

この章では 2 つの実験を行う．まず，提案手法である SCMLDA及び既存手法であるMedLDAで用いられる正則化パラメータcに関する最適値の導出実験を行う．次に，導出した最適値cを用いてSCMLDAとMedLDAのラベル分類性能を比較する実験を行い，結果について考察する． 4. 1 データセット実験において，2種類のデータセットを用いた．1つ目のデータセットとして日英京都関連文書対訳コーパス（注 2）_{を使用した} (以下データセットAとする)．これは，京都の人物や建造物などを対象とした合計14111ものWikipediaの記事データであり，日本語及びその英語翻訳の二言語の記事が用意されている．また，各記事には，15種類のラベル(学校，鉄道，旧家，建造物，神道，人名，地名，伝統文化，道路，仏教，文学，役職，歴史，神社仏閣，天皇)のうち最も関連性の高いラベルが1つ付与されている．本実験では，極端な偏りが発生することを回避するために，15種類のラベルのうち，ラベル出現頻度が高い上位8種類(建造物，人名，伝統文化，仏教，文学，歴史，神社仏閣，天皇)のラベルが付与された記事を使用した．前処理として，日本語英語共に全記事中で5記事以下しか出現しない低頻度語[5]を除外した．また，日本語記事ではMeCab（注 3）_を用いて形態素解析を行い，記号・接続詞などの機能語を除外し，英語記事ではストップワード[7]を除外した．前処理後のデータセットAの情報を表1に示す．表 1 前処理後のデータセット A Japanese English Number of documents 12299 Number of labels 8 Number of words 2512377 3670911 Size of vocabulary 23979 34398 2つ目のデータセットとしてMIRFLICKR-25000（注 4）_を使用した(以下データセットBとする)．これは，写真共有コミュニティサイトFlickrが提供している合計25000枚のテキストアノテーション付き画像データセットである．各画像にはタグが付与されており，その数は画像によって異なる．また，各画像には，11種類のgeneral labels及び19種類のsub-labelsが複数

付与されている．本実験では11種類のgeneral labels(animals,

food, indoor, night, people, plantlife, sky, structures, sunset, transport, water)をラベルとして使用した．前処理として，全画像に対して付与されたタグが20回未満しか出現しない低頻度語を除外した．また，画像データに関しては，トピックモデルに適用するためbag-of-visual-words表現[8], [9]へ変換を行った．画像データからbag-of-visual-wordsへ変換する際の局所特徴記述子として，SIFT [10]及びHOG [11]を用いた．特（注2）：http://alaginrc.nict.go.jp/WikiCorpus/ （注3）：http://mecab.googlecode.com/svn/trunk/mecab/doc/ （注4）：http://press.liacs.nl/mirflickr/ 徴点の検出法として，bag-of-visual-wordsによる画像分類問題において有効とされているdense sampling [9], [12]を用いた． dense samplingにおいて，グリッド幅を30×30ピクセル，局所特徴記述子のスケールを30ピクセルとした．局所特徴量を計算後，K-meansアルゴリズムを用いてクラスタリングを行い，visual wordsに変換した．K-meansにおけるクラスタ数は

1000,5000,10000の3通りとした[12], [13]．前処理後のデータ

セットBの情報を表2に示す．

表 2 前処理後のデータセット B

Tag SIFT HOG

Number of images 25000 Number of labels 11 Number of words 94283 5379100 4889792 Size of vocabulary 1386 {1000，5000，10000} 次節以降の2つの実験を行うために，いずれのデータセットでも分割を行った．まず，12299文書及び25000画像それぞれに関して，文書単位(画像単位)で5分割した．そのうちの1 セットは，4. 4節で述べる既存手法との比較実験で使用するために予め確保した．残りの4セットは，4. 2節で述べる正則化パラメータcの最適値を導出する実験にて4分割交差検定を行うのに用いた．次節以降では，既存手法との比較実験で使用する1セットのデータをテストデータ，残りの4セットのデータを開発データと呼ぶことにする． 4. 2 開発データを用いた正則化パラメータcの最適値導出実験提案手法であるSCMLDA及び，既存手法であるMedLDA の2つのモデルにおいて，正則化パラメータcに対する最適値を導出する実験を行った．本節では，各データセットの実験設定について説明する．開発データに対して4分割交差検定によりラベル分類の予測性

能をAccuracyにて評価した．Accuracyについて，SCMLDA

及びMedLDAの2通りそれぞれに関して正則化パラメータc を変化させた時の結果を測定した．但し，データセットの性質上，正例よりも負例の方が割合的に大きくなるため，ラベルj に対する正例のcをc+j,負例のcをc−j とする時，c + j, c−j を以下のように調節した． c+j = ϵ (6) c−_j = ϵ×_∑_R nj j′=1nj′− nj (7) ここで，njはラベルjが付与された文書の総数である．また， cの値を必要以上に大きくならないようにするため，負例ではなく正例をϵで固定した．トピック割り当ての確率式(式(4)，式(5))において，ラベルを考慮する項のみにcが含まれており，正例と負例の割合の偏りは最大でおよそ1:24となる．この偏りを用いたまま負例を固定して正例を調節すると，c+_j が非常に大きな値を取り，ラベルを考慮する項の影響が非常に大きくなってしまうため，今回は正例を固定する方法をとった．ϵは {1, 2, 4, 8, 16, 32, 64, 128}の8通りで変化させて実験を行っ

(6)

た．但し，この範囲で極値が見つからない場合は，2のべき乗に従って候補値を追加して極値を求めた．対称ディリクレハイパーパラメータについては，α = 0.1，β = 0.01，γ = 1に設定した．損失パラメータlは1とした．また，トピック数はデータセットAでは20，データセットBでは100に設定した．初期設定として，トピック及びピボットの割り当ては全てランダムに選択し，また，λの各要素は全て1とした．周辺化ギブスサンプリングにおける収束条件は200回とした．ところで，既存手法であるMedLDAは1つのモードに関してのみしかモデル構築ができない．そこで，データセットAでは，日本語記事と英語記事に対訳関係があり形式も類似しているため，日本語記事と英語記事のうち，同一の記事を結合させて単一言語のデータセットとしてモデル構築を行った．一方，データセットBでは，画像データから特徴抽出を行ったSIFT 及びHOGと，テキストデータであるタグとでは情報の形式や情報量が大きく異なるため，双方で結合させずにそれぞれの特徴を1つのモードと仮定し，それぞれのモードについて最適値を導出した． 4. 3 最適パラメータ導出実験の結果及び考察双方のデータセットにおいて，SCMLDA及びMedLDAを用いて，正則化パラメータcをそれぞれ変化させてAccuracy を測定した．まず，データセットAの実験結果について述べる．データセットAに対するAccuracyを図6に示す．エラーバーは標本標準偏差を示しており，横軸は正則化パラメータcで用いられる割合パラメータϵ，縦軸はAccuracyを示している． Ϭ͘ϱ Ϭ͘ϱϱ Ϭ͘ϲ Ϭ͘ϲϱ Ϭ͘ϳ Ϭ͘ϳϱ Ϭ͘ϴ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Đ Đ Ƶ ƌĂĐ Ǉ εεεε ^D> DĞĚ> 図 6 データセット A における Accuracy 図 6 より，ϵ の結果の違いはあるが，MedLDA よりも SCMLDAの方が大きな値となっていることが分かる．これは，MedLDAがモードを区別できないモデルであることから，双方のモードの相互依存性を捉えることができずに生じた差であると考えられる．また，SCMLDAではϵ = 2が，MedLDAではϵ = 8が最も大きな値を取っていることが分かる．SCMLDAとMedLDA でそれぞれ最適値となるcが異なっている理由として，ラベル評価関数が異なることが挙げられる．SCMLDAは全モードのトピック分布をラベル評価の計算に用いているため，トピック間の相互作用が大きくなり，大きなcでは過学習を引き起こし，最適なcが比較的小さな値となったと考えられる．次に，データセットBの実験結果について述べる．SIFT及

びHOGでは，visual wordsの異なり語数(語彙数)を1000，

5000，10000の3通りにして実験を行っているため，それぞれについて結果を示す．visual wordsが1000，5000，10000におけるAccuracyを図7，8，9に示す．また，タグのみを利用したMedLDAによるAccuracyを図10に示す． Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Ϯϱϲ ϱϭϮ Đ Đ Ƶ ƌĂĐ Ǉ ɸ ^D>;^/&dнdĂŐͿ DĞĚ>;^/&dͿ ^D>;,K'нdĂŐͿ DĞĚ>;,K'Ϳ 図 7 データセット B における visual words の語彙数が 1000 の場合の Accuracy Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Ϯϱϲ ϱϭϮ Đ Đ Ƶƌ Ă Đ Ǉ ɸ ^D>;^/&dнdĂŐͿ DĞĚ>;^/&dͿ ^D>;,K'нdĂŐͿ DĞĚ>;,K'Ϳ 図 8 データセット B における visual words の語彙数が 5000 の場合の Accuracy Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Ϯϱϲ ϱϭϮ Đ Đ Ƶƌ Ă Đ Ǉ ɸ ^D>;^/&dнdĂŐͿ DĞĚ>;^/&dͿ ^D>;,K'нdĂŐͿ DĞĚ>;,K'Ϳ 図 9 データセット B における visual words の語彙数が 10000 の場合の Accuracy

SCMLDAではSIFTまたはHOGのいずれかを画像特徴モー

ド，タグをテキストモードとして2種類のモードを用いてモデ

ル構築を行っている．一方，MedLDAではSIFT，HOG，タ

グの3つのうちのいずれか1種類のモードを用いてモデル構築

を行っている．図6と同様に，エラーバーは標本標準偏差，横

軸はϵ，縦軸はAccuracyを表している．

(7)

Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ Ϭ͘ϭϮϱ Ϭ͘Ϯϱ Ϭ͘ϱ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Đ Đ Ƶƌ Ă Đ Ǉ ɸ DĞĚ>;dĂŐͿ 図 10 データセット B におけるタグのみを用いた場合の Accuracy もSCMLDAの方が大きな値を取っていることが分かる．これは，データセットAと同様に，テキストと画像特徴のような全く異なる形式を持つデータに関しても，相互的な依存性を捉えることによって分類精度が向上したと考えられる．また， visual wordsの語彙数を相対的に比較すると，語彙数が1000 の時，他よりも比較的に小さな値を取っていることが分かる．データセットBの画像特徴側に出現する総単語数は，SIFTが 5379100，HOGが4889792とタグよりも非常に大きな値となっている．このような大規模な情報に対し，粒度の粗いクラスタリングを行うことで，分類時に重要な情報を集約してしまい，分類精度が落ちてしまったと考えられる．一方で，語彙数が 5000及び10000の時，この違いによる大きな変化は見られないことが分かる．そのため，これ以上細粒度のクラスタリングを行う意義は大きくないと考えられる．また，最適値となるϵ が，モデル内で使用するデータによってそれぞれ異なっていることが分かる．全体的な傾向として，タグを用いたMedLDA ではϵ = 0.5∼1近辺，それ以外のモデルではϵ = 128近辺で極値を取っている．タグのみを用いたMedLDAとそれ以外のモデルとで最適値が大きく異なる理由として，テキストと画像特徴では形式が大きく異なることが挙げられる．画像特徴の場合，特徴量としての精度が粗いことから，ギブスサンプリングにおけるトピック割り当てにおいて，正則化パラメータを含むラベル項を重視した学習にすることによりAccuracyが上昇したと考えられる．実験結果より，データセットAにおいて，最適値となるϵは， SCMLDAではϵ = 2，MedLDAではϵ = 8となった．よって，次節の既存手法との比較実験においてはこれらの値を使用する．また，データセットBにおいては，画像特徴を用いる場合，3

種類のvisual wordsに関してAccuracyを算出している．本節

の実験にて決定した各種パラメータを表3にまとめる．4. 4節の比較実験では，表3の値を使用する． 表 3 データセット B における最適値な ϵ 及び visual words 数 visual words ϵ SCMLDA SIFT+Tag 10000 128 HOG+Tag 10000 64 MedLDA SIFT 10000 128 HOG 10000 128 Tag — 1 4. 4 テストデータを用いた既存手法との比較実験ここでは，4. 2節で導出した最適値cを利用して，2種類のデータセットに関してSCMLDAのラベル予測精度に関する既存手法との比較実験を行った．比較モデルは前節で最適値を導出したMedLDAを使用した．比較実験では，4. 2節の交差検定時に用いた4セットの開発データを用いて推定した未知パラメータを用いて，予め確保しておいたテストデータ(1セット)を用いてラベル予測を行った．但し，潜在変数Zについてはリサンプリングにより推定し直した．パラメータ推定法，評価指標，ハイパーパラメータの値，ギブスサンプリングにおける初期設定は，4. 2節と同じ設定で実験を行った．MedLDAに関してもSCMLDAと同様の手順で実験を行った．トピック数は，いずれのデータセットに関しても10から10刻みで100までそれぞれ変化させた．一般的には，トピック数は値を大きく取ると精度も良くなる傾向がある．しかし，値が大きくなるほど計算コストも増大してしまうため，今回はいずれのデータセットでも100で打ち切った． 4. 2節と異なり，本節では実験で使用するデータが1セットしか存在しない．そのため，4. 2節と同様の条件で実験を行うとエラーバーを付与することができず，Accuracyの信頼性も低くなってしまう．そこで，本節ではモデルの学習の反復回数について，160回から200回まで10回ごとにパラメータの出力を行った．そして，5通りの結果に関してそれぞれリサンプリング及びAccuracyの導出を行い，それらの平均を求めた． 4. 5 既存手法との比較実験の結果及び考察 4. 3節で導出した各モデルのcを用いて，2種類のデータセットに関して各モデルのラベル予測性能比較を行った．まず，データセットAに関する各モデルのAccuracyを図11に示す．横軸はトピック数，縦軸はAccuracyを示しており，エラーバーは，反復回数160回から200回までについて10回ごとに出力した5通りそれぞれの結果に対する標本標準偏差を表している．図11より，いずれのモデルに関しても，トピック数を大きくすることによってAccuracyもゆるやかに上昇しているが， SCMLDAの方がより良い値を取っていることが分かる．これは，4. 3節でも述べたように，SCMLDAは，双方のモードの相互依存性を捉えることによって，マルチモーダルデータのラベル分類に適したトピックの構築が可能になると考えられる．次に，データセットBに関する各モデルのAccuracyを図12 に示す．図11と同様に，横軸はトピック数，縦軸はAccuracy，エラーバーは，反復回数160回から200回までについて10回ごとに出力した5通りそれぞれの結果に対する標本標準偏差を表している．図12より，データセットAの時と同様に，SCMLDAの方が良い値を取っているが，データセットAと比較すると標本標準偏差が大きくなっていることが分かる．これは，データセットAとBでそれぞれ導出した最適値ϵの違いによるものと考えられる．データセットBでは，最適値となるϵを比較的大きな値に設定したため，トピック割り当ての際に用いられる確率式(式(4)，(5))において，ラベルを考慮する項である第4項の影響が非常に大きくなる．そのため，パラメータが収束する

(8)

Ϭ͘ϱϱ Ϭ͘ϲ Ϭ͘ϲϱ Ϭ͘ϳ Ϭ͘ϳϱ Ϭ͘ϴ ϭϬ ϮϬ ϯϬ ϰϬ ϱϬ ϲϬ ϳϬ ϴϬ ϵϬ ϭϬϬ Đ Đ Ƶ ƌĂ Đ Ǉ EƵŵďĞƌŽĨƚŽƉŝĐƐ ^D> DĞĚ> 図 11 データセット A における SCMLDA と MedLDA の比較結果 Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ Ϭ͘ϲ Ϭ͘ϲϱ ϭϬ ϮϬ ϯϬ ϰϬ ϱϬ ϲϬ ϳϬ ϴϬ ϵϬ ϭϬϬ Đ Đ Ƶƌ Ă Đ Ǉ EƵŵďĞƌŽĨƚŽƉŝĐƐ ^D>;^/&dнdĂŐͿ DĞĚ>;^/&dͿ DĞĚ>;^/&dнdĂŐͿ ^D>;,K'нdĂŐͿ DĞĚ>;,K'Ϳ DĞĚ>;,K'нdĂŐͿ DĞĚ>;dĂŐͿ 図 12 データセット B における SCMLDA と MedLDA の比較結果ための反復回数も大きくなり，繰り返し数10回ごとの出力に対する結果にばらつきが生じたと考えられる．以上より，SCMLDAは，マルチモーダルデータにおけるラベル分類問題において，従来のラベル分類問題を解くトピックモデルであるMedLDAよりも高精度な予測が可能なトピックモデルであると言える．

5. おわりに

本研究では，マルチモーダルデータにおけるモード間の相互依存性を考慮したトピックモデルであるSymCorrLDAに，最大マージン学習を組み込んだSCMLDAを提案した．SCMLDA は，マルチモーダルデータに対しても，複数のモードを単一のモードに統合するような前処理を行うことなく，マルチラベル分類が可能となる点において，従来と異なる．このモデルは，マルチモーダルデータに付与された多値のラベルに対し，マルチラベル分類を行うためのラベル評価関数を導入する．そして，評価関数及びSCMLDAの各パラメータの事後分布に対する最適化問題を解き，さらにデータ拡張の原理を用いて各パラメータを周辺化することにより，SCMLDAの周辺化ギブスサンプリングによるパラメータ推定を可能とする．我々は実験にて，WikipediaとFlickrのそれぞれから抽出された2種類のデータセットに対して，提案手法であるSCMLDA のモデル構築を行い，パラメータの最適値を決定した．さらに，その最適パラメータを用いて，Accuracyによりラベル分類の精度を評価した．実験結果より，SCMLDAのラベル分類精度が従来のラベル分類を行うトピックモデルであるMedLDAよりも上回っていることを示した．本研究では，提案モデルと既存モデルのいずれもトピックモデルが基となっており，従って分類問題を解くだけでなく潜在トピックを発見する利点を持つ．分類問題を解くという目的に絞った場合の他手法との比較は今後の課題である．また，本実験ではSCMLDAに適用するモード数をいずれも2に設定して実験を行っている．実際はモード数が3以上の構築も可能であるが，計算コストの増大や過剰適合など，他の問題も発生すると思われる．これらについても今後の検討課題である．謝辞本研究の一部は，科学研究費補助金基盤研究(B)（50321576）の援助による．文献

[1] Jun Zhu, Ning Chen, Hugh Perkins, and Bo Zhang. Gibbs max-margin topic models with data augmentation. The Journal of Machine Learning Research, Vol. 15, No. 1, pp. 1073–1110, 2014.

[2] David M Blei, Andrew Y Ng, and Michael I Jordan. La-tent Dirichlet Allocation. the Journal of machine Learning research, Vol. 3, pp. 993–1022, 2003.

[3] Kosuke Fukumasu, Koji Eguchi, and Eric P Xing. Symmet-ric correspondence topic models for multilingual text analy-sis. In Advances in Neural Information Processing Systems, pp. 1286–1294, 2012.

[4] David M Blei and Michael I Jordan. Modeling Annotated Data. In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in infor-maion retrieval, pp. 127–134. ACM, 2003.

[5] Thomas L Griﬃths and Mark Steyvers. Finding scientiﬁc topics. Proceedings of the National academy of Sciences of the United States of America, Vol. 101, No. Suppl 1, pp. 5228–5235, 2004.

[6] Nicholas G Polson, Steven L Scott, et al. Data augmenta-tion for support vector machines. Bayesian Analysis, Vol. 6, No. 1, pp. 1–23, 2011.

[7] James P Callan, W Bruce Croft, and Stephen M Harding. The INQUERY Retrieval System. In Database and expert systems applications, pp. 78–83. Springer, 1992.

[8] Gabriella Csurka, Christopher Dance, Lixin Fan, Jutta Willamowski, and C´edric Bray. Visual categorization with bags of keypoints. In Workshop on statistical learning in computer vision, ECCV, Vol. 1, pp. 1–2. Prague, 2004. [9] Li Fei-Fei and Pietro Perona. A bayesian hierarchical model

for learning natural scene categories. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Com-puter Society Conference on, Vol. 2, pp. 524–531. IEEE, 2005.

[10] David G Lowe. Distinctive image features from scale-invariant keypoints. International journal of computer vi-sion, Vol. 60, No. 2, pp. 91–110, 2004.

[11] Navneet Dalal and Bill Triggs. Histograms of oriented gradi-ents for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, Vol. 1, pp. 886–893. IEEE, 2005.

[12] Eric Nowak, Frédéric Jurie, and Bill Triggs. Sampling strategies for bag-of-features image classification. In Com-puter Vision–ECCV 2006, pp. 490–503. Springer, 2006. [13] Adam Coates and Andrew Y Ng. The importance of

encod-ing versus trainencod-ing with sparse codencod-ing and vector quantiza-tion. In Proceedings of the 28th International Conference on Machine Learning (ICML-11), pp. 921–928, 2011.

マージン最大化マルチモーダルトピックモデルによるマルチラベル分類

DEIM Forum 2016 D1-6