DEIM Forum 2016 D1-6
マージン最大化マルチモーダルトピックモデルによるマルチラベル分類
坂田 洋介
†江口 浩二
††
神戸大学大学院システム情報学研究科情報科学専攻 〒 657–8501 兵庫県神戸市灘区六甲台町 1-1
E-mail:
†
[email protected],
††
[email protected]
あらまし
複数の表現によるマルチモーダルデータとして,多言語データやテキストアノテーション付き画像データ
などが挙げられるが,その解析手法の高度化が望まれている.その有望なアプローチの一つに潜在トピックモデルが
挙げられる.本稿では,マルチモーダルデータにおける複数の異なる表現の相互依存性を捉えつつ,マルチモーダル
データに付与されているラベルを予測する潜在トピックモデルを提案する.これはユニモーダルデータを想定した
Gibbs-MedLDA を,マルチモーダルデータに発展させたものである.本稿では,提案モデルの有効性を示すため,日
英二言語対訳文書データ及びアノテーション付き画像データを用いて,データに付与されるラベルを予測する実験を
行う.
キーワード
トピックモデル, マルチモーダルデータ, マルチラベル分類
1.
は じ め に
近年,インターネットやソーシャルメディアの普及などによ り,テキストや画像をはじめとする,世の中に存在する離散デー タの量が爆発的に増大している.このようなデータの有効な解 析手法の一つとして,トピックモデルが挙げられる.トピック モデルは様々な離散データに対して解析がなされ得るが,テキ ストデータを例に取ると,単語の分布として表現されるトピッ クの混合分布によって文書を確率的に表現するモデルを指す. トピックモデルを用いることにより,大量の文書集合から話題 になっているトピックを自動的に抽出することが可能となる. また,文書に付与されるべきラベル(政治,スポーツ,医療 など)が何であるかを予測するトピックモデルとして,Gibbs-Maximum Entropy Discriminated LDA(MedLDA) [1]がある. これは,代表的なトピックモデルである潜在ディリクレ配分法
(Latent Dirichlet Allocation: LDA) [2]に最大マージン学習を 導入することによって拡張したものである.予測ラベルは潜在 トピックの関数で表され,この関数によってラベルの分類が可 能となる. 一方で,多言語比較可能文書データやテキストアノテーショ ン付き画像データなど,複数の離散データで表現されるマル チモーダルデータがある.マルチモーダルデータは,情報量が 増大したり,構成が複雑であったりすることから,従来よりも 解析が困難であり,より有望な解析手法が望まれている.マル チモーダルデータを扱えるトピックモデルとして,Symmetric Correspondence LDA(SymCorrLDA) [3]がある.このモデル は,主として扱うモードを示す潜在変数を利用することによっ て,双方のモードの相互依存性をとらえたトピックの生成を 可能とする.SymCorrLDAはマルチモーダルデータに対して, モードを横断して共有されるトピックをモデル化することは可 能だが,ラベルを予測する機能は備えていない. そこで本稿では,マルチモーダルデータにおける複数の異な る表現の相互依存性を捉えつつ,マルチモーダルデータに付与さ れるラベルを予測する潜在トピックモデルである,Symmetric Correspondence MedLDA(SCMLDA)を提案する.このモデ ルは,ユニモーダルデータを想定したMedLDAを,マルチモー ダルデータに発展させたものである.本稿では,多言語比較可 能データセット及びアノテーション付き画像データセットに対 し,付与されたラベルの正解率を評価し,既存のトピックモデ ルよりも高精度な分類が実現できることを示す. 本論文の構成は以下の通りである.第2章では,提案手法に関 連したモデルの概要について説明する.第3章では,SCMLDA の概要に加え,モデル構築のためのパラメータ推定方法につい て述べる.第4章では,SCMLDAによるラベル分類実験及び その結果を示す.最後に,第5章で結論を述べる.
2.
関 連 研 究
ここでは提案手法に関連したモデルであるLDA,CorrLDA, SymCorrLDA,MedLDAについて説明する. 2. 1 LDA潜在的ディリクレ配分法(Latent Dirichlet allocation: LDA)
[2]は代表的なトピックモデルの1つであり,文書を潜在トピッ クの多項分布として表現し,さらに多項分布の事前分布にディ リクレ分布を導入する.同様に潜在トピックを単語の多項分布 として表現する.LDAのグラフィカルモデルを図1に示す.図 1中のD, Nd, Kはそれぞれ文書数,文書dの単語数,トピック 数を表している.θd, ϕkはそれぞれ文書dに関するトピック の多項分布パラメータ,トピックkに関する単語の多項分布パ ラメータである.α, βはそれぞれθ, ϕに対応するディリクレ 事前分布のハイパーパラメータである.また,図中の網掛け部 分は観測変数を表している.LDAにおける文書の生成過程を 以下に示す.ここでDirはディリクレ分布,Multは多項分布 を表している. (1) D個の文書に対して多項分布パラメータθd∼ Dir(α) を選択する(d∈ {1, · · · , D}). (2) K個のトピックに対して多項分布パラメータϕk ∼
α
θ
z
w
φ
β
D
N
dK
図 1 LDA のグラフィカルモデルα
θ
w(p) φ(p) β(p)D
Nd(p)K
z(p) Nd(1) z(1) w(1) Nd(L) z(L) w(L) φ(1) β(1) φ(L) β(L) 図 2 CorrLDA のグラフィカルモデル Dir(β)を選択する(k∈ {1, · · · , K}). (3) 文書dのNd個の単語wdiに対し(i∈ {1, · · · , Nd}): (a) トピックzdi∼ Mult(θd)を選択する. (b) 単語wdi∼ Mult(ϕk)を選択する. 2. 2 CorrLDA Correspondence LDA(CorrLDA) [4]は,多言語比較可能文 書データやテキストアノテーション付き画像データなど,複数 言語(複数モード)を扱えるLDAの拡張モデルである.このモ デルはいずれかの1つのモード側について,基準となるトピッ クを生成する.選択された側のモードをピボットモードと呼ぶ. 他のモードに対しては,ピボットモードで生成されたトピック を利用する.モード数をLとし,ピボットモードをpとする時 のグラフィカルモデルを図2に示す.上付き文字(·)はモード のインデクスを示す.CorrLDAにおけるマルチモーダルデー タの生成過程を以下に示す. (1) D個の文書のピボットモードpに対してθd∼ Dir(α) を選択する. (2) K 個 の ト ピック と L 個 の モ ー ド に 対 し てϕ(ℓ)k ∼ Dir(β(ℓ))を選択する(ℓ∈ {1, · · · , L}). (3) 文書dのピボットモードpにおけるNd(p) 個の単語 wdi(p)に対し: (a) トピックzdi(p)∼ Mult(θd)を選択する. (b) 単語w(p)di ∼ Mult(ϕ(p)k )を選択する. γ π D K Nd(1) z(1) w(1) φ(1) β(1) φ(L) β(L) x(1) α(1) θ(1) Nd(L) z(L) x(L) w(L) α(L) θ(L) 図 3 SymCorrLDA のグラフィカルモデル (4) 文書dのL− 1個の非ピボットモードにおけるNd(q) 個の単語w(q)di に対し(q∈ {1, · · · , p − 1, p + 1, · · · , L}): (a) トピックzdi(q)∼ Unif(z(p)d1,· · · , z(p) dNd(p))を選択する. (b) 単語w(q)di ∼ Mult(ϕ(q)k )を選択する. ここで,Unifは一様分布を表している. 2. 3 SymCorrLDA CorrLDAの問題点を改善したモデルとして,Symmetric CorrespondenceLDA(SymCorrLDA) [3]がある.CorrLDAで はピボットモードを1つに定めてモデル推定を行っていたが, SymCorrLDAでは各単語に対してピボットモードをそれぞれ 定めるフラグを潜在変数として表現する.これにより,多項分 布を用いてピボットモードの割り当たる確率が調整できるため, 1つのモードに偏ったモデル構築が回避できるようになる. モード数をLとする時のグラフィカルモデルを図3に示す. 図3中のπはピボットフラグの生成に関する多項分布パラメー タであり,DL次元で表される.γはπに対するハイパーパラ メータである.SymCorrLDAにおけるマルチモーダルデータ の生成過程を以下に示す(注1). 3-cで表記されているz(m)d は, モードm(m̸= ℓ)におけるトピック集合{z(m) d1 ,· · · , z (m) dNd(m)}の うち,ピボットモードフラグがmとなるトピックの集合を表 している. (1) D個の文書に対し: (a) L個のモードに対してθ(ℓ)d ∼ Dir(α (ℓ) )を選択する. (b) πd∼ Dir(γ)を選択する. (2) K個のトピック及びL個のモードに対してϕ(ℓ)k ∼ Dir(β(ℓ))を選択する. (3) 文書dのモードℓにおけるNd(ℓ)個の単語w(ℓ)di に対し: (a) ピボットモードフラグx(ℓ)di ∼ Mult(πd)を選択する. (b) (x(ℓ)di = ℓ)の場合,トピックzdi(ℓ)∼ Mult(θ(ℓ)d )を選択 する. (c) (x(ℓ)di = m)の場合,トピックz(ℓ)di ∼ Unif(z(m)d )を選 択する. (注1):福増らの論文 [3] では,ピボットモードフラグが自身のモードと異なる 場合,それを明確に区別するために,トピック z ではなく y を定義している.本 論文では,グラフィカルモデルの複雑さを回避するため,トピック割り当てで使 用する変数を z に統一する.α
θ
z
w
φ
β
D
N
dK
r
η
図 4 MedLDA のグラフィカルモデル (d) 単語w(ℓ)di ∼ Mult(ϕ(ℓ)k )を選択する. 2. 4 MedLDAMaximum Entropy Discriminated LDA(MedLDA) [1]は, マージン最大化法と呼ばれる教師ありの枠組みにおいて,潜在 トピックを特徴として用いつつ,その潜在トピックを推定する モデルである.MedLDAのグラフィカルモデルを図4に示す. 図4中のrは文書に付与されたラベルである.また,ηはラベ ル評価時の各トピックに対する重み係数であり,値が大きいほ ど,対応したトピックが対象のラベルに関わっていることを表 している.MedLDAにおける文書の生成過程を以下に示す. (1) D個の文書に対してθd∼ Dir(α)を選択する. (2) K個のトピックに対してϕk∼ Dir(β)を選択する. (3) 文書dのNd個の単語wdiに対し: (a) トピックzdi∼ Mult(θd)を選択する. (b) 単語wdi∼ Mult(ϕk)を選択する. (4) D個の文書に対してラベルrd∼ F (zd, η)を選択する (rd∈ {1 . . . R}). 関数Fはラベル評価関数で,各文書に付与されたラベルの尤度 を定義している.この関数は各文書のトピック分布に依存して いる.F の中身は以下のように示される. F (zd, η) = argmax r (ηrT¯zd) (1) ここで,¯zd=N1 d ∑ ivdiであり,vdiはK次元のベクトル でzdiが示すトピックに対応する成分が1,それ以外の成分が0 となる.ηはRK次元のベクトルであり,{η1. . . ηR}である. また,ηrはK次元のベクトルであり,ラベルrに対する各ト ピックの重み関数である.この値が大きいほど,対象トピック が対象ラベルに密接に関連していることを示している.
3.
マルチモーダルデータに対応したラベル分類
トピックモデル
3. 1 SCMLDA 2. 4節でも述べたように,テキストや画像データのラベル分類 を行うためにはMedLDAを利用すれば良い.しかし,MedLDA は多モード間の相互依存性を利用したラベル分類ができない. この問題を解決するために,我々はマージン最大化マルチモーダルトピックモデル(Symmetric Correspondence MedLDA:
γ π D K Nd(1) z(1) w(1) φ(1) β(1) φ(L) β(L) x(1) α(1) θ(1) Nd(L) z(L) x(L) w(L) α(L) θ(L) r η 図 5 SCMLDA のグラフィカルモデル SCMLDA)を提案する.SCMLDAのグラフィカルモデルを図 5に示す.このモデルは,2. 3節で述べた手法で各モードのト ピックを推定し,その各モードのトピックを利用してラベルに 関する評価を行う.また,SCMLDAにおけるマルチモーダル データの生成過程を以下に示す. (1) D個の文書に対し: (a) L個のモードに対してθ(ℓ)d ∼ Dir(α(ℓ))を選択する. (b) πd∼ Dir(γ)を選択する. (2) K個のトピック及びL個のモードに対してϕ(ℓ)k ∼ Dir(β(ℓ))を選択する. (3) 文書dのモードℓにおけるNd(ℓ)個の単語w(ℓ)di に対し: (a) ピボットモードフラグx(ℓ)di ∼ Mult(πd)を選択する. (b) (x(ℓ)di = ℓ)の場合,トピックzdi(ℓ)∼ Mult(θ(ℓ)d )を選択 する. (c) (x(ℓ)di = m)の場合,トピックz(ℓ)di ∼ Unif(z(m)d )を選 択する. (d) 単語w(ℓ)di ∼ Mult(ϕ(ℓ)k )を選択する. (4) D個の文書に対してラベルrd ∼ F (z (1) d , . . . z (L) d , η) を選択する. 但し,2章と同様に,上付き文字(·)はモードのインデクスを 示す.SCMLDAでは,SymCorrLDAにおけるマルチモーダ ルデータの生成過程に加えて,ラベル評価関数であるFによる ラベルの予測が追加されている.MedLDAでは1つのモード しか考慮しないため,ラベル評価を行う評価関数Fはzd及び ηのみで評価される.一方,SCMLDAではL個のモードを考 慮するため,F は以下のように定義される. F (z(1)d , . . . , z(L)d , η) = argmax r (ηrT( L ∑ ℓ=1 ¯ z(ℓ)d )) (2) 3. 2 周辺化ギブスサンプリングを用いた推定 この節では,モデルの推定手法として,制約仮定を置かない 単純で効率的な周辺化ギブスサンプリング[5]による推定につい て述べる.周辺化ギブスサンプリングのアルゴリズムはデータ 拡張[6]に基づいており,MedLDAでも使用されている.以下 では,MedLDAの周辺化ギブスサンプリングに関する論文[1]
に従ってSCMLDAの推定手法について述べる.まず,全ての 潜在変数と未知のパラメータに関する同時分布を以下に示す. p(η, Θ, Z, Φ, Π, X|W, r) ∝ p0(η, Θ, Φ, Π)p(Z|Θ, X)p(X|Π)p(W|Z, Φ)ψ(r|Z, η) ここで,p0(η, Θ, Φ, Π)はモデルによって定義された事前分布 である.また,ψ(r|Z, η)はラベルの疑尤度であり,ψ(r|Z, η) = ∏D d=1 ∏R j=1ψj(rjd|z (1) d ,· · · , z (L) d , η)である.r j dは,文書dに ラベルjが付与されている場合は1,それ以外の場合は-1を返 す2値変数である.ここからデータ拡張により,ψjを以下の 式のように変形する[1], [6]. ψj(rjd|z (1) d , . . . , z (L) d , η) = ∫ ∞ 0 1 √ 2πλjd exp ( −(λ j d+ cζ j d) 2 2λjd ) dλjd ここで,ζdj= l− rjd∑Lℓ=1ηjT¯z(ℓ) d であり,上の式のλが新た に拡張されたデータ拡張変数となる.lは損失パラメータであ る.rdjに対してλjdが対応しており,λはRD次元のベクトル となる.正則化パラメータcが大きければ大きいほど,誤分類 を許容した推定となる.これにより,λを含んだ同時分布は以 下のようになる. p(η, λ, Z, X|W, r) ∝ p0(η)p(W, Z, X|α, β, γ)ψ(r, λ|Z, η) (3) ここで, ψ(r, λ|Z, η) = R ∏ j=1 D ∏ d=1 1 √ 2πλjd exp ( −(λj d+ cζ j d) 2 2λjd ) であり,上式はr及びηの同時確率分布である.ここからは, さらに周辺化を行うことによって,周辺化ギブスサンプリング で用いる各パラメータの完全条件付き確率をそれぞれ示す. 3. 2. 1 重みベクトルηに関する完全条件付き確率の導出 η は RK 次 元 の ベ ク ト ル で あ り,p(η|λ, Z, X) = ∏R j=1p(η j|λ, Z, X)と変形できる.ここではラベル jに対する 重みベクトルηjに関する条件付き確率を導出する.また,ηj のガウス事前分布をp0(ηj) = ∏K k=1N (η j k; 0, ν 2)と仮定する. 式(3)から(λ, Z, X)を周辺化することによって,以下の式が 成立する. p(ηj|λ, Z) ∝ p0(ηj) D ∏ d=1 exp ( −(λ j d+ cζ j d) 2 2λjd ) ∝ exp(− K ∑ k=1 ηkj2 2ν2 − D ∑ d=1 (λjd+ cζdj)2 2λjd ) =N (ηj; µj, Σj) よって,p(ηj|λ, Z)は平均µj,標準偏差Σjとなる多変量正規 分布の形を取る.µj及びΣjの逆行列に関する要素(Σj −1) ab は以下の通りである. µj = Σj ( c D ∑ d=1 rdj λjd+ c λjd ) (Σj −1)ab = ∆(a = b) ν2 + c 2 D ∑ d=1 ( (∑Lℓ=1z¯(ℓ)da)· (∑Lℓ=1z¯(ℓ)db) λjd ) ∆(·)は,(·)内が真であれば1,そうでなければ0を返す関数で ある.また,z¯dk(ℓ)は,モードℓにおける文書dのうち,割り当 たっているトピックkの割合を表している.この多変量正規分 布からηjの各要素ηkjをサンプリングすることが可能となる. 3. 2. 2 トピックZ及びピボットXに関する完全条件付き 確率の導出 トピック割り当ては,全モードに対して各単語それぞれに単 語を割り当てていく.また,各単語に割り当てられたピボット モードフラグによりトピック割り当ての完全条件付き確率が異 なる.ここでは,ピボットモードフラグx(ℓ)di が自分自身のモー ドℓである場合,及びそうでないモードmである場合のそれ ぞれに対し,トピック割り当てzdi(ℓ)に関する完全条件付き確率 を導出する.式(3)から(η, λ)を周辺化することによって,以 下の式が成立する.
p(zdi(ℓ)= k, x(ℓ)di = ℓ|w(ℓ)di = v(ℓ), W−di(ℓ), Z(ℓ)−di, X(ℓ)−di, α, β, γ, η, λ) ∝ C (ℓ) d,−di+ γ C(ℓ)d,−di+∑ℓ′̸=ℓC (ℓ′) d + Lγ Cd,−dik(ℓ) + α(ℓ) ∑ k′C k′(ℓ) d,−di+ Kα(ℓ) Ck,−div(ℓ) + β(ℓ) ∑ v′(ℓ)C v′(ℓ) k,−di+ V(ℓ)β(ℓ) × R ∏ j=1 exp cη j k ( rjd(cl + λjd)−c 2(η j k+ ∑K k′=1η j k′C k′ d,−di) ) Nd(ℓ)λjd (4)
p(zdi(ℓ)= k, x(ℓ)di = m|wdi(ℓ)= v(ℓ), W(ℓ)−di, Z(ℓ)−di, X(ℓ)−di, α, β, γ, η, λ) ∝ C (m) d,−di+ γ C(m)d,−di+∑m′̸=mC (m′) d,−di+ Lγ Cd,−dik(m) ∑ k′C k′(m) d,−di Ck,−div(ℓ) + β(ℓ) ∑ v′(ℓ)C v′(ℓ) k,−di+ V(ℓ)β(ℓ) × R ∏ j=1 exp cη j k ( rjd(cl + λjd)−c 2(η j k+ ∑K k′=1η j k′C k′ d,−di) ) Nd(ℓ)λjd (5) 3. 2. 3 データ拡張変数λに関する完全条件付き確率の導出 λ は RD 次 元 の ベ ク ト ル で あ り,p(λ|η, Z) = ∏R j=1 ∏D d=1p(λ j d|η, Z)と変形できる.ここではラベルj に 対するデータ拡張変数λjdに関する条件付き確率を導出する. 式(3)から(η, Z, X)を周辺化することによって,以下の式が 成立する. p(λjd|η, Z) ∝ √1 2πλjd exp ( −(λ j d+ cζ j d) 2 2λjd ) = GIG ( λjd;1 2, 1, c 2 (ζdj)2 )
ここで,GIG(λd;12, 1, c2ζd2)は一般化逆ガウス(GIG:
General-ized inverse Gaussian)分布である.GIG分布の確率密度関数
は以下の通りである.e(p, a, b)は正規化定数である.
GIG(x; p, a, b) = e(p, a, b)xp−1exp(−1
2 ( b x+ ax )) 上記の3つの完全条件付き確率を反復させながら各パラメー タを推定することによって,マルコフ連鎖を構築することがで きる.周辺化ギブスサンプリングでは,これらのパラメータの 値が収束するまで繰り返し推定を行う.
4.
実
験
こ の 章 で は 2 つ の 実 験 を 行 う.ま ず,提 案 手 法 で あ る SCMLDA及び既存手法であるMedLDAで用いられる正則 化パラメータcに関する最適値の導出実験を行う.次に,導出 した最適値cを用いてSCMLDAとMedLDAのラベル分類性 能を比較する実験を行い,結果について考察する. 4. 1 データセット 実験において,2種類のデータセットを用いた.1つ目のデー タセットとして日英京都関連文書対訳コーパス(注 2)を使用した (以下データセットAとする).これは,京都の人物や建造物な どを対象とした合計14111ものWikipediaの記事データであ り,日本語及びその英語翻訳の二言語の記事が用意されている. また,各記事には,15種類のラベル(学校,鉄道,旧家,建造 物,神道,人名,地名,伝統文化,道路,仏教,文学,役職, 歴史,神社仏閣,天皇)のうち最も関連性の高いラベルが1つ 付与されている.本実験では,極端な偏りが発生することを回 避するために,15種類のラベルのうち,ラベル出現頻度が高い 上位8種類(建造物,人名,伝統文化,仏教,文学,歴史,神 社仏閣,天皇)のラベルが付与された記事を使用した.前処理 として,日本語英語共に全記事中で5記事以下しか出現しない 低頻度語[5]を除外した.また,日本語記事ではMeCab(注 3)を 用いて形態素解析を行い,記号・接続詞などの機能語を除外し, 英語記事ではストップワード[7]を除外した.前処理後のデー タセットAの情報を表1に示す. 表 1 前処理後のデータセット A Japanese English Number of documents 12299 Number of labels 8 Number of words 2512377 3670911 Size of vocabulary 23979 34398 2つ目のデータセットとしてMIRFLICKR-25000(注 4)を使用 した(以下データセットBとする).これは,写真共有コミュニ ティサイトFlickrが提供している合計25000枚のテキストアノ テーション付き画像データセットである.各画像にはタグが付 与されており,その数は画像によって異なる.また,各画像に は,11種類のgeneral labels及び19種類のsub-labelsが複数付与されている.本実験では11種類のgeneral labels(animals,
food, indoor, night, people, plantlife, sky, structures, sunset, transport, water)をラベルとして使用した.前処理として,全 画像に対して付与されたタグが20回未満しか出現しない低頻 度語を除外した.また,画像データに関しては,トピックモ デルに適用するためbag-of-visual-words表現[8], [9]へ変換を 行った.画像データからbag-of-visual-wordsへ変換する際の 局所特徴記述子として,SIFT [10]及びHOG [11]を用いた.特 (注2):http://alaginrc.nict.go.jp/WikiCorpus/ (注3):http://mecab.googlecode.com/svn/trunk/mecab/doc/ (注4):http://press.liacs.nl/mirflickr/ 徴点の検出法として,bag-of-visual-wordsによる画像分類問題 において有効とされているdense sampling [9], [12]を用いた. dense samplingにおいて,グリッド幅を30×30ピクセル,局 所特徴記述子のスケールを30ピクセルとした.局所特徴量を 計算後,K-meansアルゴリズムを用いてクラスタリングを行 い,visual wordsに変換した.K-meansにおけるクラスタ数は
1000,5000,10000の3通りとした[12], [13].前処理後のデータ
セットBの情報を表2に示す.
表 2 前処理後のデータセット B
Tag SIFT HOG
Number of images 25000 Number of labels 11 Number of words 94283 5379100 4889792 Size of vocabulary 1386 {1000,5000,10000} 次節以降の2つの実験を行うために,いずれのデータセット でも分割を行った.まず,12299文書及び25000画像それぞれ に関して,文書単位(画像単位)で5分割した.そのうちの1 セットは,4. 4節で述べる既存手法との比較実験で使用するた めに予め確保した.残りの4セットは,4. 2節で述べる正則化 パラメータcの最適値を導出する実験にて4分割交差検定を行 うのに用いた.次節以降では,既存手法との比較実験で使用す る1セットのデータをテストデータ,残りの4セットのデータ を開発データと呼ぶことにする. 4. 2 開発データを用いた正則化パラメータcの最適値導出 実験 提案手法であるSCMLDA及び,既存手法であるMedLDA の2つのモデルにおいて,正則化パラメータcに対する最適値 を導出する実験を行った.本節では,各データセットの実験設 定について説明する. 開発データに対して4分割交差検定によりラベル分類の予測性
能をAccuracyにて評価した.Accuracyについて,SCMLDA
及びMedLDAの2通りそれぞれに関して正則化パラメータc を変化させた時の結果を測定した.但し,データセットの性質 上,正例よりも負例の方が割合的に大きくなるため,ラベルj に対する正例のcをc+j,負例のcをc−j とする時,c + j, c−j を以 下のように調節した. c+j = ϵ (6) c−j = ϵ×∑R nj j′=1nj′− nj (7) ここで,njはラベルjが付与された文書の総数である.また, cの値を必要以上に大きくならないようにするため,負例では なく正例をϵで固定した.トピック割り当ての確率式(式(4), 式(5))において,ラベルを考慮する項のみにcが含まれてお り,正例と負例の割合の偏りは最大でおよそ1:24となる.この 偏りを用いたまま負例を固定して正例を調節すると,c+j が非常 に大きな値を取り,ラベルを考慮する項の影響が非常に大きく なってしまうため,今回は正例を固定する方法をとった.ϵは {1, 2, 4, 8, 16, 32, 64, 128}の8通りで変化させて実験を行っ
た.但し,この範囲で極値が見つからない場合は,2のべき乗 に従って候補値を追加して極値を求めた.対称ディリクレハイ パーパラメータについては,α = 0.1,β = 0.01,γ = 1に設定 した.損失パラメータlは1とした.また,トピック数はデー タセットAでは20,データセットBでは100に設定した.初 期設定として,トピック及びピボットの割り当ては全てランダ ムに選択し,また,λの各要素は全て1とした.周辺化ギブス サンプリングにおける収束条件は200回とした. ところで,既存手法であるMedLDAは1つのモードに関し てのみしかモデル構築ができない.そこで,データセットAで は,日本語記事と英語記事に対訳関係があり形式も類似してい るため,日本語記事と英語記事のうち,同一の記事を結合させ て単一言語のデータセットとしてモデル構築を行った.一方, データセットBでは,画像データから特徴抽出を行ったSIFT 及びHOGと,テキストデータであるタグとでは情報の形式や 情報量が大きく異なるため,双方で結合させずにそれぞれの特 徴を1つのモードと仮定し,それぞれのモードについて最適値 を導出した. 4. 3 最適パラメータ導出実験の結果及び考察 双方のデータセットにおいて,SCMLDA及びMedLDAを 用いて,正則化パラメータcをそれぞれ変化させてAccuracy を測定した.まず,データセットAの実験結果について述べる. データセットAに対するAccuracyを図6に示す.エラーバー は標本標準偏差を示しており,横軸は正則化パラメータcで用 いられる割合パラメータϵ,縦軸はAccuracyを示している. Ϭ͘ϱ Ϭ͘ϱϱ Ϭ͘ϲ Ϭ͘ϲϱ Ϭ͘ϳ Ϭ͘ϳϱ Ϭ͘ϴ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Đ Đ Ƶ ƌĂĐ LJ εεεε ^D> DĞĚ> 図 6 データセット A における Accuracy 図 6 よ り,ϵ の 結 果 の 違 い は あ る が ,MedLDA よ り も SCMLDAの方が大きな値となっていることが分かる.これ は,MedLDAがモードを区別できないモデルであることから, 双方のモードの相互依存性を捉えることができずに生じた差で あると考えられる. また,SCMLDAではϵ = 2が,MedLDAではϵ = 8が最も 大きな値を取っていることが分かる.SCMLDAとMedLDA でそれぞれ最適値となるcが異なっている理由として,ラベル 評価関数が異なることが挙げられる.SCMLDAは全モードの トピック分布をラベル評価の計算に用いているため,トピック 間の相互作用が大きくなり,大きなcでは過学習を引き起こし, 最適なcが比較的小さな値となったと考えられる. 次に,データセットBの実験結果について述べる.SIFT及
びHOGでは,visual wordsの異なり語数(語彙数)を1000,
5000,10000の3通りにして実験を行っているため,それぞれ について結果を示す.visual wordsが1000,5000,10000にお けるAccuracyを図7,8,9に示す.また,タグのみを利用し たMedLDAによるAccuracyを図10に示す. Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Ϯϱϲ ϱϭϮ Đ Đ Ƶ ƌĂĐ LJ ɸ ^D>;^/&dнdĂŐͿ DĞĚ>;^/&dͿ ^D>;,K'нdĂŐͿ DĞĚ>;,K'Ϳ 図 7 データセット B における visual words の語彙数が 1000 の場合 の Accuracy Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Ϯϱϲ ϱϭϮ Đ Đ Ƶƌ Ă Đ LJ ɸ ^D>;^/&dнdĂŐͿ DĞĚ>;^/&dͿ ^D>;,K'нdĂŐͿ DĞĚ>;,K'Ϳ 図 8 データセット B における visual words の語彙数が 5000 の場合 の Accuracy Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Ϯϱϲ ϱϭϮ Đ Đ Ƶƌ Ă Đ LJ ɸ ^D>;^/&dнdĂŐͿ DĞĚ>;^/&dͿ ^D>;,K'нdĂŐͿ DĞĚ>;,K'Ϳ 図 9 データセット B における visual words の語彙数が 10000 の場 合の Accuracy
SCMLDAではSIFTまたはHOGのいずれかを画像特徴モー
ド,タグをテキストモードとして2種類のモードを用いてモデ
ル構築を行っている.一方,MedLDAではSIFT,HOG,タ
グの3つのうちのいずれか1種類のモードを用いてモデル構築
を行っている.図6と同様に,エラーバーは標本標準偏差,横
軸はϵ,縦軸はAccuracyを表している.
Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ Ϭ͘ϭϮϱ Ϭ͘Ϯϱ Ϭ͘ϱ ϭ Ϯ ϰ ϴ ϭϲ ϯϮ ϲϰ ϭϮϴ Đ Đ Ƶƌ Ă Đ LJ ɸ DĞĚ>;dĂŐͿ 図 10 データセット B におけるタグのみを用いた場合の Accuracy もSCMLDAの方が大きな値を取っていることが分かる.これ は,データセットAと同様に,テキストと画像特徴のような 全く異なる形式を持つデータに関しても,相互的な依存性を 捉えることによって分類精度が向上したと考えられる.また, visual wordsの語彙数を相対的に比較すると,語彙数が1000 の時,他よりも比較的に小さな値を取っていることが分かる. データセットBの画像特徴側に出現する総単語数は,SIFTが 5379100,HOGが4889792とタグよりも非常に大きな値となっ ている.このような大規模な情報に対し,粒度の粗いクラスタ リングを行うことで,分類時に重要な情報を集約してしまい, 分類精度が落ちてしまったと考えられる.一方で,語彙数が 5000及び10000の時,この違いによる大きな変化は見られな いことが分かる.そのため,これ以上細粒度のクラスタリング を行う意義は大きくないと考えられる.また,最適値となるϵ が,モデル内で使用するデータによってそれぞれ異なっている ことが分かる.全体的な傾向として,タグを用いたMedLDA ではϵ = 0.5∼1近辺,それ以外のモデルではϵ = 128近辺で 極値を取っている.タグのみを用いたMedLDAとそれ以外の モデルとで最適値が大きく異なる理由として,テキストと画像 特徴では形式が大きく異なることが挙げられる.画像特徴の場 合,特徴量としての精度が粗いことから,ギブスサンプリング におけるトピック割り当てにおいて,正則化パラメータを含む ラベル項を重視した学習にすることによりAccuracyが上昇し たと考えられる. 実験結果より,データセットAにおいて,最適値となるϵは, SCMLDAではϵ = 2,MedLDAではϵ = 8となった.よって, 次節の既存手法との比較実験においてはこれらの値を使用する. また,データセットBにおいては,画像特徴を用いる場合,3
種類のvisual wordsに関してAccuracyを算出している.本節
の実験にて決定した各種パラメータを表3にまとめる.4. 4節 の比較実験では,表3の値を使用する. 表 3 データセット B における最適値な ϵ 及び visual words 数 visual words ϵ SCMLDA SIFT+Tag 10000 128 HOG+Tag 10000 64 MedLDA SIFT 10000 128 HOG 10000 128 Tag — 1 4. 4 テストデータを用いた既存手法との比較実験 ここでは,4. 2節で導出した最適値cを利用して,2種類の データセットに関してSCMLDAのラベル予測精度に関する既 存手法との比較実験を行った.比較モデルは前節で最適値を導 出したMedLDAを使用した. 比較実験では,4. 2節の交差検定時に用いた4セットの開発 データを用いて推定した未知パラメータを用いて,予め確保し ておいたテストデータ(1セット)を用いてラベル予測を行った. 但し,潜在変数Zについてはリサンプリングにより推定し直し た.パラメータ推定法,評価指標,ハイパーパラメータの値, ギブスサンプリングにおける初期設定は,4. 2節と同じ設定で 実験を行った.MedLDAに関してもSCMLDAと同様の手順 で実験を行った.トピック数は,いずれのデータセットに関し ても10から10刻みで100までそれぞれ変化させた.一般的 には,トピック数は値を大きく取ると精度も良くなる傾向があ る.しかし,値が大きくなるほど計算コストも増大してしまう ため,今回はいずれのデータセットでも100で打ち切った. 4. 2節と異なり,本節では実験で使用するデータが1セット しか存在しない.そのため,4. 2節と同様の条件で実験を行う とエラーバーを付与することができず,Accuracyの信頼性も 低くなってしまう.そこで,本節ではモデルの学習の反復回数 について,160回から200回まで10回ごとにパラメータの出 力を行った.そして,5通りの結果に関してそれぞれリサンプ リング及びAccuracyの導出を行い,それらの平均を求めた. 4. 5 既存手法との比較実験の結果及び考察 4. 3節で導出した各モデルのcを用いて,2種類のデータセッ トに関して各モデルのラベル予測性能比較を行った.まず,デー タセットAに関する各モデルのAccuracyを図11に示す.横 軸はトピック数,縦軸はAccuracyを示しており,エラーバー は,反復回数160回から200回までについて10回ごとに出力 した5通りそれぞれの結果に対する標本標準偏差を表してい る.図11より,いずれのモデルに関しても,トピック数を大 きくすることによってAccuracyもゆるやかに上昇しているが, SCMLDAの方がより良い値を取っていることが分かる.これ は,4. 3節でも述べたように,SCMLDAは,双方のモードの 相互依存性を捉えることによって,マルチモーダルデータのラ ベル分類に適したトピックの構築が可能になると考えられる. 次に,データセットBに関する各モデルのAccuracyを図12 に示す.図11と同様に,横軸はトピック数,縦軸はAccuracy, エラーバーは,反復回数160回から200回までについて10回 ごとに出力した5通りそれぞれの結果に対する標本標準偏差を 表している. 図12より,データセットAの時と同様に,SCMLDAの方 が良い値を取っているが,データセットAと比較すると標本標 準偏差が大きくなっていることが分かる.これは,データセッ トAとBでそれぞれ導出した最適値ϵの違いによるものと考 えられる.データセットBでは,最適値となるϵを比較的大き な値に設定したため,トピック割り当ての際に用いられる確率 式(式(4),(5))において,ラベルを考慮する項である第4項 の影響が非常に大きくなる.そのため,パラメータが収束する
Ϭ͘ϱϱ Ϭ͘ϲ Ϭ͘ϲϱ Ϭ͘ϳ Ϭ͘ϳϱ Ϭ͘ϴ ϭϬ ϮϬ ϯϬ ϰϬ ϱϬ ϲϬ ϳϬ ϴϬ ϵϬ ϭϬϬ Đ Đ Ƶ ƌĂ Đ LJ EƵŵďĞƌŽĨƚŽƉŝĐƐ ^D> DĞĚ> 図 11 データセット A における SCMLDA と MedLDA の比較結果 Ϭ͘Ϯ Ϭ͘Ϯϱ Ϭ͘ϯ Ϭ͘ϯϱ Ϭ͘ϰ Ϭ͘ϰϱ Ϭ͘ϱ Ϭ͘ϱϱ Ϭ͘ϲ Ϭ͘ϲϱ ϭϬ ϮϬ ϯϬ ϰϬ ϱϬ ϲϬ ϳϬ ϴϬ ϵϬ ϭϬϬ Đ Đ Ƶƌ Ă Đ LJ EƵŵďĞƌŽĨƚŽƉŝĐƐ ^D>;^/&dнdĂŐͿ DĞĚ>;^/&dͿ DĞĚ>;^/&dнdĂŐͿ ^D>;,K'нdĂŐͿ DĞĚ>;,K'Ϳ DĞĚ>;,K'нdĂŐͿ DĞĚ>;dĂŐͿ 図 12 データセット B における SCMLDA と MedLDA の比較結果 ための反復回数も大きくなり,繰り返し数10回ごとの出力に 対する結果にばらつきが生じたと考えられる. 以上より,SCMLDAは,マルチモーダルデータにおけるラ ベル分類問題において,従来のラベル分類問題を解くトピック モデルであるMedLDAよりも高精度な予測が可能なトピック モデルであると言える.
5.
お わ り に
本研究では,マルチモーダルデータにおけるモード間の相互 依存性を考慮したトピックモデルであるSymCorrLDAに,最 大マージン学習を組み込んだSCMLDAを提案した.SCMLDA は,マルチモーダルデータに対しても,複数のモードを単一の モードに統合するような前処理を行うことなく,マルチラベル 分類が可能となる点において,従来と異なる.このモデルは, マルチモーダルデータに付与された多値のラベルに対し,マル チラベル分類を行うためのラベル評価関数を導入する.そして, 評価関数及びSCMLDAの各パラメータの事後分布に対する最 適化問題を解き,さらにデータ拡張の原理を用いて各パラメー タを周辺化することにより,SCMLDAの周辺化ギブスサンプ リングによるパラメータ推定を可能とする. 我々は実験にて,WikipediaとFlickrのそれぞれから抽出さ れた2種類のデータセットに対して,提案手法であるSCMLDA のモデル構築を行い,パラメータの最適値を決定した.さらに, その最適パラメータを用いて,Accuracyによりラベル分類の 精度を評価した.実験結果より,SCMLDAのラベル分類精度 が従来のラベル分類を行うトピックモデルであるMedLDAよ りも上回っていることを示した. 本研究では,提案モデルと既存モデルのいずれもトピックモ デルが基となっており,従って分類問題を解くだけでなく潜在 トピックを発見する利点を持つ.分類問題を解くという目的に 絞った場合の他手法との比較は今後の課題である.また,本実 験ではSCMLDAに適用するモード数をいずれも2に設定して 実験を行っている.実際はモード数が3以上の構築も可能であ るが,計算コストの増大や過剰適合など,他の問題も発生する と思われる.これらについても今後の検討課題である. 謝 辞 本研究の一部は,科学研究費補助金基盤研究(B)(50321576) の援助による. 文 献[1] Jun Zhu, Ning Chen, Hugh Perkins, and Bo Zhang. Gibbs max-margin topic models with data augmentation. The Journal of Machine Learning Research, Vol. 15, No. 1, pp. 1073–1110, 2014.
[2] David M Blei, Andrew Y Ng, and Michael I Jordan. La-tent Dirichlet Allocation. the Journal of machine Learning research, Vol. 3, pp. 993–1022, 2003.
[3] Kosuke Fukumasu, Koji Eguchi, and Eric P Xing. Symmet-ric correspondence topic models for multilingual text analy-sis. In Advances in Neural Information Processing Systems, pp. 1286–1294, 2012.
[4] David M Blei and Michael I Jordan. Modeling Annotated Data. In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in infor-maion retrieval, pp. 127–134. ACM, 2003.
[5] Thomas L Griffiths and Mark Steyvers. Finding scientific topics. Proceedings of the National academy of Sciences of the United States of America, Vol. 101, No. Suppl 1, pp. 5228–5235, 2004.
[6] Nicholas G Polson, Steven L Scott, et al. Data augmenta-tion for support vector machines. Bayesian Analysis, Vol. 6, No. 1, pp. 1–23, 2011.
[7] James P Callan, W Bruce Croft, and Stephen M Harding. The INQUERY Retrieval System. In Database and expert systems applications, pp. 78–83. Springer, 1992.
[8] Gabriella Csurka, Christopher Dance, Lixin Fan, Jutta Willamowski, and C´edric Bray. Visual categorization with bags of keypoints. In Workshop on statistical learning in computer vision, ECCV, Vol. 1, pp. 1–2. Prague, 2004. [9] Li Fei-Fei and Pietro Perona. A bayesian hierarchical model
for learning natural scene categories. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Com-puter Society Conference on, Vol. 2, pp. 524–531. IEEE, 2005.
[10] David G Lowe. Distinctive image features from scale-invariant keypoints. International journal of computer vi-sion, Vol. 60, No. 2, pp. 91–110, 2004.
[11] Navneet Dalal and Bill Triggs. Histograms of oriented gradi-ents for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, Vol. 1, pp. 886–893. IEEE, 2005.
[12] Eric Nowak, Fr´ed´eric Jurie, and Bill Triggs. Sampling strategies for bag-of-features image classification. In Com-puter Vision–ECCV 2006, pp. 490–503. Springer, 2006. [13] Adam Coates and Andrew Y Ng. The importance of
encod-ing versus trainencod-ing with sparse codencod-ing and vector quantiza-tion. In Proceedings of the 28th International Conference on Machine Learning (ICML-11), pp. 921–928, 2011.