ニューラルネットワークによる意味構成と
そのカーネル埋め込みを用いた多層非線形類似度学習
椿真史
1,a)Duh Kevin
1,b)新保仁
1,c)松本裕治
1,d)概要:自然言語処理の様々なアプリケーションにおいて,単語や句,文や文書などの意味的な類似度を適 切に計算することは重要である.このような類似度は単語ベクトル空間を用いることで,個々の単語間 であればある程度適切に計算することができる.しかし,個々の単語から文全体の意味表現をベクトル 空間上でどのように構成し,その類似度をどのように計算するかについては自明ではない.そこで我々 は本稿で,ニューラルネットワークによる意味構成とそのカーネル埋め込みを用いた多層非線形類似度 学習を提案する.提案法は,カーネル関数によって写像された高次元空間における表現学習であり,文 の意味構成にとってより適切な単語表現を新たに獲得することを可能にする.我々はこの提案法を,自 然言語処理のコンペティションであるSemEval 2014の文の意味的類似度データセット(Task 1: Sentences Involving Compositional Knowledge)を用いて評価した.その結果,ベースラインである線形手法,Recursive Neural Network (RNN),そしてコンペティションでの上位チームをすべて上回り,さらに構造化された Long Short-Term Memory (LSTM)と同程度の性能を達成した.
1.
はじめに
情報検索やテキストマイニングなどの自然言語処理アプ リケーションでは,単語や句,文や文書における類似度が 重要となる.そのような類似度を計算する単純な手法とし て,表層的な素性に基づくもの(例えば2つの文書に同じ 単語が出現する回数など)がある.しかしこのようなアプ ローチでは,言語が持つ「意味」を捉えることはできない. 古くから,単語ベクトル空間モデルに基づく意味研究が 行われており,近年でも盛んに研究されている[1], [2], [3]. 我々はこの単語ベクトル表現を用いることで,個々の単語 間の意味的な類似度であればある程度適切に計算すること ができる.しかし,複数の単語から文全体の意味表現をベ クトル空間上でどのように構成し,その類似度をどのよう に計算するかについては自明ではない.このような問題を 解決するため,単語ベクトル空間における意味構成の研究 が,特に近年盛んに行われるようになった[4], [5], [6], [7]. この研究の最終的な目標は,句や文の意味を適切に表現す るような単語ベクトルに対する関数,つまり意味の構成関 1 奈良先端科学技術大学院大学Nara Institute of Science and Technology, 8916-5 Takayama, Ikoma, Nara 630-0192, Japan a) [email protected] b) [email protected] c) [email protected] d) [email protected] 数を,適切にモデル化し学習することである. しかし,単語ベクトル空間モデルにおける意味構成の研 究には,未だ多くの問題が存在する.特に本稿で我々は, 以下の2つの問題に焦点を当てる. ( 1 ) 文の意味をその構造も含めて,ベクトル空間上でどの ように表現するのか? ( 2 ) 単語よりも遥かに多くのバリエーションを持つ文の意 味を,個々の単語ベクトル表現からどのように構成す るのか? これらの問題を解決するために我々は,文の構造と意味 を単語ベクトル空間よりも高い表現力を持つ高次元空間 において学習することに焦点を当てる.例えば,”Newton was inspired to formulate gravitation by watching the fall of an
apple from a tree.”という文が表現され得る空間は,”apple”
や”gravitation”,”formulate”や”by”などの個々の単語が表
現されている空間とは異なり,文が持つより複雑な構造と 豊かな意味を表現できなければならない.つまり我々は, 単語から文の意味構成に伴い,より表現力の高い高次元空 間をも同時に構成し学習する必要がある. 本稿で我々は,ニューラルネットワークによる意味構成 とそのカーネル埋め込みを用いた多層非線形類似度学習 を提案する.我々は,計量学習[8]の研究の中でも特に, カーネル関数を用いたその非線形拡張[9]に焦点を当てる. この提案法の概略を図1に示す.この図にあるように提
Word vector space Sentence vector space x’ = f (w1,w3,w8) x = f (w1,w2,w5, w7) w1 w2 w3 w4 w5 w6 Φ(x) Φ(x’)
Semantic similarity learning in a high-dimensional space Φ via Kernels Update word
vector representations
Transformation f in a low-dimensional space
Encoding meanings and structures of sentences
w7
w8
w9
Space Φ has a higher representational power than that of word x y y x x’ z’ y’ 図1 提案法の概略図.我々は,カーネル関数によって写像される高 次元空間が,構成に伴なって生じる複雑な構造と豊かな意味を, よりシンプルに表現し学習できることに着目する.提案法は, 文の高次元意味ベクトル表現を陽に計算することなく,カーネ ルによって写像された高次元空間においてその類似度のみを計 算し学習することで,文の意味構成により適した単語表現を新 たに獲得する. 案法は,文の高次元意味ベクトル表現を陽に計算するこ となく,カーネルによって写像された高次元空間におい てその類似度のみを計算し学習することで,文の意味構 成により適した単語表現を新たに獲得する.また我々の アプローチは,Recursive Neural Network (RNN) [6], [10]や
Long Short-Term Memory (LSTM) [11]などの自然言語処理 におけるDeep Learningの手法とは一線を画する.これら の手法は文の構造と意味を,低次元空間において詳細かつ 複雑にモデル化するが,提案法は低次元空間と高次元空間 の双方を用いることでそれらをよりシンプルに表現し学習 することができる(図2と5.4節参照). 本稿の貢献は以下の3点である. ( 1 )低次元空間における構造表現と,高次元空間における 意味学習の双方を用いることで,複雑な構造を持つ文 の意味構成のための新たな単語表現学習法を提案した. ( 2 )提案法は,自然言語処理のコンペティションである SemEval 2014の文の意味的類似度データセット(Task 1: Sentences Involving Compositional Knowledge)にお いて,ベースラインである線形手法,Recursive Neural Network (RNN),そしてコンペティションでの上位チー ムをすべて上回り,さらに構造化されたLong Short-Term Memory (LSTM)と同程度の性能を達成した. ( 3 )我々は,ベクトル空間での意味構成モデルにおける ニューラルネットワークによる非線形関数の多層適 用と,非線形カーネルによる高次元空間への写像とい う2つの手法の非線形性に関して,新たな視点を提供 した.
2.
背景
2.1 単語ベクトル空間と文の意味構成モデル 単語をベクトルによって表現する手法はこれまで数多く 提案されており,古くは単語の共起頻度行列の特異値分解 に基づく潜在意味解析から,近年ではニューラルネット ワークを用いたニューラル言語モデルに至るまで,そのアプ ローチは様々である[1], [2], [3], [12], [13], [14], [15], [16]. これらはアプローチの違いこそあれど,得られた単語ベク トル間の距離や内積を計算することで,単語間の意味的な 類似度をある程度適切に計算することができるという点に おいては共通している. しかし一方で,複数の単語から句や文の意味表現をベ クトル空間上でどのように構成し,その類似度をどのよ うに計算するかについては自明ではない.そのため,単 語ベクトルを用いた句や文の意味表現の計算法や学習法 が,一つの研究分野として新たに注目されるようになっ た[4], [17], [18]. この研究では具体的に,複数の単語ベク トルとそれらに対する構成関数(行列やテンソル,ニュー ラルネットワークなどから作られる)を用いることで,句 や文のベクトルを適切に表現し学習するモデルを構築す る[5], [6], [7], [19].これらの中でも特に重要なのが,Deep Learningの一手法であるRecursive Neural Network (RNN)である.RNNは,構文木とニューラルネットワークを用 いて,任意の長さの文を1つのベクトルで表現し学習する ことができる.まず,2つの単語wiとwjに対するd次元 ベクトルd(wi)とd(wj)から,句ベクトルpを以下の構成 関数を用いて計算する. p = g ( W [ d(wi) d(wj) ]) = g(Wld(wi) + Wrd(wj)). ここで,W = [Wl; Wr]∈ Rd×2dは学習する重み行列(; は行列の連結を表す),gはtanhなどの非線形関数である. 次に,このWによる線形変換とgによる非線形変換を,文 の木構造に合わせすべての単語ペアに対して再帰的に適用 し,最終的に一つの文ベクトルを得る.ここでこの文ベク トルは,単語と同じd次元表現となることに注意されたい. 2.2 計量学習とその非線形拡張 本稿の冒頭で述べた類似度(以降,より一般的に計量と呼 ぶ)は,自然言語処理だけでなく機械学習全般において重 要である.なぜならすべての機械学習手法は,各々のデー タ点が適切な計量を持つことが前提となっており,それに 基づき分類,クラスタリング,回帰などが行われる(ここ での適切な計量とは,似たデータであればベクトル空間に おいてそれらの距離が小さい,あるいは内積が大きいとい うことを意味する).そのため機械学習の分野では,計量 学習と呼ばれる分野が古くから存在する[8].適切な計量
とは解くべき問題に依存して決まるものの,どのような場 合においても計量学習の最終的な目標は同じである.それ は,問題を解く上でより適切な距離や類似度を持つベクト ル空間を,新たに獲得することである. 例えば距離学習[20], [21]では主に,以下のマハラノビ ス距離と呼ばれる計量を最適化する. DM(x, x′) = (x− x′)TM(x− x′). ここでxとx′は特徴ベクトル,Mは学習する変換行列(半 正定値行列)である.また一方で類似度学習[22], [23]では 主に,内積に基づく計量を学習する. KM(x, x′) = xTMx′. ここで,M = WTWのように分解することで,式(2)は 以下のように書くことができる. DM(x, x′) = (x− x′)TM(x− x′) = (x− x′)TWTW(x− x′) = (Wx− Wx′)T(Wx− Wx′) = ||Wx − Wx′||2. 同様に式(3)も最終的には以下のように書くことができる. KM(x, x′) = (Wx)T(Wx′). つまり,距離ないしは類似度学習は,元のデータ点xとx′ を適切なユークリッド距離ないしは内積を持つ空間へと変 換する行列Wを学習することと等価である. さらにこの計量学習は,カーネル関数を用いることで非 線形に拡張することができる[9], [24], [25], [26].カーネル 関数をKとすると,元データx∈ Xを高次元再生核ヒル ベルト空間Hへ,その高次元ベクトル表現ϕ(x)を陽に計 算することなく,その内積ϕ(x)Tϕ(x′)のみを用いること で写像し表現することができる.我々は計量学習における カーネル化によって,問題を解くためのより良い高次元空 間を新たに獲得する. 2.3 ペアデータに対するニューラルネットワーク 近年のDeep Learningの発展に伴い,ニューラルネット ワークをペアデータに対して用いる研究が盛んに行われて いる.ペアデータとは例えば,異なる言語のパラレルコー パスや,画像データとその説明文のペアなどである. HermannとBlunsom [27]はパラレルコーパスを用いて, 異なる言語で書かれているが内容が同一の文書をベクトル で表現し,それらのユークリッド距離を最小化することで, 様々な言語の単語ベクトルを学習する手法を提案してい る.またGaoらも[28]パラレルコーパスを訓練データとし て,機械翻訳のためのニューラルネットワークを構築して いる.このモデルでは,原言語と目標言語のペアを共通の 低次元ベクトル空間で表現し,それらの翻訳スコアを距離 や内積を用いて計算し最適化する.さらにKielaとBottou [29]は,画像と言語のペアデータ利用したマルチモーダル なニューラルネットワークを提案している. このように,ペアデータを用いた研究は様々にあるもの の,これらの研究を2.2節の計量学習の観点から捉え直す と結局は,xとx′を特徴ベクトル,Nを非線形変換とした 上で,距離||N(x)−N(x′)||2や内積N (x)TN (x′)をニュー ラルネットワークを用いて最適化していることと等価であ る.つまり,計量学習における変換行列Wにtanhなどの 非線形関数を適用した拡張であり,これは主に情報検索分 野などでDeep Metric Learningと呼ばれている[30].
2.4 確率分布あるいはBOWsデータのカーネル埋め込み カーネル埋め込み(Kernel Embeddings)と呼ばれる手法 では主に,確率分布が持つ高次モーメント情報をガウシ アンカーネルなどを用いて保持した上で,それを再生核 ヒルベルト空間H上の一点として表現する[31], [32].こ れを画像処理や自然言語処理における分類タスクで用い る際には,画像や文書などのデータを分布によって表現 した上で,その分布間のカーネルを計算しSVMを適用す る[33], [34].より具体的に文書分類タスクを例に挙げる と,まず文書データを単語ベクトルの集合として表現し, それをDとする.次に,2つの文書データDとD′間の類 似度sim(D, D′)を,分布間のカーネル埋め込みを用いて以 下のように計算する. sim(D, D′) = 1 |D||D′| |D| ∑ i=1 |D′| ∑ j=1 K(xi, xj). ここで|D|は文書に含まれる単語数,xは単語のベクトル を表す.つまりこの文書間類似度は,2つ文書に出現する すべての単語ベクトル間のカーネル平均を計算しているに 過ぎない.このように,文書間の類似度を分布間のカーネ ル埋め込みとして定義できたことで,最終的にはこのカー ネルに基づき通常のSVMを用いて文書を分類することが できる. これもまた,計量学習の観点から捉え直すと,ベクトル の集合として表現されたデータに対して適切な計量を学 習していることに相当する.しかし,このような確率分布 間に対するカーネル埋め込みでは,埋め込むデータ表現が
Bog Of Words (BOWs)に限定されてしまう.そのため,よ り複雑な構造を持つデータに適用する際には,BOWsとは 異なる表現とそれに対する新たなカーネル埋め込みのアプ ローチが必要となる.
3.
提案法
この章で我々は,ニューラルネットワークによる意味構 成とそのカーネル埋め込みを用いた多層非線形類似度学習を提案する.訓練データは,{((Si, Si′), yi)}Ni=1の形式で 与えられられる.ここで,(Si, S′i)は2つの文Sのペア, yi∈ [0.0, 1.0]は(Si, Si′)に対する正規化された類似度スコ アとする. 我々の最終目標は,文の意味構成のための新たな単語表 現学習モデルを構築することである.そのために我々は, 低次元空間における文の構造と意味の表現(3.1節)と,高 次元空間におけるそのカーネル埋め込みを用いた非線形 類似度学習(3.2節)とを組み合わせる.そして最終的に, カーネル埋め込みの多層化を試みる(3.4節).このような 意味構成モデルに対する我々のアプローチは,以下の仮説 に基づいている. • 何らかの構成的な表現(ここでは文とする)は,それを 構成する要素(この場合は個々の単語)が表現されてい る元空間よりも,表現力の高い別空間において学習す る必要がある. ここで我々は,ベクトル空間における意味構成のモデル化 を,構成的表現の計量学習という観点から捉え直す.する と,ニューラルネットワークを用いた意味構成の従来研究 が,低次元空間において詳細かつ複雑にモデル化する制約 を受けた上で計量を学習していることに気づく(図2の上 段を参照).これを踏まえ我々は,カーネル関数によって写 像される高次元空間が,構成に伴なって生じる複雑な構造 と豊かな意味を,よりシンプルに表現し学習できることに 着目する(図2の下段と5.4節参照). 3.1 低次元空間での文の構造と意味の表現 この節では,文の構造と意味を表現するための,幾つか の構成関数を導入する.我々は,文Sの構造と意味を表現 する低次元ベクトルxを,構成関数fを用いて計算する. 特に本稿では,以下の2つの関数を用いる. ま ず 最 も 単 純 に ,文 ベ ク ト ル を x = fSUM(S) = ∑ w∈Sd(w)と計算する.ここで,wは文Sに含まれる 単語,d(w)∈ Rdは単語wに対するd次元ベクトルであ る.これは単語ベクトルの単純な和に基づく文のBOWs表 現であり,文が持つ構造情報は保持されず,文に含まれる 単語の共起情報のみが考慮される. もう一つの構成関数として我々は,単語ベクトルに対す る連結演算を用いて,文の構造を保持したベクトルを以下 のように計算する. x = fSTR(PS) = g ∑ (wi,wj)∈PS h ( W [ d(wi) d(wj) ]) . (1) ここでPSは,文Sが持つ構文的あるいは意味的に関係の ある単語ペアの集合,W∈ Rd×2dは学習する重み行列,wi は文Sにおけるi番目の単語,そしてgとhは線形関数あ るいは非線形関数であるtanhとする.特に,重み行列W は以下の2通りで与えられる. W = W(pos(wi),pos(wj)) W(sem(wi),sem(wj)), (2) ここで,pos(w)は単語wに対する品詞タグ,sem(w)は単 語wに対する述語項構造ラベル(例えば,意味上の主語や 目的語などを表すタグ)である.このように,各単語ペア が持つ構造ラベルペアに対して重み行列を設定し学習する ことで,文が持つ構造の情報を適切に保持しつつ学習する ことが可能となる.さらに我々は,項を2つ持つ単語に対 して,上式を以下のように拡張する. x = fSTR(PS) = g ∑ (wi,wj,wk)∈PS h W d(wi) d(wj) d(wk) . (3) この構成関数は,文の動詞における意味上の主語や目的語 などの関係を,より自然かつ直接的に捉えることができる.
例えば,”A man in a blue jumpsuit is courageously
perform-ing a wheelie on a motorcycle.”における
”man-performing-wheelie”や,”A girl in a uniform, which is blue, is quickly
raising her arm.”における”girl-raising-arm”などである.
上記の構成関数は,重み行列の設定に述語項構造ラベル を用いる点などを除けば,Socherら[10]のモデルと類似し ている.またこれまで,テンソル演算やより多層のニュー ラルネットワークなどを用いる構成関数[7]が様々に提案 されているが,これらに関しては今後の課題とする. 3.2 カーネル埋め込みを用いた高次元空間における非線形 類似度学習 この節で我々は,カーネル埋め込みを用いた非線形類似 度学習を提案する.まず,ベースラインである線形カー ネルKとして,正規化された内積であるコサイン類似度 Kcos(x, x′) = xTx′/||x||||x′||を用いる.ここで,xとx′は 3.1節で計算した文ベクトルである.本稿では,適切な類 似度計算のため,あるいは計算の単純化のためだけでなく, 学習時にカーネルの値を制御するために,すべてのカーネ ル関数K を以下のように正規化する.正規化されたカー ネルは,写像された空間におけるコサイン類似度となり, 以下のように表現される. Kcos(ϕ(x), ϕ(x′)) = K(x, x ′) √ K(x, x)√K(x′, x′). (4) ここでϕ(x)∈ Rϕは,非線形カーネル関数Kによって写 像された高次元空間におけるxの特徴ベクトルである.こ のような非線形カーネルとして我々は,以下の正規化され た多項式カーネルKpolyとガウシアンカーネルKrbfの2つ を用いる.
Kpoly(x, x′) = ( c + Kcos(x, x′) c + 1 )p , (5) s.t c≥ 0, p ∈ N, Krbf(x, x′) = exp ( Kcos(x, x′)− 1 σ2 ) (6) s.t σ≥ 0. 次に我々は,2つの文SとS′の類似度K(S, S′)を,3.1 節のSUMとSTRのモデルに対するカーネルを組み合わせ て計算する.本稿では文の類似度計算に,以下の2つの関 数を用いる.
KSUM(S, S′) = K(fSUM(S), fSUM(S′)), (7)
KSUM+STR(S, S′) = K(fSUM(S), fSUM(S′))
+ K(fSTR(PS), fSTR(PS′)). (8) 最終的な目的関数は以下のL(Θ)であり,訓練データ {((Si, S′ i), yi)}Ni=1に対してこれを最小化する. L(Θ) = N ∑ i=1 1 2{yi− K(Si, S ′ i)}2+ λ 2||Θ|| 2. (9) ここで,Θはモデルにおける学習パラメータの集合であり, 単語ベクトル表現d(w),重み行列W,そしてカーネル関 数内のパラメータ(多項式カーネルではc,ガウシアンカー ネルではσ)がこれに含まれる.このように我々は,文の 高次元意味ベクトル表現を陽に計算することなく,カーネ ルによって写像された高次元空間においてその類似度のみ を計算し学習することで,文の意味構成により適した単語 表現を新たに獲得する(図1参照). 我々がこの提案法において特に強調したいのは,低次元 空間における文の構造と意味の表現と,高次元空間におけ るそのカーネル埋め込みを用いた非線形類似度学習とを組 み合わせることである.これにより,低次元空間のみを用 いて詳細かつ複雑にモデル化するニューラルネットワーク よりも,意味構成のための単語表現学習をよりシンプルに デザインできる(図2と5.4節を参照).また,本稿の主旨 からは逸脱するが,ベクトルデータだけでなく構造データ についても同様に,何らかのカーネルを定義した上で表現 学習を適用することも可能である*1. 3.3 学習における勾配計算 我々は,単語ベクトルw = d(w)を学習するため,まず 勾配∂L/∂wを計算し,次に勾配法を用いて目的関数Lを 最小化し,最終的に新たな単語ベクトルwnewを更新する. 多項式カーネルとガウシアンカーネルを用いた場合,勾配 は以下のように計算される. *1 本稿では,文SとS′は最終的にベクトルによって表現されるが, 提案する表現学習法はグラフ構造や木構造を持つ構造データに対 しても拡張できる[35]. ∂Kpoly ∂w = p ( c + Kcos c + 1 )(p−1)( 1 c + 1 ) ∂Kcos ∂w , ∂Krbf ∂w = exp ( Kcos− 1 σ2 ) ( 1 σ2 ) ∂Kcos ∂w . ここで勾配∂Kcos/∂wは,コサイン類似度の単語ベクトル による微分で計算できる.コサイン類似度Kcos(x, x′) = xTx′/||x||||x′||のxによる微分は,以下の通りである. ∂Kcos(x, x′) ∂x = ||x||||x′||x′− xTx′||x′|| x ||x|| (||x||||x′||)2 . この勾配を用いて,単語ベクトルwを以下のように更新す る(ここでαは学習率). wnew= w− α ∂K ∂w また我々は,重み行列に関しても勾配を計算し,単語ベ クトルと同様に勾配法を用いて更新する. ∂Kpoly ∂W = p ( c + Kcos c + 1 )(p−1)( 1 c + 1 ) ∂Kcos ∂W , ∂Krbf ∂W = exp ( Kcos− 1 σ2 ) ( 1 σ2 ) ∂Kcos ∂W , ここで∂Kcos/∂Wは,コサイン類似度の重み行列による微 分である.実際には,3.1節の重み行列を用いた構成関数 によって複雑に計算されるが,ここでは単純に,ベクトル WxとW′x′のコサイン類似度を例にしてこの勾配計算を 述べると,以下のようになる. ∂Kcos ∂W = ||Wx||||W′x′||(W′x′)Tx− (Wx)T(W′x′)(Wx)Tx ||Wx|| (||Wx||||W′x′||)2 . さらに我々は,多項式カーネルとガウシアンカーネル内 のパラメータであるcとσに関しても勾配を計算し,単語 ベクトルと重み行列同様に勾配法を用いて更新する. ∂Kpoly ∂c = p ( c + Kcos c + 1 )(p−1)( 1− Kcos (c + 1)2 ) ∂Krbf ∂σ = exp ( Kcos− 1 σ2 ) ( 2(1− Kcos) σ3 ) 3.4 非線形類似度学習の多層化 提案法の最後として,カーネル埋め込みを多層化するこ とを試みる.本稿で多層化するカーネルには,ガウシアン カーネルの他,以下の一般多項式カーネルを用いる. Kgpoly(x, x′) = (1 + Kcos′ (x, x′))n (10) s.t |Kcos′ (x, x′))| < 1, n ∈ R これは,多項式カーネルの次数pを実数値nとしたもので あり,本稿でこれを一般多項式カーネルと呼ぶ.これは, アイザック・ニュートンが1665年頃に発見した一般二項
定理を用いた,多項式カーネルの自然かつ容易な拡張であ る.式(17)は,ガンマ関数 Γ(z) = ∫ ∞ 0 tz−1e−tdt を用いて,以下のように無限級数展開される*2. Kgpoly(x, x′) = ∞ ∑ k=0 Γ(n + 1) Γ(k + 1)Γ(n− k + 1)Kcos(x, x ′)k. この拡張により,次数nも学習パラメータとすることで, 多項式カーネルにおける素性の組み合わせ次数をも同時に 最適化できる. 以上を踏まえて,ガウシアンカーネルと一般多項式カー ネルを再帰的に適用して,各々を以下のように多層化する. Krbfℓ (x, x′) = exp ( −1− K ℓ−1 rbf (x, x′) σ2 ℓ ) , (11) Kℓ gpoly(x, x′) = (1 + K ℓ−1 gpoly(x, x′)) n. (12) ここで,ℓは多層カーネルにおける層数であり,ℓ = 0の時 を1層のガウシアンカーネル(式(6))と一般多項式カーネ ル(式(10))とする.このようにカーネルを多層化すること で,カーネル内パラメータ(ガウシアンカーネルではσ,一 般多項式カーネルではn)が増え,ℓ次元ベクトルとなる. この多層カーネルを用いることで,表現力の高い高次元空 間へ階層的に写像することができ,またそれはℓ次元のベ クトルパラメータによって適切な類似度を持つ空間として 制御される.目的関数は式(9)と同様であり,学習は多層 カーネルを再帰的に微分し3.3節で述べた勾配計算を用い て行う.
4.
実験
4.1 データセットと評価 提案法の評価には,自然言語処理のコンペティションであ るSemEval 2014の文の意味的類似度データセット(Task 1: Sentences Involving Compositional Knowledge,以下SICK)を用いる.このSICKは,与えられた2つの文に対する類似 度を予測するタスクであり,その類似度は人手によって1.0 から5.0の範囲でスコア付けされている(表1参照).この データセットには9927の文ペアが含まれており,訓練デー タ,開発データ,テストデータはそれぞれ4500/500/4927 と分割されている.具体的な評価指標には,モデルによっ て計算された類似度とデータセットのスコアとのピアソン 相関係数r,スピアマン相関係数ρ,平均二乗誤差(MSE) を用いる.データセットとタスクに関する詳細は[36]を参 照されたい. *2 この無限級数における係数は,n次を過ぎた直後急激に減衰し, 正と負の微小な値の両方を取るため,厳密にこれは正定値カーネ ルではないことに注意されたい. 4.2 実装の詳細 提案法における目的関数は式(9)のL(Θ)であり,これ を最小化する.Θは提案法における学習パラメータの集合 であり,ここでは以下の3つである. ( 1 ) 訓練データに現れるすべての単語のベクトル. ( 2 ) 構造ラベルペアを用いて設定した重み行列W(3.1節 参照). ( 3 ) 多項式カーネルとガウシアンカーネル内のパラメータ であるcとσ. 文の構文解析にはEnju*3を用い,構文的あるいは意味的な 関係にある単語間の品詞タグと述語項構造ラベルを用いて 重み行列Wを設定する. モデルのハイパーパラメータは,開発データを用いて調 整する.まず我々は,単語ベクトル表現を以下の4つを用 いて初期化する: ( 1 ) Randomベクトル:ベクトルの各要素は,-1.0から1.0 の範囲でランダムな値に初期化する. ( 2 ) LSA [15] :潜在意味解析(LSA) [1]によって得られた, 50次元の単語ベクトル表現. ( 3 ) NLM [2]*4 : ニューラル言語モデル(Neural Language Model)によって学習された,50次元の単語ベクトル 表現. ( 4 ) GloVe [3]*5:単語の共起頻度と最小二乗法に基づくモ デルで学習された,50次元の単語ベクトル表現. また,すべての重み行列Wは,単位行列にガウシアンノ イズを加えたW = I + ϵで初期化する.さらに,カーネ ル内パラメータの初期値はそれぞれ,多項式カーネルでは c = 1.0,ガウシアンカーネルではσ = 1.0とする.特に多 項式カーネルについては,すべての実験において次数pを 4とし,多層カーネルの場合もすべてのパラメータを同様 に初期化し,3層と6層の場合で実験を行う.モデルの学 習は勾配法の一種であるAdaGrad [37]を用いて行い,学習 率はそれぞれ,単語ベクトル表現に対してα = 0.5,重み 行列β = 10−2,カーネル内パラメータγ = 10−3,そして 正則化項についてはλ = 10−6とする. 4.3 比較する既存研究 まず我々は提案法と,コンペティションの上位チームで あるECNU,The Meaning Factory,UNAL-NLP,Illinois-LH [38], [39], [40], [41]とを比較する.これらのチームはすべ て,人手で設計した様々な種類の特徴量を用いている.ま た,自然言語処理におけるDeep Learningの代表的な手法 であるRecursive Neural Network (RNN) [10]とLong Short-Term Memory (LSTM) [11]とも比較する.これらのモデル ではニューラルネットワークを用いて,文の意味ベクトル *3 http://www.nactem.ac.uk/enju/index.html
*4 http://ronan.collobert.com/senna/ *5 http://nlp.stanford.edu/projects/glove/
文A 文B 類似度スコア A man and woman are talking. A man and a woman are having a conversation. 4.8 A football player in a purple jersey is breathlessly
running with the ball for a touchdown.
A football player in a purple jersey is running with the ball for a touchdown.
4.5
A woman is scrubbing a zucchini with a vegetable brush.
A woman is eating zucchini and vegetables and scrubbing with a brush.
3.2
Two people are carrying colorful baskets and blan-kets and walking near a building.
Two people are sitting with laden baskets and blan-kets.
2.8
A man is jumping into an empty pool. There is no biker jumping in the air. 1.2 A person is not chopping an onion. A person is riding a motorcycle. 1.1
表1 SICKのデータセットに含まれる様々な文とその類似度スコアの一例.
Method r ρ MSE
Cosine (SUM) 0.7588 0.7391 0.4820 Poly (SUM) 0.8332 0.7810 0.3205 RBF (SUM) 0.8339 0.7804 0.3162 Cosine (SUM + STR POS) 0.7510 0.7429 0.4510 Poly (SUM + STR POS) 0.8301 0.7858 0.3176 RBF (SUM + STR POS) 0.8325 0.7721 0.3094 Cosine (SUM + STR SEM) 0.7647 0.7435 0.4787 Poly (SUM + STR SEM) 0.8480 0.7968 0.2904 RBF (SUM + STR SEM) 0.8447 0.7923 0.2968 表2 様々なモデルの相関係数とMSEの結果.ここでは,構成関数 fSTRにおけるgとhをすべて線形としている. を低次元空間のみを用いて表現し学習する.これらの手法 の詳細については,5.4節と6章の関連研究で述べる.
5.
結果と考察
5.1 類似度学習における線形と非線形モデルの比較 表2は,様々な構成関数(ここでSTRにおけるgとhは 線形とする)とカーネル関数(コサイン,多項式カーネル, ガウシアンカーネル)を用いた時の,相関係数とMSEであ る.ここで用いた単語ベクトル表現はすべて,50次元の GloVeである.考察は以下の通りである. ( 1 )相関係数とMSEのすべてにおいて,非線形カーネル (多項式カーネルとガウシアンカーネル)を用いた時 が,線形カーネル(コサイン)の結果を大きく上回っ ている.特に,多項式カーネル(SUM+STR SEM)が, 本稿で実験したモデルの中で最も良い性能を示してお り,ピアソン相関係数が0.8480,スピアマン相関係数 が0.7968, MSEが0.2904となっている.これらの結 果は,高次元空間における非線形類似度学習が,文の 意味構成により適した単語ベクトル表現の獲得に効果 的であることを示している. ( 2 ) STRモデル,つまり文の構造を考慮する方が,SUMモr (g and h are identity) r (g and h are tanh)
Cosine 0.7647 0.7717 Poly 0.8480 0.8392 RBF 0.8447 0.8393 表3 意味構成における線形と非線形モデルの比較.線形の意味構成 と非線形の類似度学習の組み合わせが,高い相関係数を示して いる. デル,つまりBOWsよりも全体的に高い性能を示して いる.特に,述語項構造解析のラベルを用いて重み行 列を設定し学習するモデルであるSTR SEMが,最も 良い結果となっている.しかし一方で,非線形類似度 学習を用いさえれば,たとえSUMであったとしても 0.8以上の高い相関係数を示していることが確認でき る.この結果は,文を単語ベクトルの和で単純に表現 したとしても,非線形類似度学習によって良い性能を 達成できること,そしてこれは,ベクトルの和によっ て文における単語の共起情報を捉えることが,非常に 重要だということを示唆している. 5.2 意味構成における線形と非線形モデルの比較 表3は,構成関数と類似度学習における線形と非線形の 組み合わせパターンと,その相関係数(ピアソン)の結果を 示している.ここで用いた単語ベクトル表現はすべて,50
次元のGloVeであり,意味構成モデルはSUM+STR SEM
である.考察は以下の通りである. ( 1 ) 非線形カーネル埋め込みを用いる方が,ニューラル ネットワークの非線形関数を用いるよりも,相関係数 の上昇が高いことが確認できる.これは,単語ベクト ル空間において文の意味構成をモデル化する際は,低 次元空間ではなく高次元空間を用いる方がより効果的 であることを示している. ( 2 ) 線形の意味構成と非線形の類似度学習の組み合わせ が,この中で最も良い結果となっている.このモデル の組み合わせの大きな利点は,実装やその最適化が容
r (RBFカーネル) r (一般多項式カーネル) 1層 0.8339 0.8332 3層 0.8001 0.8276 6層 0.7786 0.8187 表4 多層カーネルを用いた際の結果.多層にすればするほど,相関 係数が低下するのが確認できる. 易なことである.我々は,低次元空間で詳細かつ複雑 にモデル化したニューラルネットワークを構築するこ となしに,低次元空間と高次元空間の双方を用いてよ りシンプルに単語表現学習モデルを構築することがで きる. 5.3 カーネル埋め込みの多層化 表4は,多層カーネルを用いた際の相関係数の結果であ る.これを見る通り,カーネルの多層化によって相関係数 が徐々に下がるのが確認できる.特に,ガウシアンカーネ ルの多層化では,一般多項式の多層化に比べてより相関係 数の降下が大きい.これは,ガウシアンカーネルでは無限 次元空間への写像となり,モデルが過学習しているためと 考えられる.いずれにせよ,カーネルの単純な多層化とそ の学習のみでは性能の向上は期待できず,過学習を防ぐよ うな最適化における何らかの別の戦略を取る必要がある. 5.4 既存研究との比較 表5は,様々な既存研究の結果と提案法の結果との比較 を示している.考察は以下の通りである. ( 1 )我々の提案法は,コンペティションの上位4チーム を上回る結果を示している.これらの上位チームはす べて,人手で特徴量を設計して学習する素性エンジニ アリングベースの手法である.このことから,結果だ けでなく手法のシンプルさにおいても,提案法に優位 性がある.提案法は主に,単語ベクトル表現の学習が ベースとなる手法であり,詳細な素性の設計や外部リ ソースを一切必要としない. ( 2 )提案法はRNNモデルであるDT-RNNとSDT-RNN [10] よりも高い相関係数を示している.これらは,ニュー ラルネットワークの非線形関数を用いて低次元の文 ベクトルを計算するモデルであり,類似度学習に非線 形性を持たせる構造にはなっていない.また提案法 は,たとえ構造を無視したBOWsモデルであるSUM であったとしてもRNNを上回っており,RNNは文 の構造の詳細なモデル化によって,逆に性能を低下さ せる危険性があることを示している.一方で,提案法 のカーネルを用いた非線形類似度学習は,より頑健で ある. ( 3 )提案法は,LSTMの様々なモデルとほぼ同性能を達成 しており,特にスピアマン相関係数では2位にランク 図3 様々なカーネルを用いた時の学習曲線.横軸が訓練データに対 するイテレーション回数,縦軸がテストデータに対する相関係 数となっている. している.このこともまた,提案法の頑健さと高次元 空間における類似度学習が効果的であることを示し ている.また図2は,ニューラルネットワークを用い て文ベクトル表現を直接計算するRNNやLSTMなど の手法と,我々のカーネルを用いた提案法のモデルの 比較図である.これらのモデルでは,ベクトル空間に おいて意味構成をモデル化する際に,非線形性と高次 元性において重要な類似点と相違点がある.RNNや LSTMような文ベクトルを陽に計算するモデルでは, 構文の構造とニューラルネットワークの構造の双方か らくるモデル上の制約によって,単語と同一次元の空 間において文を表現する必要が生じる.これとは対照 的にカーネルを用いた提案法は,そのような制約を受 けることなく,構造と意味をより柔軟に表現し適切に 学習することができる. 5.5 カーネル内パラメータの最適化と学習曲線 図3は,様々な種類のカーネルを用いた時の,訓練デー タに対するイテレーション回数とテストデータに対する相 関係数の挙動を示している.ここでは,多項式カーネルと ガウシアンカーネル内のパラメータの初期値をそれぞれ c = 5.0,σ = 5.0としている. ここで興味深いのは,ガウシアンカーネルを用いた場合, 訓練の初期段階では相関係数がコサインよりも低く,また 相関係数も一度下がっていることである.しかし,ガウシ アンカーネル内のパラメータであるσが学習されるに従 い,相関係数は急激に上昇しコサインを上回り,最終的に は多項式カーネルとほぼ同程度の結果となる.これは,ガ ウシアンカーネルを用いた非線形類似度学習の性能が,σ に大きく依存することを示している.このことは,σが多
Method r ρ MSE Illinois-LH run1 [41] 0.7993 0.7538 0.3692 UNAL-NLP run1 [40] 0.8043 0.7458 0.3593 Meaning Factory run1 [39] 0.8268 0.7722 0.3224 ECNU run1 [38] 0.8280 0.7689 0.3250 DT-RNN [10] 0.7863 0.7305 0.3983 SDT-RNN [10] 0.7886 0.7280 0.3859 LSTM 0.8477 0.7921 0.2949 Bidirectional LSTM [42] 0.8522(2) 0.7952(3) 0.2850(2) 2-layer LSTM [42] 0.8411 0.7849 0.2980 2-layer Bidirectional LSTM [42] 0.8488 0.7926 0.2893 Constituency Tree LSTM [11] 0.8491(3) 0.7873 0.2852(3) Dependency Tree LSTM [11] 0.8627(1) 0.8032(1) 0.2635(1) Our best model 0.8480 0.7968(2) 0.2904 表5 既存研究との比較.(1),(2),(3)はそれぞれランキングを表す.
Weight matrix: W
Non-linear function: tanh
…
Linear transformation f
Deep Learning
(W and tanh)
Kernel Mapping
Flow Chart of Models Architectures
RNN
Ours
Low-dim space d High-dim space Φ Word space Structured sentence space
Similarity Learning a b c a b c ・・・ Φ(x) x = f(a,b,c) y=tanh(W[b;c]) x=tanh(W[a;y]) Implicit mapping Learning a good metric space 図2 ベクトル空間における意味構成のモデル化を,計量学習という観点から捉え直した上で, RNNなどのニューラルネットワークを用いた既存手法と,高次元カーネル空間を用いた 提案法との違いを示す. 項式カーネルにおけるcとは異なり,写像する空間の性質 を大きく決定するパラメータであるためだと考えられる. 5.6 単語ベクトル表現の違いによる学習曲線の違い 図4は,様々な種類の単語ベクトル表現を用いた時の, 訓練データに対するイテレーション回数と,テストデータ に対する相関係数の挙動を示している.ここにおいては興 味深い点が多くあり,それらを以下にまとめる. ( 1 )初期値として相関係数が高いのがLSAとNLMであ り,それぞれ約0.6である.これらの単語ベクトル表 現は,大規模なコーパスを用いて学習されたものであ るため,提案法を用いた学習なしでも文の意味的類似 度をある程度適切に計算することができる.しかし, 訓練段階になるとこれらは非常に対照的な挙動を示 す.NLMでは相関係数の上昇が顕著であるが,LSA のそれは非常に遅い. ( 2 ) ランダムベクトルを初期値として用いる場合,学習前 の相関係数は当然低い.また,LSAとNLMとは対照 的に,大規模なコーパスで学習済みのGloVeの初期 値も,ランダムベクトルと同様に低い相関係数となっ ている.しかし,ランダムベクトルとGloVeは訓練に よって相関係数が急激に上昇する.特にGloVeは最終 的に,4種類のベクトルの中で最も良い相関係数を示 している.またランダムベクトルは,LSAよりも高い 相関係数を示している. ( 3 ) これら結果は,連続値のベクトルであればたとえラン ダムベクトルであったとしても,学習が適切に進むこ とを示している.一方でLSAは,単語の共起頻度行 列という離散的な特徴量から学習されており,このこ とが学習挙動の大きな違いの要因になっていると考え られる.またこれらの事実は,単語ベクトルを大規模 コーパスを用いて事前に学習することよりもむしろ,
図4 4種類の単語ベクトルを用いた時の学習曲線.横軸が訓練デー タに対するイテレーション回数,縦軸がテストデータに対する 相関係数となっている. タスクに合わせた単語ベクトルを学習することの方が より重要であることを示している.
6.
関連研究
SemEval 2014のSICKにおいて成功したアプローチの 多くは,素性エンジニアリングをベースとした手法を用 いている[38], [39], [40], [41].それらの特徴量は,自然言 語処理でよく用いられる表層素性から,WordNetや Para-phrase Database [43]などの外部資源を使うものまで様々で ある[36]. 一方で,単語ベクトル空間における文の意味構成モデル の研究では,自然言語処理におけるDeep Learningの一手 法であるRecursive Neural Network (RNN) [44], [45]が盛ん に研究されている.このモデルでは,単語ベクトルを構文 木に合わせて構成させ文ベクトルを計算し学習する.この RNNは,様々なタスクにおいて成功を収めているが,詳 細に文の構造をニューラルネットワークを用いてモデル 化しなければならないのに加え[6], [7],ベースラインの BOWs(たとえば単語ベクトルの和)よりも良い性能を示す とは限らないことが近年の研究でわかってきた[10].これ はRNNが,複雑な構造を複雑なニューラルネットワークで 直接モデル化することが原因であると考えられる.そのた め,文の階層的な木構造を詳細に考慮するのではなく,単 語間の関係を直接用いたDependency Tree RNN (DT-RNN) [10]が提案された.その一方で,もうひとつのニューラル ネットワークのリカレントニューラルネットワークのモデ ルであるLong Short-Term Memory (LSTM)も,大きな成功 を収めている[42], [46].LSTMは,文の系列情報を保持す るようなニューラルネットワークであり,構文解析の結果 に依存することなく,より頑健に文の意味表現をモデル化 できる.さらに近年,LSTMの系列情報に加えて,木構造 や依存構造などを考慮した構造化されたLSTMも提案され ている[11].7.
結論と今後の課題
本稿で我々は,ニューラルネットワークによる意味構成 とそのカーネル埋め込みを用いた多層非線形類似度学習を 提案した.提案法は,カーネル関数によって写像された高 次元空間における文の類似度学習を通じて,意味構成のた めの単語表現を新たに獲得することを可能にする.我々は この提案法を,文の意味的類似度データセットを用いて評 価し,ベースラインである線形手法,Recursive NeuralNet-work (RNN),そしてコンペティションでの上位チームをす
べて上回り,さらに構造化されたLong Short-Term Memory
(LSTM)と同程度の性能を達成した.またこのアプローチ は、自然言語処理におけるDeep Learningの手法[10], [11] のように,文の構造と意味を低次元空間において詳細かつ 複雑にモデル化することなく,低次元空間と高次元空間の 双方を用いることでそれらをよりシンプルに表現し学習す ることができる. 最後に今後の課題として,以下の3点を挙げる. ( 1 ) 低次元空間における構造と意味の情報表現と,高次元 空間における情報埋め込みと学習を,より統一的に行 う枠組みを構築する. ( 2 ) 低次の表現の組み合わせから高次の表現を構成する目 的において,ニューラルネットワークとカーネルとい う2つの機械学習手法が持つ非線形性の役割を,より 詳細に考察する.
( 3 ) 近年のDeep Learningの発展に大きく貢献した Pre-training [47]やDrop-out [48]のような過学習を防ぐ手 法を,多層非線形類似度学習においても新たに考案 する.
参考文献
[1] Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W. and Harshman, R. A.: Indexing by latent semantic analysis, JASIS (1990).
[2] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K. and Kuksa, P.: Natural Language Process-ing (Almost) from Scratch, The Journal of Machine LearnProcess-ing
Research (JMLR) (2011).
[3] Pennington, J., Socher, R. and Manning, C. D.: Glove: Global vectors for word representation, Proceedings of the
Conference on Empirical Methods on Natural Language Pro-cessing (EMNLP) (2014).
[4] Mitchell, J. and Lapata, M.: Composition in Distributional Models of Semantics, Cognitive Science, Vol. 34, No. 8, pp. 1388–1439 (2010).
[5] Tsubaki, M., Duh, K., Shimbo, M. and Matsumoto, Y.: Mod-eling and Learning Semantic Co-Compositionality through Prototype Projections and Neural Networks, Proceedings of
Processing (EMNLP) (2013).
[6] Socher, R., Huval, B., Manning, C. D. and Ng, A. Y.: Se-mantic Compositionality through Recursive Matrix-Vector Spaces, EMNLP-CoNLL (2012).
[7] Socher, R., Perelygin, A., Wu, J. Y., Chuang, J., Manning, C. D., Ng, A. Y. and Potts, C.: Recursive deep models for semantic compositionality over a sentiment treebank,
Pro-ceedings of the Conference on Empirical Methods on Natural Language Processing (EMNLP) (2013).
[8] Bellet, A., Habrard, A. and Sebban, M.: A Survey on Met-ric Learning for Feature Vectors and Structured Data, CoRR, Vol. abs/1306.6709 (2013).
[9] Kedem, D., Tyree, S., Sha, F., Lanckriet, G. R. and Wein-berger, K. Q.: Non-linear metric learning, Proceedings of the
Conference on Advances in Neural Information Processing Systems (NIPS) (2012).
[10] Socher, R., Le, Q. V., Manning, C. D. and Ng, A. Y.: Grounded Compositional Semantics for Finding and Describ-ing Images with Sentences, Transactions of the Association
for Computational Linguistics (TACL) (2014).
[11] Tai, K. S., Socher, R. and Manning, C. D.: Improved Seman-tic Representations From Tree-Structured Long Short-Term Memory Networks, arXiv preprint arXiv:1503.00075 (2015). [12] Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D. and Lai, J. C.: Class-based n-gram models of natural lan-guage, Computational linguistics, Vol. 18, No. 4, pp. 467– 479 (1992).
[13] Blei, D. M., Ng, A. Y. and Jordan, M. I.: Latent dirichlet allo-cation, the Journal of machine Learning research, Vol. 3, pp. 993–1022 (2003).
[14] Widdows, D. and Cohen, T.: The semantic vectors package: New algorithms and public tools for distributional seman-tics, Semantic Computing (ICSC), 2010 IEEE Fourth
Inter-national Conference on, IEEE (2010).
[15] Turney, P. D.: Domain and function: A dual-space model of semantic relations and compositions, Journal of Artificial
In-telligence Research (JAIR) (2012).
[16] Bengio, Y., Ducharme, R., Vincent, P. and Janvin, C.: A neu-ral probabilistic language model, Journal of Machine
Learn-ing Research (JMLR) (2003).
[17] Erk, K.: Vector Space Models of Word Meaning and Phrase Meaning: A Survey, Language and Linguistics Compass, Vol. 6, No. 10, pp. 635–653 (2012).
[18] Baroni, M., Bernardi, R. and Zamparelli, R.: Frege in space: A Program for Compositional Distributional Semantics,
Lin-guistic Issues in Language Technologies (2013).
[19] Van de Cruys, T., Poibeau, T. and Korhonen, A.: A Tensor-based Factorization Model of Semantic Compositionality,
North American Chapter of the Association for Computa-tional Linguistics: Human Language Technologies (NAACL-HLT) (2013).
[20] Xing, E. P., Jordan, M. I., Russell, S. and Ng, A. Y.: Dis-tance metric learning with application to clustering with side-information, Proceedings of the Conference on Advances in
Neural Information Processing Systems (NIPS) (2002).
[21] Weinberger, K. Q., Blitzer, J. and Saul, L. K.: Distance met-ric learning for large margin nearest neighbor classification,
Proceedings of the Conference on Advances in Neural Infor-mation Processing Systems (NIPS) (2005).
[22] Qamar, A. M., Gaussier, E., Chevallet, J.-P. and Lim, J. H.: Similarity learning for nearest neighbor classification, Data
Mining, 2008. ICDM’08. Eighth IEEE International Confer-ence on (2008).
[23] Chechik, G., Sharma, V., Shalit, U. and Bengio, S.: Large scale online learning of image similarity through ranking, The
Journal of Machine Learning Research (JMLR) (2010).
[24] Chatpatanasiri, R., Korsrilabutr, T., Tangchanachaianan, P. and Kijsirikul, B.: On Kernelizing Mahalanobis Distance Learning Algorithms, Arxiv preprint. http://arxiv. org/abs (2008).
[25] Chatpatanasiri, R., Korsrilabutr, T., Tangchanachaianan, P. and Kijsirikul, B.: A new kernelization framework for Mahalanobis distance learning algorithms, Neurocomputing, Vol. 73, No. 10, pp. 1570–1579 (2010).
[26] Jain, P., Kulis, B., Davis, J. V. and Dhillon, I. S.: Metric and kernel learning using a linear transformation, The Journal of
Machine Learning Research (JMLR), Vol. 13, No. 1, pp. 519–
547 (2012).
[27] Hermann, K. M. and Blunsom, P.: Multilingual Models for Compositional Distributed Semantics, Proceedings of the
Conference on Association for Computational Linguistics (ACL) (2014).
[28] Gao, J., He, X., Yih, W.-t. and Deng, L.: Learning Contin-uous Phrase Representations for Translation Modeling,
Pro-ceedings of the Conference on Association for Computational Linguistics (ACL) (2014).
[29] Kiela, D. and Bottou, L.: Learning Image Embeddings us-ing Convolutional Neural Networks for Improved Multi-Modal Semantics, Proceedings of the Conference on
Em-pirical Methods on Natural Language Processing (EMNLP)
(2014).
[30] Wu, P., Hoi, S. C., Xia, H., Zhao, P., Wang, D. and Miao, C.: Online multimodal deep similarity learning with applica-tion to image retrieval, Proceedings of the ACM internaapplica-tional
conference on Multimedia (2013).
[31] Kanagawa, M. and Fukumizu, K.: Recovering distributions from Gaussian RKHS embeddings, Proceedings of the
Inter-national Conference on Artificial Intelligence and Statistics (AISTATS) (2014).
[32] Kanagawa, M., Nishiyama, Y., Gretton, A. and Fukumizu, K.: Monte Carlo Filtering Using Kernel Embedding of Distri-butions, Proceedings of the Association for the Advancement
of Artificial Intelligence (AAAI) (2014).
[33] Muandet, K., Fukumizu, K., Dinuzzo, F. and Sch¨olkopf, B.: Learning from distributions via support measure machines,
Advances in neural information processing systems (NIPS).
[34] Yoshikawa, Y., Iwata, T. and Sawada, H.: Latent support measure machines for bag-of-words data classification,
Ad-vances in Neural Information Processing Systems (NIPS)
(2014).
[35] Srivastava, S., Hovy, D. and Hovy, E.: A Walk-Based Se-mantically Enriched Tree Kernel Over Distributed Word Rep-resentations, Proceedings of the Conference on Empirical
Methods on Natural Language Processing (EMNLP) (2013).
[36] Marelli, M., Bentivogli, L., Baroni, M., Bernardi, R., Menini, S. and Zamparelli, R.: SemEval-2014 Task 1: Evaluation of Compositional Distributional Semantic Models on Full Sen-tences through Semantic Relatedness and Textual Entailment,
SemEval (2014).
[37] Duchi, J., Hazan, E. and Singer, Y.: Adaptive subgradi-ent methods for online learning and stochastic optimization,
JMLR (2011).
[38] Zhao, J., Zhu, T. T. and Lan, M.: ECNU: One Stone Two Birds: Ensemble of Heterogenous Measures for Semantic Relatedness and Textual Entailment, SemEval (2014). [39] Bjerva, J., Bos, J., van der Goot, R. and Nissim, M.: The
Meaning Factory: Formal Semantics for Recognizing Textual Entailment and Determining Semantic Similarity, SemEval (2014).
J. D. and Mendiz´abal, A.: UNAL-NLP: Combining soft car-dinality features for semantic textual similarity, relatedness and entailment, SemEval (2014).
[41] Lai, A. and Hockenmaier, J.: Illinois-lh: A denotational and distributional approach to semantics, SemEval (2014). [42] Graves, A., Jaitly, N. and Mohamed, A.-R.: Hybrid speech
recognition with deep bidirectional LSTM, Automatic Speech
Recognition and Understanding (ASRU) (2013).
[43] Ganitkevitch, J., Van Durme, B. and Callison-Burch, C.: PPDB: The Paraphrase Database., Proceedings of the
Con-ference of the North American Chapter of the Association for Computational Linguistics Human Language Technolo-gies(NAACL) (2013).
[44] Goller, C. and Kuchler, A.: Learning task-dependent dis-tributed representations by backpropagation through struc-ture, Neural Networks, Vol. 1, pp. 347–352 (1996).
[45] Socher, R., Lin, C. C., Manning, C. and Ng, A. Y.: Parsing natural scenes and natural language with recursive neural net-works, Proceedings of the International Conference on
Ma-chine Learning (ICML) (2011).
[46] Hochreiter, S. and Schmidhuber, J.: Long short-term mem-ory, Neural computation, Vol. 9, No. 8, pp. 1735–1780 (1997).
[47] Erhan, D., Bengio, Y., Courville, A., Manzagol, P.-A., Vin-cent, P. and Bengio, S.: Why does unsupervised pre-training help deep learning?, The Journal of Machine Learning
Re-search (JMLR), Vol. 11, pp. 625–660 (2010).
[48] Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. and Salakhutdinov, R.: Dropout: A simple way to prevent neural networks from overfitting, The Journal of Machine Learning