生成語彙論における共構成のモデル化と意味の構成性を内在する単語ベクトルの教師なし学習

全文

(1)Vol.2013-NL-213 No.3 2013/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 生成語彙論における共構成のモデル化と意味の構成性を内在する単語ベクトルの教師なし学習椿真史1,a). Kevin Duh1,b). 新保仁1,c). 松本裕治1,d). 概要：本稿で我々はまず，生成語彙論における共構成を，単語ベクトル空間内における行列演算としてモデル化する手法を提案する．共構成とは，述語と項の相互の影響が各々の単語の潜在的な意味を変化させる生成的な演算のことである．このモデルにより，単語を合成する際に生じる語の意味の変化をより正確に捉えることが可能となる．さらに我々は，単語の意味の構成性と共構成性を内在させた単語ベクトルを，教師なしで学習する手法を提案する．本稿では動詞の語義曖昧性解消タスクを用いてこれらの手法を評価し，これまでの既存研究と比較して高い性能が得られることを確認した．キーワード：生成語彙論，共構成，意味の構成性原理，ニューラル言語モデル，語義曖昧性解消. 1. はじめに単語の構文的，あるいは意味的な特徴をベクトルによっ. れに当てはまらない)．自然言語処理における構成性原理の研究では，複数の単語で構成されるフレーズや文の意味を表現するベクトルを，個々の単語ベクトルの合成演算によっ. て表現するモデルのことを，単語ベクトル空間モデルと呼. て得ることが目標となる ([5], [9], [10], [11])．またこれは，. ぶ [1]．単語ベクトルを得る手法としてはこれまで，潜在. 文脈付け (Contextualization) の研究 ([12], [13], [14], [15]). 意味解析 [2] や潜在ディリクレ配分法 [3]，ブラウンクラ. とも密接に関係しており，これらについては我々の研究と. スタリング [4] や分布類似性を用いたもの [5] などが提案. の関連も踏まえ 7 章で詳細を述べる．. され，自然言語処理のアプリケーションにおいて幅広く使. 我々は，単語ベクトル空間モデルにおいて，単語を合成. 用されている．一般に，単語ベクトルは高次元かつスパー. する際に生じる語の意味の変化をどうモデル化できるの. スなものが多いが，近年提案されたニューラルネットワー. か，という問題に焦点を当てる．この問題を解決するため. クによる教師なしの単語ベクトル学習モデルでは，低次元. に我々は，生成語彙論 [16] における共構成に着目する．共. (50 次元) かつ密で高効率な表現が得られ，品詞タグ付けや. 構成とは，述語と項の相互の影響を考慮した上で意味の合. チャンキング，固有表現抽出や述語項構造解析などのタス. 成を考える生成的な演算のことである．これまでの研究に. クにおいて，非常に有効な素性であることが報告されてい. おける合成演算は，ベクトルの単純な加算や各要素の積算，. る [6], [7]．. あるいは重みベクトルや行列を新たに設定してそれを学習. このように，単語ベクトルを得る手法が様々に研究され. する形でモデルが考えられてきた．しかし共構成をモデル. る一方で，近年は意味の構成性原理 (Compositionality) [8]. 化することができれば，合成による意味の変化をより深い. のモデル化に関する研究も行われている．構成性原理とは. レベルで捉えることが可能になると考えられる．例えば，. フレーゲによって唱えられた言語哲学の基礎をなす考えで. 以下の 2 つの文における run の意味について考える．. あり，複数の単語からなるフレーズや文の意味は，その個々. • He runs the company.. の単語の意味から何らかの合成規則に従って一意に決定さ. • He runs the marathon.. れるとする理論である (ただし，イディオムなどの表現はこ. run という動詞は非常に抽象的であり多くの意味を持ち得る動詞であるが，目的語として company あるいは marathon. 1. a) b) c) d). 奈良先端科学技術大学院大学 Nara Institute of Science and Technology [email protected] [email protected] [email protected] [email protected]. ⓒ 2013 Information Processing Society of Japan. を取ると，run の意味はそれぞれ「経営する」あるいは「走る」となり一意に定まる．このように，単語レベルの語義曖昧性は，述語に対する項の影響によって決まると考えられる．これはまた逆の場合，つまり項に対する述語の影響. 1.

(2) Vol.2013-NL-213 No.3 2013/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report. てきた．しかしこれら 2 つの研究は，言語の意味という観点からは密接に関係している．我々の提案する単語ベクトル学習モデルは，意味の構成性，さらには共構成性を内在させて単語ベクトルを学習することが可能であり，我々の知る限りこのようなアプローチによる研究はこれが初めてである．. 2. 単語ベクトル表現 2.1 Simple Distributional Semantic space (SDS) Mitchell and Lapata [5] は，一定のウィンドウ幅に出現する文脈単語の共起情報からなる単語ベクトル表現として，. Simple Distributional Semantic space (SDS) を提案した．図 1 プロトタイプ射影による共構成モデルの概略図．”run com-. SDS による単語ベクトルの例を図 2 に示す．ターゲット単. pany”の意味を，プロトタイプ射影された各ベクトルの合成演. 語の周辺に含まれる文脈単語の共起頻度から，以下のよう. 算によって表現する．. な計算により 2000 次元の単語ベクトルを得る．. についても同様に考えられ，述語と項の相互の影響を考慮することで意味の変化を捉えることができる．我々は，生成語彙論における共構成の考え方を取り入れることにより，単語が合成された際に生じるより深い意味の変化をモデル化する手法を提案する．ここで我々は，語の持つ抽象的な意味を一意に束縛するプロトタイプ射影という行列演算を考え，これを動詞と目的語の両方に適用させた合成演算として共構成をモデル化する (図 1)．さらにこれをニューラルネットワークと組み合わせることで，合成演算と共構成を含めた個々の単語ベクトルを学習するアルゴリズムを提案する．本研究の主な貢献は次の 3 点である．. ( 1 ) プロトタイプ射影を用いた共構成の行列演算によるモデル化は，シンプルなアイディアに基づいており実装も容易であるが，動詞の語義曖昧性解消タスクにおいて既存の研究を大きく上回る結果を出すことに成功した．. ( 2 ) 我々のモデルは，単語ベクトル空間内において単語を合成する際に生じる語の意味の変化を，より正確かつ頑健に捉えることが可能であることを示した．. ( 3 ) 本研究で提案するニューラルネットワークによる新たな単語ベクトル学習アルゴリズムは，単語を合成した際にその意味をよりよく表現できるような個々の単語ベクトルを学習できる．またこれに共構成のモデルも組み合わせることで，さらなる実験結果の向上が見られた．我々はこれらの中でも，特に (3) を強調したい．これまで，単語ベクトルの学習モデルと意味の合成モデルは別々に研究されてきた．単語ベクトルはそれらの構成性を考慮しない形で学習モデルが考えられ，合成モデルの研究では単語ベクトルを単に入力として用い，他に重みベクトルや行列などのパラメータを新たに設定して学習する形で考えられ ⓒ 2013 Information Processing Society of Japan. vi (t) =. p(ci |t) f reqci ,t × f reqtotal = p(ci ) f reqt × f reqci. (1). ここで f reqci ,t はターゲット単語と共起する文脈単語の頻度，f reqtotal はすべての単語の頻度，f reqt はターゲット単語の頻度，そして f reqci は文脈単語の頻度とする．この単語ベクトルは高次元かつスパースながらも非常にシンプルな構成となっており，様々な単語ベクトルのベースラインとして機能する．. 2.2 Neural Language Model(NLM) 近年，ニューラルネットワークを用いた単語ベクトルの教師なし学習モデルが研究されている．これはニューラル言語モデル (Neural Language Model，以下 NLM) と呼ばれ，Bengio ら [17] によって当初は言語モデルとして提案されたものであり，その後 Collobert and Weston [18] によって単語ベクトルの教師なし学習モデルとして改良され確立された．前述の SDS とは異なり，NLM によって得られる単語ベクトルは低次元 (50 次元) かつ密で高効率な表現となっている．このモデルでは，一定のウィンドウ幅の単語列に対してスコアを算出するニューラルネットワークの重みパラメータとして，単語ベクトルが学習される仕組みとなっている (図 3)．以下，ニューラル言語モデルによる単語ベクトルの学習過程について説明する．まず，ニューラルネットワークへの入力ベクトルを x =. [d(w1 ); d(w2 ); . . . , ; d(wm )] とする．ここで m はウィンドウ幅のサイズ，wi は単語列 w1 . . . , wm の i 番目の単語，d(w) は単語 w の n 次元ベクトルを表す (以下，ベクトルはすべて列ベクトルとする)．そして [d(w1 ); d(w2 ); . . . , ; d(wm )] を，各単語ベクトルを連結させた mn 個の要素からなるベクトルとする．この x を入力として，単語列 w1 . . . , wm のスコアを以下のように計算する．. score(x) = ST (tanh(Wx + b)).. (2). 2.

(3) Vol.2013-NL-213 No.3 2013/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 2. SDS による 2000 次元の単語ベクトルの例．一定のウィンドウ幅に含まれる文脈単語の共起情報がベクトルの各要素に含. 図3. ニューラル言語モデルの概略図．一定のウィンドウ幅の単語列に対してスコアを計算する過程で，単語ベクトルを学習する．. まれる形となっている．. この時のプロトタイプ単語としては，start， build， buy ここで h を第 2 層のノード数として，W ∈ Rh×(mn) ，S ∈ Rh. などが考えられる．そして，これらの単語の集合が持つ潜. をそれぞれニューラルネットワークにおける第 1 層と第. 在的な意味空間への射影をプロトタイプ射影と呼ぶことに. 2 層の重みパラメータ，b ∈ R をバイアス項とする．ま. する．以下，このプロトタイプ射影の計算過程について説. た，ここでの tanh はベクトルの各要素に適用するものと. 明する．. h. する．次に，単語列の最後の単語 wm をランダムに他の単 ′. ′. まず，W (R, w) = {w1 , w2 , · · · , wm } を w と R の関係. 語 wm に置き換え，xc = [d(w1 ); d(w2 ); . . . , ; d(wm )] と. にある m 個のプロトタイプ単語の集合とする．例え. いうベクトルを作り，これを入力としてスコア score(xc ) =. ば w = company，目的語が取り得る動詞という関係を. ST (tanh(Wxc + b)) を計算する．最後に，以下のコスト. R = VerbOf，あるいは w = run，動詞が取り得る目的語. 関数 (ヒンジロス) を設定する．. という関係を R = ObjOf とすると，. J = max(0, 1 − score(x) + score(xc )). (3). このコスト関数を最小化するため，誤差逆伝播法を用いてパラメータ θ = (S, W, b, x) を学習する．つまり，正し. W (VerbOf, company) = {start, build, . . . , buy}. (4). W (ObjOf, run) = {f irm, marathon, . . . , hotel}. (5). い単語列のスコアが間違った単語列のスコアよりもある. となる．これが company と VerbOf の関係にある，ある. マージン以上に高くなるように，単語ベクトルを最適化. いは run と ObjOf の関係にあるプロトタイプ単語の集合. していくことになる．このように，擬似的な負例を作るこ. である (図 1)．. とによって教師なし学習を実現するモデルは，Smith and. Eisner [19] のアイディアに基づいている．またこのニュー. ここで，W (R, w) = {w1 , w2 , · · · , wm } の各単語をベクトルに変換した行列 C(R,w) を考える．. ラル言語モデルは，入力層のさらに下層に，入力が 1 で重みパラメータが [d(w1 ); d(w2 ); . . . , ; d(wm )] である層を追加した，実質 3 層のニューラルネットワークと等価である．. 3. プロトタイプ射影を用いた動詞-目的語の共構成モデル 3.1 プロトタイプ射影生成語彙論においては，contrastive polysemy(bank における「銀行」と「土手」の意味の違い) と logical polyse-. my(bank が「銀行」であったとしても，それが金融機関としての意味を持つのか，建物や場所としての意味を持つのかの違い) の 2 つ多義語を区別するが，我々は，このような多義語の潜在的な意味の変化を行列演算としてモデル化するため，どちらの場合も同等に扱うことが可能である．基本的な考え方としてはまず，単語 w について構文的，あるいは意味的な関係 R にある単語をプロトタイプ単語と名付ける．例えば w を company ，R を目的語が取り得る動詞とする場合，w と R の関係にある単語，つまり company を目的語として取り得る動詞がプロトタイプ単語となる． ⓒ 2013 Information Processing Society of Japan. C(R,w) = [d(w1 ), d(w2 ), · · · , d(wm )]T. (6). そしてこの行列を特異値分解 (SVD) し，潜在的な部分空間を抽出する．. C(R,w) ≈ Uk Σk VkT. (7). 図 4 はこの行列分解の模式図である．自然言語処理においては，単語-文書行列のような巨大な疎行列に対する特異値分解がよく行われるが，我々のモデルでは，各行が単語ベクトルで構成された行列を特異値分解する．直感的に Σk VkT は，プロトタイプ単語集合 W (R, w) = {w1 , w2 , · · · , wm } の全体が持つ潜在的な意味空間と考えることができる．ここで，. Σk VkT の各行ベクトルは互いに直交することから，この潜在的意味空間への正射影行列は P(R,w) = (Σk VkT )T (Σk VkT ) によって与えられる．つまり，動詞を wv ，目的語を wo とすると，その目的語の影響を考慮した動詞ベクトル. prpj(VerbOf,wo ) (wv ) は以下のように与えられる． prpj(VerbOf,wo ) (wv ) = P(VerbOf,wo ) d(wv ).. (8). 3.

(4) Vol.2013-NL-213 No.3 2013/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report 動詞 A. 目的語. 動詞 B. 動詞 A と動詞 B の類似度. 目的語によるプロトタイプ射影後の動詞 A と動詞 B の類似度. meet. criterion. satisfy. 0.49. 0.71. run. company. operate. 0.40. 0.70. spell. name write 0.04 0.50 表 1 様々な動詞の意味的類似度の例．プロトタイプ射影を用いた場合の方が，より意味を適切に表現していることがわかる．. られる．これらを踏まえて我々は，単語ベクトルの合成演算とニューラル言語モデルの学習アルゴリズムを組み合わせた，構成性ニューラル言語モデルを提案する．この手法はシンプルでありながらも，強力な学習機能を持つ．またこれは，既存の合成モデルの研究における機械学習アプローチとは違い，新たに設定した重みベクトルや行列の最適化は必要なく，さらに教師なしで実現できるという大き図 4. 特異値分解の模式図．各行が単語ベクトルから構成される行. な利点がある．構成性ニューラル言語モデルの概略図を図 5 に示す．ま. 列を特異値分解する．. ず最初に，動詞と目的語のベクトルに対して合成演算 f を表 1 に幾つかの動詞を例として，プロトタイプ射影によ. 適用し一つのベクトルを得る (説明の簡略化のため，以後. る意味の変化を示した．ここでは，Collobert and Weston. この合成演算 f を加算モデルとして説明する)．次に，こ. [18] の単語ベクトル *1 とコサイン類似度を用いた．. の加算されたベクトルとベクトル s ∈ Rn (n は単語ベクトルの次元) との内積を取りスコアを算出する．動詞のベク. 3.2 共構成のモデル化. トルを v = d(wv )，目的語のベクトルを o = d(wo ) とする. 我々は，前述のプロトタイプ射影を動詞と目的語の. と，スコアは. 両方に適用することで共構成をモデル化する．つまり，動詞 wv と目的語 wo が与えられた際の共構成ベクトル. score(v, o) = sT f (v, o) = sT (v + o). (10). cocomp(wv , wo ) を，以下のように定義する．と計算される．そして，ニューラル言語モデルの学習アルゴリズムと同様に，動詞 wv を別の動詞 wv ′ にランダムに. cocomp(wv , wo ) = f (prpj(VerbOf,wo ) (wv ), prpj(ObjOf,wv ) (wo )). (9). 置き換え，こ動詞のベクトルを vc = d(wv ′ ) とし，スコア. score(vc , o) を計算する．最後に，コスト関数をヒンジロ. ここでの関数 f は，プロトタイプ射影された動詞と目的語. ス J = max(0, 1 − score(v, o) + score(vc , o)) と設定し，こ. のベクトルの合成演算であり，本研究では単純な加算ある. れを最小化することで動詞ベクトルを学習する．このコス. いは各要素の積算として考える．図 1 は共構成モデル全体. ト関数を最小化することは，正しい動詞-目的語のペアのス. の概略図である．. コアを，間違った動詞-目的語のペアのスコアよりもある. 4. 意味の構成性を内在した単語ベクトルの教師なし学習 4.1 構成性ニューラル言語モデル我々はまず，単純な合成演算を含めた単語ベクトルを学. マージン以上に高くすることを意味する．これにより，合成演算 f にとって最適な単語ベクトルが学習されることになる．ここで，z = v + o とすると，我々のモデルにおけるパラメータは θ = (s, z, v) となり，これらを以下の 2 つのス. 習する，新たなニューラル言語モデルを提案する．これ. テップで学習する．. まで，単語ベクトル学習と意味の合成モデルについては，. ( 1 ) まず，s と z を確率的勾配降下法 (SGD) によって学. 別々に研究されてきた背景がある．単語ベクトル学習については様々な手法が提案され，自然言語処理におけるタスクによって評価されてきた．一方で意味の合成モデルにつ. 習する．. ( 2 ) 学習後の z を znew とすると，新たな動詞ベクトルを vnew = znew − o によって得る．. いては，単語ベクトルを単に入力として用い，新たに設定. ここで，このステップを学習データ中のすべての動詞-目的. した重みベクトルや行列を学習する手法が模索されてき. 語のペアについて行うことを，1 イテレーションと呼ぶこ. た．しかし，予め構成性を内在させるような形で個々の単. とにする．今回は動詞ベクトルのみを学習するが，もし目. 語ベクトルを学習することの方が，より自然であると考え. 的語ベクトルも学習するのであれば，ランダムな他の目的. *1. 語に置き換えて同様のプロセスで学習すれば良い．. http://ronan.collobert.com/senna/. ⓒ 2013 Information Processing Society of Japan. 4.

(5) Vol.2013-NL-213 No.3 2013/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report. 図 5. 構成性ニューラル言語モデルの概略図．動詞と目的語のベクトルを合成し，そのスコアを計算する過程で動詞ベクトルを学習する．. 図 6. 共構成性ニューラル言語モデルの概略図．動詞と目的語をプロトタイプ射影する以外は，構成性ニューラル言語モデルと同. 4.2 共構成性ニューラル言語モデル. じである．. 我々はこのモデルを拡張するため，構成性ニューラル言語モデルにプロトタイプ射影を組み込んだ，共構成性ニューラル言語モデルを提案する．この学習アルゴリズムは，動詞と目的語のそれぞれをプロトタイプ射影する以外は，構成性ニューラル言語モデルと同様である．動詞をプロトタイプ射影する行列を Pobj = P(VerbOf,wo ) ，目的語をプロトタイプ射影する行列を Pverb = P(ObjOf,wv ) とすると，スコアは以下のように計算される． T. score(v, o) = s (Pobj v + Pverb o).. コア n) の 5 つの組からなり，動詞 v が主語 s と目的語 o とともに用いられた際の v と，ランドマーク動詞 v ′ との意味的な類似度スコア n(1 から 7) を人手で評価したものである．例えば動詞 meet は，主語 system と目的語 crieterion を項として持つと，ランドマーク動詞の satify と似た意味を持つため高いスコアとなっている．しかし，もう一方のランドマーク動詞 vist とは全く意味が異なるため低いスコ. (11). アとなっている．このようなデータ約 200 に対して 25 人の参加者によってそれぞれスコアが付けられており，その. ここで，x = Pobj v，y = Pverb o，z = x + y とすると，. 平均値を最終的なスコアとし評価データセットとする．そ. 共構成性ニューラル言語モデルにおける学習パラメータは. して，これら人手の類似度スコアと，ベクトルのコサイン. θ = (s, z, v) となる．これらのパラメータを以下の 3 つの. 類似度とのスピアマン順位相関係数 ρ によってモデルを評. ステップで学習する．. 価する．このデータセットに対する相関係数の上限は 0.62. ( 1 ) まず，s と z を SGD によって学習する．. となっている．. ( 2 ) 学習後の z を znew とすると，新たなプロトタイプ. 以下，実験において比較する幾つかのモデルについて概. 射影後の動詞ベクトルを xnew = znew − y によって. 説する．. 得る．. ( 1 ) Mitchell and Lapata [9] によって提案された最も単純. ( 3 ) 最後に xnew と Pobj v との二乗誤差を最小にするよう v を学習する．ここで λ は正則化項のハイパーパラメータである．. J(v) =. 1 λ ||xnew − Pobj v||2 + vT v 2 2. なベクトルの合成演算である，加算モデルとベクトル各要素の積算モデル．. ( 2 ) このデータセットを作成した Grefenstette and (12). Sadrzadeh ら [20] によって提案されたモデルでの結果．これは Coecke ら [21] の論理学的，あるいは圏論. これにより，構成性と共構成性を内在させる形で単語ベク. 的なフレームワークを実装した形となっており，主語. トルが学習されることになる．. と目的語のベクトルに関して，外積や各要素の積算を. 5. 動詞の語義曖昧性解消タスクでの評価. 用いて最終的な動詞ベクトルを得る．. ( 3 ) Erk and Padó [12] によって提案されたモデル．動詞. 我々は，本研究で提案したプロトタイプ射影を用いた共. の取り得る目的語の集合を考える点で，我々の研究と. 構成モデルと新たな単語ベクトル学習アルゴリズムを評. アプローチが最も似ている．ただし我々のモデルと. 価するため，動詞の語義曖昧性解消タスクに用いられる. は違い，単語集合が持つ潜在的な意味は考慮しない．. Grefenstette and Sadrzadeh [20] のデータセット *2 で実験. W (VerbOf, wo ) = {w1 , w2 , · · · , wm } とすると，最終 ∑m 1 的な動詞ベクトルは d(wv ) ⊙ m i=1 d(wi ) と計算さ. を行った．このデータセットは表 2 のように，1 データは. (動詞 v ，主語 s，目的語 o，ランドマーク動詞 v ′ ，類似度ス *2. https://www.cs.ox.ac.uk/people/edward.grefenstette/. ⓒ 2013 Information Processing Society of Japan. れる．ここで ⊙ はベクトル各要素の積算とする．. ( 4 ) Van de Cruys ら [22] によって提案されたモデル．非. 5.

(6) Vol.2013-NL-213 No.3 2013/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report 動詞. 主語. 目的語. ランドマーク動詞. 類似度. モデル. meet. system. criterion. satisfy. 6. Grefenstette and Sadrzadeh (2011). 0.21. meet. system. criterion. visit. 1. Add (SDS). 0.31. write. student. name. spell. 7. Add (NLM). 0.31. Multiply (SDS). 0.35. Multiply (NLM). 0.30. write student paper spell 2 表 2 動詞の語義曖昧性解消タスクの評価データの例．. 相関係数 ρ. Van de Cruys et al (2013). 0.37. Erk and Pad´ o (SDS). 0.39. 成をより潜在的な要素の相互作用として捉えている．. Erk and Pad´ o (NLM). 0.03. 今回の語義曖昧性解消において，これまで報告されて. Co-Comp with f =Add (SDS). いる手法の中で最も良い結果を出している (相関係数. Co-Comp with f =Add (NLM). 0.37)．. Co-Comp with f =Multiply (SDS). 0.37. これらの研究の詳細については 7 章で，我々の研究との関. Co-Comp with f =Multiply (NLM). 0.35. 係も踏まえた上で説明する．. Upper bound 0.62 表 3 様々な合成モデルでの相関係数の比較．. 負値行列分解やテンソル分解などを用いて，意味の合. 実験では，2 章で概説した SDS と NLM の 2 つの単語ベ. 0.41 0.44. クトルについて，Blacoe and Lapata [23] によって公開さモデル. れているもの *3 を用いる．SDS は 2000 次元，NLM は 50. 構成性 NLM. 次元となっており，どちらも BNC コーパスで学習されたものである．我々は，共構成モデルが単語表現にどの程度依存するのかを実験結果を通して考察する．. 表4. 学習前. 学習後. 0.31. 0.38. 共構成性 NLM 0.44 0.47 構成性，共構成性ニューラル言語モデルによって再学習された単語ベクトルを用いて実験した結果．学習率 α = 0.01，正則. 実装についてはまず，プロトタイプ射影に必要な単語. 化項 λ = 10−4 ，イテレーションは 20 とした．. 集合である W (VerbOf, wo ) と W (ObjOf, wv ) を集めるため，MaltPaser [24] で解析済みの Wikipedia コーパスである UKWAC コーパス. [25]*4. を用いた．さらにこのコーパ. NLM，合成演算 f は加算) では，これを上回る 0.44 という高い相関係数を示した．. スから，動詞-目的語のペアを約 5000 抽出し，これを構成性. ( 2 ) 共構成モデルは SDS と NLM のどちらの場合において. と共構成性ニューラル言語モデルの学習データとする．ま. も，0.44 と 0.41 という高い相関係数を示した．これ. た，プロトタイプ射影行列の特異値分解の寄与率を 80%と. は，プロトタイプ射影が単語表現に依存しない頑健な. して k を定め，プロトタイプ単語集合に含まれる単語数 m. 演算であることを示している．. を 20 とした．ここで，W (VerbOf, wo ) については頻度の. ( 3 ) Erk and Padó [12] によるモデルは SDS において高い. 高い順に上位 20 個を，W (ObjOf, wv ) については頻度の高. 相関係数を示しており，0.37 を上回っている．これ. いものから wo との類似度の高い順に上位 20 個をプロトタ. は，動詞の意味を考える際には目的語の取り得る動詞. イプ単語とした．主語を ws ，動詞を wv ，目的語を wo とす. を考慮することが有効であることを示している．しか. ると，最終的に評価するベクトルを以下のように計算する．. し NLM の場合では非常に低い相関係数となっており，我々のモデルのような単語表現に依存しないモデルと. cocomp(ws , wv , wo ) = f (d(ws ), cocomp(wv , wo )). はなっていない．これにより，単語集合が持つ潜在的. (13). な意味空間への射影が，単語表現に依存しない形で動詞をより適切な意味に束縛できることが示された．. ここで f は加算 (Add) あるいは各要素の積算 (Multiply). 表 3 の結果において我々はまだ，構成性あるいは共構成. モデルの 2 通りで実験する．. 性ニューラル言語モデルによる単語ベクトルの再学習は行. 6. 実験結果と考察. なっていない．そこで次の節では，再学習した単語ベクトルを用いて実験した結果とその考察について述べる．. 6.1 相関係数の比較表 3 に今回比較した様々なモデルの相関係数を示す．これらの結果と考察を以下にまとめる．. 6.2 構成性，共構成性ニューラル言語モデルによる学習結果. ( 1 ) この動詞の語義曖昧性解消タスクにおいて，これま. ここでは，構成性あるいは共構成性ニューラル言語モデ. で報告された中で最も高い相関係数は 0.37 であった. ルで再学習した単語ベクトルを用いて実験した結果と，そ. [22]．我々の提案した共構成モデル (単語ベクトルは. の考察について述べる．ただし，ここでの合成演算 f は加. *3 *4. http://homepages.inf.ed.ac.uk/ s1066731/index.php?page=resources http://wacky.sslmit.unibo.it/doku.php?id=corpora. ⓒ 2013 Information Processing Society of Japan. 算モデルに統一し，単語ベクトルの初期値は NLM を用いる．表 4 にその結果を示した．. 6.

(7) Vol.2013-NL-213 No.3 2013/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report 主語. 動詞. 目的語. NLM ρ. SDS ρ. prp. prp. prp. 0.39. 0.37. +. prp. prp. 0.44. 0.41. prp. prp. 0.45. 0.41. prp. +. 0.43. 0.38. prp. +. 0.43. 0.38. +. + + + 0.31 0.31 表 5 各単語に対するプロトタイプ射影の有無による相関係数の違い．prp はプロトタイプ射影，+ はベクトルの加算を表す．ブランクは，最終的なベクトルの合成計算に含めないことを意味する．. 図7. プロトタイプ単語集合に含まれる単語数 m と相関係数の関係．. NLM の方が SDS よりも m に依存せず，高い相関係数を維持しているのが確認できる．. 場合や，目的語はプロトタイプ射影しない場合などを考え，それらの実験結果を比較し考察する．表 5 は，f を加算モデルとして，各単語に対するプロトタイプ射影の有無による相関係数の違いを示したものであ. 結果から，我々の学習モデルによるさらなる相関係数の. る．結果からまず，動詞をプロトタイプ射影することが効. 向上が確認され，特に共構成性ニューラル言語モデルでは. 果的であることがわかり，また目的語もプロトタイプ射影. 0.47 の相関係数を得ることができた．前述の通り，我々の. することで，さらなる相関係数の向上が確認できる．一方，. この学習モデルは合成の際に重みベクトルや行列を新たに. 主語をプロトタイプ射影する場合は性能を下げてしまう．. 設定して学習させる必要がなく，合成演算 (この場合は加. これは，主語が目的語ほど動詞の意味に寄与せず，主語を. 算モデル) に合わせた単語ベクトルが学習されることにな. 目的語と同等にプロトタイプ射影することが不適切である. る．この学習アルゴリズムでは，新たに設定するパラメー. ためと考えられる．. タが s のみであるため，学習が非常に速い．特に構成性ニューラル言語モデルでは，通常のマシン (Intel Corei 7，. 2.93Ghz CPU，8GB RAM) を用いた場合でも約 10 分で学習が完了する．. 7. 関連研究これまで単語ベクトルを得る手法が考えられてきた. ([2], [3], [4], [18]) 一方で，近年はこれらを用いたフレーゲの構成性原理 [8] のモデル化が盛んに研究されている．単. 6.3 プロトタイプ単語集合に含まれる単語数の影響プロトタイプ単語集合に含まれる単語数 m は特異値分. 語ベクトルによる合成モデルの研究はまず，Mitchell and. Lapata [9] によって初めて提案された．このモデルでは，. 解の寄与率を除けば，我々の共構成モデルにおける唯一の. 単語ベクトルの加算や各要素の積算として構成性が考えら. ハイパーパラメータである．そこで我々は，この m が実験. れ，その後の多くの研究でベースラインとして使用された．. 結果に及ぼす影響を分析する．図 5 は SDS と NLM につ. これはさらに，Mitchell and Lapata [5] によってより包括. いて，m と相関係数の関係を示したグラフである．グラフ. 的にまとめられている．しかしこれは最も単純なベクトル. から明らかなように，NLM は m に依存しない一方で SDS. 演算であり，意味の合成による複雑で豊かな表現や，合成さ. は大きく依存し，m の増加にしたがって相関係数が低くな. れた際に生じる語の意味の変化を十分に捉えることはでき. ることが確認できる．これは，m が大きくなるにつれてプ. ない．この問題を解決するために Baroni and Zamparelli. ロトタイプ単語集合に項とは無関係な単語が含まれること. [10] は，形容詞を行列で表現するモデルを提案した．この. になり，潜在的な意味空間が適切に構成できないためと考. モデルでは，形容詞による名詞の意味の変化を行列による. えられる．しかし，NLM は m に依存せず高い相関係数を. 線形変換として捉えることができる．さらに Scoher ら [11]. 維持しており，これは低次元かつ密な表現を持つ単語ベク. は，すべての単語にベクトルと行列の両方を持たせ，それ. トルが，潜在的な意味空間の構成に関して頑健であること. らを再帰的ニューラルネットワークによって学習するモデ. を示唆している．. ルへと拡張した．このモデルで学習されたベクトルと行列を用いれば，例えば good の持つベクトルが very や not の. 6.4 各単語に対するプロトタイプ射影の有無と相関係数の違い. 持つ行列によって線形変換され excellent や bad になるような，形容詞に対する強調や否定による意味の変化を計算. ここまでの実験では，共構成と合成演算を主に d(ws ) +. することが可能となる．構成性原理のモデル化に関する近. cocomp(wv , wo ) で考えてきたが，他にも様々な場合が考. 年の包括的なサーベイ論文としては，Baroni らの [26] や. えられる．ここでは，例えば主語もプロトタイプ射影した. Erk の [27] がある．. ⓒ 2013 Information Processing Society of Japan. 7.

(8) Vol.2013-NL-213 No.3 2013/9/12. 情報処理学会研究報告 IPSJ SIG Technical Report. また他のアプローチとしては，Coecke ら [21] の研究が. 合成演算. ある．これは論理学的，あるいは圏論的なフレームワー. パラメータ. w1 , w2 ∈ R. Add: w1 u + w2 v. クを用いて意味を捉えるモデルであり，Grefenstette and. Multiply: u. Sadrzadeh [20] によって実装された．このモデルは，同じ. FullAdd: W1 u + W2 v. W1 , W2 ∈ Rn×n. く Grefenstette and Sadrzadeh [20] によって作成された動. LexFunc: Au v FullLex: σ([W1 Au v, W2 Av u]) . Au ∈ Rn×n Au , Av ∈ Rn×n W1 , W2 ∈ Rn×n. Ours (Add): P(R,v) u + P(R,u) v. SVD’s (m, k). Ours (Mult): P(R,v) u ∗ P(R,u) v. SVD’s (m, k). 詞の語義曖昧性解消タスクのデータセットによって評価された．そして Van de cruys ら [22] のモデルはこのタスクにおいて，これまで報告された中で最も良い結果を出していた．このモデルでは意味の合成を非負値行列分解やテンソル分解などを用いて，より潜在的な要素の相互作用とし. 表 6. w1. ∗v. w2. w1 , w2 ∈ R. 2 つの単語ベクトル u, v ∈ Rn についての様々な合成演算と，その際に必要なパラメータを示す．我々のモデルでは，プロト. て捉えている．. タイプ単語集合に含まれる単語数 m と特異値分解における次. 我々の研究と最も近いものとしては，Thater らの [14], [15]. 元 k のみがパラメータとなり，複雑な重みベクトルや行列の設定と学習は不要である．. や Erk and Pad´ o の [12], [13] がある．これらのモデルでは，動詞の取り得る目的語の集合や，それらの類似度を考慮した文脈付け (Contextualization) を行っており，我々の. 最後に今後の課題として，以下の 3 つを挙げる．. モデルにおけるプロトタイプ単語集合の考え方と同じであ. • 共構成モデルを，Paraphrase Detection や Word sense. る．ただし我々の共構成モデルは，プロトタイプ単語集合. induction などの他の様々なデータセットを用いて評. の持つ潜在的な意味空間への射影を考えることで，より洗. 価する．. 練されたモデルとなっている．. • 本研究では動詞と目的語に焦点を当てたが，別の品詞. 最後に，単語ベクトルと合成モデルの包括的な研究として. のフレーズ (名詞と形容詞，あるいは副詞と形容詞な. は，Blacoe and Lapata [23] や Dinu ら [28] の研究がある．. ど) についてもモデル化し，Socher ら [11] のような文. Blacoe and Lapata [23] は我々の研究と同様に，いくつかの. 全体の構成性モデルへと拡張する．. 単語ベクトルと合成演算を組み合わせて，フレーズの類似. • 単語ベクトル学習と構成性原理の研究へのアプローチ. 度タスク [5] や文の類似度タスク (Paraphrase Detection). としての生成語彙論を，より詳細にモデル化する．. を行った．しかしこの研究では，ベクトルの単純な合成演算を考えるにとどまり，他の重みベクトルや行列などの. 参考文献. パラメータ設定や学習は行われていない．そこで Dinu ら. [1]. [28] は，表 6 のように様々な合成演算と重みパラメータを設定し学習することを試みた．ただし，これらのパラメータは複雑になればなるほど合成モデルの表現力は増すもの. [2]. の，学習に時間がかかることや最適化が困難であることなどの問題が生じる．我々はこの問題点を意識し，新たに設定して学習するベクトルや行列を必要としない，構成性，. [3]. あるいは共構成性を内在させた形で単語ベクトルを学習するアルゴリズムを提案した．. [4]. 8. 結論と今後の課題我々はまず，単語ベクトル空間モデルにおいて単語を合. [5]. 成する際に生じる語の意味の変化をどうモデル化できるのか，という問題に焦点を当てた．この問題を解決するため. [6]. に，生成語彙論における共構成に着目し，プロトタイプ射影という行列演算を導入しモデル化した．さらに我々は，構成性や共構成性を内在させる形で単語ベクトルを学習で. [7]. きる新たなアルゴリズムを提案し，動詞の語義曖昧性解消タスクにおいて，これまで報告された結果を大きく上回る. [8]. 性能を出すことに成功した．このようなアプローチは我々の知る限りこれが初めてであり，さらなる拡張を考えることが可能である． ⓒ 2013 Information Processing Society of Japan. [9] [10]. Turney, P. D. and Pantel, P.: From frequency to meaning: Vector space models of semantics, Journal of artificial intelligence research, Vol. 37, No. 1, pp. 141–188 (2010). Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W. and Harshman, R. A.: Indexing by latent semantic analysis, JASIS, Vol. 41, No. 6, pp. 391–407 (1990). Blei, D. M., Ng, A. Y. and Jordan, M. I.: Latent dirichlet allocation, the Journal of machine Learning research, Vol. 3, pp. 993–1022 (2003). Brown, P. F., Desouza, P. V., Mercer, R. L., Pietra, V. J. D. and Lai, J. C.: Class-based n-gram models of natural language, Computational linguistics, Vol. 18, No. 4, pp. 467–479 (1992). Mitchell, J. and Lapata, M.: Composition in Distributional Models of Semantics, Cognitive Science, Vol. 34, No. 8, pp. 1388–1439 (2010). Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K. and Kuksa, P.: Natural Language Processing (Almost) from Scratch, Journal of Machine Learning Research, Vol. 12, pp. 2493–2537 (2011). Turian, J., Ratinov, L.-A. and Bengio, Y.: Word Representations: A Simple and General Method for SemiSupervised Learning, ACL (2010). Frege, G.: On sense and reference, Ludlow (1997), pp. 563–584 (1892). Mitchell, J. and Lapata, M.: Vector-based Models of Semantic Composition, ACL (2008). Baroni, M. and Zamparelli, R.: Nouns are Vectors, Ad-. 8.

(9) 情報処理学会研究報告 IPSJ SIG Technical Report. [11]. [12] [13]. [14]. [15]. [16] [17]. [18]. [19]. [20]. [21]. [22]. [23]. [24]. [25]. [26]. [27]. [28]. Vol.2013-NL-213 No.3 2013/9/12. jectives are Matrices: Representing Adjective-Noun Constructions in Semantic Space, EMNLP (2010). Socher, R., Huval, B., Manning, C. D. and Ng, A. Y.: Semantic Compositionality through Recursive MatrixVector Spaces, EMNLP (2012). Erk, K. and Pad´ o, S.: A Structured Vector Space Model for Word Meaning in Context, EMNLP (2008). Erk, K. and Pad´ o, S.: Paraphrase assessment in structured vector space: Exploring parameters and datasets, Proceedings of the Workshop on Geometrical Models of Natural Language Semantics (2009). Thater, S., F¨ urstenau, H. and Pinkal, M.: Contextualizing Semantic Representations Using Syntactically Enriched Vector Models, ACL (2010). Thater, S., F¨ urstenau, H. and Pinkal, M.: Word Meaning in Context: A Simple and Effective Vector Model, IJCNLP (2011). Pustejovsky, J.: The generative lexicon, Computational linguistics, Vol. 17, No. 4, pp. 409–441 (1991). Bengio, Y., Ducharme, R., Vincent, P. and Janvin, C.: A neural probabilistic language model, Journal of Machine Learning Research, Vol. 3, pp. 1137–1155 (2003). Collobert, R. and Weston, J.: A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning, ICML (2008). Smith, N. A. and Eisner, J.: Contrastive Estimation: Training Log-Linear Models on Unlabeled Data, ACL (2005). Grefenstette, E. and Sadrzadeh, M.: Experimental Support for a Categorical Compositional Distributional Model of Meaning, EMNLP (2011). Coecke, B., Sadrzadeh, M. and Clark, S.: Mathematical Foundations for a Compositional Distributional Model of Meaning, CoRR, Vol. abs/1003.4394 (2010). Van de Cruys, T., Poibeau, T. and Korhonen, A.: A Tensor-based Factorization Model of Semantic Compositionality, NAACL (2013). Blacoe, W. and Lapata, M.: A Comparison of Vector-based Representations for Semantic Composition, EMNLP (2012). Nivre, J., Hall, J. and Nilsson, J.: Maltparser: A datadriven parser-generator for dependency parsing, Proceedings of LREC (2006). Baroni, M., Bernardini, S., Ferraresi, A. and Zanchetta, E.: The WaCky wide web: a collection of very large linguistically processed web-crawled corpora, Language resources and evaluation, Vol. 43, No. 3, pp. 209–226 (2009). Baroni, M., Bernardi, R. and Zamparelli, R.: Frege in space: A program for compositional distributional semantics, Linguistic Issues in Language Technologies (2013). Erk, K.: Vector space models of word meaning and phrase meaning: a survey, Language and Linguistics Compass, Vol. 6, No. 10, pp. 635–653 (2012). Dinu, G., Pham, N. T. and Barori, M.: General estimation and evaluation of compositional distributional semantic models, Proceedings of the Workshop on Continuous Vector Space Models and their Compositionality (2013).. ⓒ 2013 Information Processing Society of Japan. 9.

(10)