提案する尤度比推定量

第 5 章高・低・ゼロ頻度 N グラムのための統一的な尤度比推定的な尤度比推定

5.3 提案する尤度比推定量

提案手法はuLSIF[3]の枠組みに基づく．この枠組みでは，尤度比を基底関数とそれを重み付けするパラメータの線形和でモデル化し，二乗誤差の最小化問題を解くことでパラメータを最適化する．なお第4章で述べた手法と同様に，ここでも離散要素に適用可能な基底関数を選択する．提案する尤度比の推定手順を簡潔に述べる．分解できる要素wに対してまず，wを構成する要素a_k間に独立性を仮定した下で，a_kに基づく頻度を利用してr(w)をbr_item(w)としてラフに近似する．そして，前述の独立性仮定を緩和するために，w^{の頻度に基づく項}td(w) をbritem(w)^{に加算する．最後に，}britem(w)+td(w)^{と真の尤度比}r(w)との二乗誤差を最小化するようにtd(w)^の推定値btd(w)を求める．以下では提案手法の詳細を説明する．

5.3.1 全体的な枠組み

分解できる要素としてNグラムが得られたとする．N^グラムw^はN^{個のアイテム}{ak}^N_k₌₁ が連続したシーケンスである．ここで，akはw^のk番目に位置する離散的なアイテムであり，

文字や単語などである．N =1^，2^，3^のとき，wはそれぞれユニグラム，バイグラム，トライグラムと呼ばれる．手法の詳細を述べる前に，二つの演算子ΨkとΨk(l)を定義する．これらの演算子はwからアイテムパターンを生成する．

定義1 (演算子Ψk) 演算子Ψkはakを除く全アイテムをワイルドカード記号•^{に置き換える．}

記号•はそれがある位置に対して，全種類のアイテムマッチを許可する．もしw^がa1a2a3であれば，Ψ1w=a1• •^，Ψ2w=•a2•^，Ψ3w=• •a3となる．

定義2 (演算子Ψk(l)) 演算子Ψk(l)はakを除くアイテムを•^{に置き換え，}akをa(l)，1≤ l≤ v に置き換える．lはアイテムの種類を指定する添え字であり，vは存在しうるアイテムの種類数である．すなわち，a(l)はv種類あるアイテムのうち，l種類目のアイテムを意味する．もしw^がa1a2a3であれば，Ψ1(l)w=a(l)• •^，Ψ2(l)w=•a(l)•^，Ψ3(l)w=• •a(l)となる．

提案するアプローチは，まずw^{を成すアイテム}{ak}_k^N₌₁の間に統計的な独立を仮定して，w をアイテム単位に分解する．そして，r(w)^を{Ψkw}^N_k₌₁^{に対する尤度比の積}

ritem(w)= YN k=1

r(Ψkw) (5.2)

=r(a1• • · · · •)r(•a2• · · · •)· · ·r(• • · · · •aN)

として近似する．Ψkw^はw^{を含む多くの}Nグラムにマッチする．ゆえに，r(w)^{が定義できれ} ばr(Ψkw)も定義できる．wを分解することによって，たとえw自体がサンプリングされなくても，Ψkwに関する頻度に基づいてr_item(w)を推定できる．しかしながら，統計的独立の仮定は推定誤差を大きくする原因となる場合がある．そこで，アイテム間の依存性を取り入れる

項td(w)^を式(5.2)に追加する．以上から，提案する全体的な推定モデルは

r_ours(w)=r_item(w)+t_d(w) (5.3)

と表される．このモデルは二段階で推定される．まず，アイテムに関する頻度c_∗(Ψkw)^，∗ ∈ {de,nu}^{を使用して}r_item(w)^{を推定する．次に頻度}c_∗(w)^{を使用して}t_d(w)^{を推定する．}t_d(w)^は各Nグラムwに対して定義され，提案する推定モデルr_ours(w)と理想的な尤度比r(w)との二乗誤差を最小化するように推定される．少なくともc_de(w)，c_nu(w)のいずれかがゼロより大きく，かつritem(w)+td(w)の推定値が非負であれば，最終的な推定値として二乗誤差を最小化する厳密解を得ることができる．

5.3.2 分解された尤度比r_item(w)の推定

N^グラムwが与えられたもとで，第4章で提案した手法を利用して式(5.2)^のr(Ψkw)^を推定する．まず基底関数{φl(Ψkw)}^v_l₌₁を次のように定義する．

φl(Ψkw)=

1 Ψkw= Ψk(l)w 0 otherwise

l^{はワイルドカード記号}•に置き換えられていないアイテムの種類を指定する添え字であり，

vは存在しうるアイテムの種類数である．Ψkw^がΨk(m)w^，1≤m≤vと等しいとき（すなわち a_kがa_(m)であるとき），br_K(Ψk(m)w)は次式として計算される．

br_K(Ψk(m)w)= 1

n_dec_de(Ψk(m)w)+λitem

!₋1

n_nuc_nu(Ψk(m)w)

λitem (≥ 0)は正則化パラメータであり，ndeとnnuはサンプル{w^de_i }ⁿ_i₌^de₁^，{w^nu_j }ⁿ_j₌^nu₁^{として得られ} たNグラムの総頻度である．ritem(w)^は{brK(Ψkw)}^N_k₌₁^の積

br_item(w)= YN

k=1

br_K(Ψkw) (5.4)

として推定される．5.4節で述べる評価実験において，ndeは訓練データに存在するN^グラムの総頻度，nnuは固有表現の左にあるNグラムの総頻度となる．これらの定義からnde >>nnuが成り立つ．また言語の性質から，多くのNグラムが低頻度のアイテムで構成される．これらを考慮すると，ほとんどのΨkwに対してbp_de(Ψkw)<<bp_nu(Ψkw)が成り立つ．よって，bp_de(Ψkw) の値が尤度比の推定値に強く反映され，尤度比の分母を補正する意味がある．br_item(w)はN個の正則化パラメータを持ち，その各々がrK(Ψkw)の推定値を補正する．しかし，N^個の正則化パラメータを別々に変化させ，最適な組み合わせを探すことは計算コストが大きい．一方，

bpde(Ψkw)は訓練データ全体に対するΨkwの出現確率である．ここで，二つのアイテムakと a_k′が等しければ，bp_de(Ψkw)≈bp_de(Ψk^′w)^，k,k^′となる．言い換えると，bp_de(Ψkw)^{はアイテム} a_kの位置kではなくその種類によってほぼ決まるということである．上記の理由から，我々はN個の正則化パラメータを共通のものとみなし，その全てに同じ値を設定することとした．

5.3.3 依存性を取り入れる項td(w)の推定

Nグラムwとbr_item(w)が与えられたもとで，式(5.3)のt_d(w)を推定する．いま，t_d(w)を次の線形モデルとする．

btd(w)= Xv

l=1

βlφl(w)

β =(β1, β2, . . . , βv)^Tはデータから学習されるパラメータ，{φl(w)}^v_l₌₁は常に非負の基底関数で

ある．式(4.5)^と同様にw^{に対する基底関数を}

φl(w)=

1 w=w(l)

0 otherwise

と定義する．l^{は存在しうる全種類の}N^{グラムから特定の}Nグラムを指定する添え字である．

すなわち，w(l)は全N^{グラムのうち，}l^種類目のNグラムである．なお，ここでのv^は4.2^節で定義したものと異なり，存在しうるNグラムの種類数であることに注意する．w = w(m)， 1≤m≤vであるとき，提案する推定モデルは

rours(w(m))=britem(w(m))+btd(w(m))=britem(w(m))+βm (5.5) となる．ここでr_item(w_(m))は式(5.4)で示すbr_item(w_(m))に置き換えられ，以後は定数として扱われる．データからβを決定するために次の最適化問題を解く．

βmin∈R^v

J(β)b + λd

2β^Tβ

(5.6)

λd(≥0)は正則化パラメータであり，次式に示すJ(β)b は二乗損失に基づく項である²． bJ(β)=1

2 Xv

l=1

βl2



 1 nde

nde

i=1

φl(w^de_i )



+br_item(w_(m)) Xv

l=1

βl



 1 nde

nde

i=1

φl(w^de_i )





− Xv

l=1

βl



 1 n_nu

nnu

j=1

φl(w^nu_j )



 (5.7)

式(5.6)の目的関数は凸二次関数であるため，これをβmで微分しゼロとする．

∂

∂βm

J(bβ)+ λd

2 β^Tβ

=βm



 1 nde

nde

i=1

φm(w^de_i )+λd



+br_item(w_(m))



 1 nde

nde

i=1

φm(w^de_i )



− 1 nnu

nnu

j=1

φm(w^nu_j )

上式をβmについて解くと eβm(λd)=



 1 nde

nde

i=1

φm(w^de_i )+λd





−1

 1 nnu

nnu

j=1

φm(w^nu_j )−br_item(w_(m))



 1 nde

nde

i=1

φm(w^de_i )







= c_de(w_(m)) n_de +λd

!₋1(

c_nu(w_(m))

n_nu −br_item(w_(m)) c_de(w_(m)) n_de

(5.8) が得られる．これは式(5.6)で示した最適化問題の解となる．eβm(λd)^を式(5.5)^{に代入すると，}

提案する推定モデルは

erours(w(m))=britem(w(m))+eβm(λd)

として計算される．上式はeβm(λd)が減算項を含むため負になる可能性がある．そこでer_ours(w_(m)) を次のように補正する．

br_ours(w_(m))=max(0,er_ours(w_(m))) (5.9)

これが提案する最終的な推定量になる．brours(w(m))^はλitemとλdという二つの正則化パラメータを持つ．これらのパラメータは，低頻度問題を軽減しながら，britem(w)^とbtd(w)^が式(5.5)^の推定モデルに与える影響の大きさを調節する．結果として，この推定量はアイテム間での依存性の強さを制御することができる．次節では，二つの正則化パラメータλitemとλdの作用について，実際の推定例を用いながら説明する．

2式(5.7)の導出は付録Dを参照のこと．

5.3.4 br_ours(w)における正則化の効果

本節では正則化の効果による観点から，式(5.9)^で示したbrours(w)^{を説明する．}5.1^節と同様に，固有表現の左Nグラムを予測するタスクを想定する．そして，左N^{グラムを予測する指} 標として尤度比r(w) = p_nu(w)/p_de(w)を推定することを考える．p_de(w)^はw^{がコーパス中の} 任意位置に出現する確率密度,p_nu(w)はwが固有表現の左に出現する確率密度である．すなわち，wが固有表現の左文脈であればr(w)は高く，そうでなければr(w)は低くなる．また表5.2 の出現頻度が得られたと仮定し，r(w)の推定にそれらを用いる．brours(w)^{は二つの正則化パラ} メータλitemとλdを持つ．各パラメータの効果を分かりやすくするため，二つのパラメータのうち一方の値を固定し，もう一方を10⁻⁹^，10⁻⁸^，. . .^，10⁻¹^{と変化させる．図}5.1^と図5.2^は，

λitemとλdの各々を変化させた際のbr_ours(w)を示す．各図において，横軸は正則化パラメータの値，縦軸はそのときのbr_ours(w)である．

表5.2:バイグラムの頻度および分解された頻度の例バイグラムバイグラムの頻度 rMLE(w)分解された頻度britem(w) w=a1a2ndecde(w)nnucnu(w)cde(a1•)cnu(a1•)cde(•a2)cnu(•a2)withλitem=0 wA107 5,000104 100208,0001,0005,00050012,500 wB107 50104 120240301501512,500 wC107 50104 240801050512,500 wD107 14104 00801050512,500

1 10 100 1000 10000

1.E-09 1.E-07 1.E-05 1.E-03 1.E-01

Estimate

Ȝ _୭୳୰ୱ̂ _୅

_୭୳୰ୱ̂ _ୈ _୭୳୰ୱ̂ _୆

_୭୳୰ୱ̂ _େ

_ୢ

10

^ିହ

_୧୲ୣ୫

10^ିଽ 10^ି଻ 10ିହ 10^ିଷ 10^ିଵ

図5.1:λitemを変化させた際のbrours(w)^（λdは10⁻⁵^に固定）

図5.1^では，λitemが大きくなるにつれて，全w^に対するbrours(w)^{は低くなる．}λitem = 10⁻⁹ では正則化の効果が弱いため，brours(wB)^，brours(wC)^，brours(wD)^は10,000^{に近い値となる．表} 5.2に示すように，これらの推定値はλitem= 0^としたbr_item(w)^{に近いことが分かる．}br_ours(w_A) が他の推定値より低い理由は，式(5.8)で示した減算項の影響と考えている．λitem = 10⁻⁵ではbr_ours(w_C)がbr_ours(w_B)よりも低い．これはw_Cの分解された各頻度がw_Bのそれらよりも低く，brours(wC)^{にかかる正則化が}brours(wB)よりも強力なためである．λitemがさらに大きくなると，分解された各頻度が豊富であるwAの推定値が最も高くになり，brours(wB)^とbrours(wC)^はほぼ同じ推定値になる．そしてbrours(wD)はゼロに近づいてゆく．ここでλitem> λdであるから，

br_ours(w)は分解された頻度に対してロバストになり，N^{グラム自体の頻度}c_∗(w)^{が強調される．}

λitem > λdとする設定は，アイテムa_k間の依存性を重視するケースで効果的である．いま，地

名の左バイグラムを尤度比で予測することを考え，w=“Hospital in”（ここでa₁=“Hospital”， a2 = “in”^{）とする．前置詞の}“in”は様々な文脈で出現するため，このバイグラムが地名の左文脈かを判定するには“in”の左側にある単語が何であるかを考慮する必要がある．このような例に対しては，二単語の共起頻度であるc_∗(w)を利用して，単語間の依存性を推定値に強く取り入れることができる．

図5.1と異なり図5.2では，λdが大きくなるにつれて，全wに対するbr_ours(w)が高くなる．

λd = 10⁻⁹では正則化の効果が弱いため，各々のbr_ours(w)は表5.2 の対応するr_MLE(w)に近くなる．λd = 10⁻⁵^ではbrours(wB)^がbrours(wA)^{よりも低い．これは}c_∗(wB)^がc_∗(wA)^よりも低く，brours(wB)^{にかかる正則化が}brours(wA)よりも強力なためである．λdがさらに大きくなると，

brours(wA)^{が最も高い推定値，}brours(wB)が次いで高い推定値となる．その一方で，brours(wD)^は

1 10 100 1000 10000

1.E-09 1.E-07 1.E-05 1.E-03 1.E-01

Estimate

_୭୳୰ୱ̂ _୅

_୭୳୰ୱ̂ _୆

_୭୳୰ୱ̂ _ୈ _୭୳୰ୱ̂ _େ

ߣ_ୢ

_୧୲ୣ୫

10

^ିସ

10ିଽ 10ି଻ 10ିହ 10ିଷ 10ିଵ

図5.2:λdを変化させた際のbrours(w)^（λitemは10⁻⁴^に固定）

cnu(wD)= 0^{にもかかわらず，}brours(wC)にほとんど等しい推定値となる．ここでλd > λitemであるから，brours(w)^はNグラム自体の頻度に対してロバストになり，分解された頻度が強調さ

れる．λd > λitemとする設定は，必要とするアイテムak間の依存性が弱いケースで効果的で

ある．人名の左バイグラムを尤度比で予測することを考え，w=“to Mr.”^{とする．この例では} a₁としてどのような単語があろうとも，a₂が“Mr.”であればその右に人名が来ることが容易に想像できる．このような例に対しては，wを構成する各単語a_kに関する頻度の情報を推定値へ強く反映することができる．

以上の結果から，Nグラム自体の頻度と分解された頻度の間でのトレードオフが示される．

そして，提案手法では二つの正則化パラメータλitemとλdを調節することにより，アイテム間の依存性を制御できることが分かる．

5.4 ^評価実験

提案手法の振る舞いを分析し，低・ゼロ頻度問題を軽減する有効性を検証する．評価実験では，コーパスから固有表現の左に位置する文脈を尤度比によって予測するタスクを解く．固有表現としては人名と地名の二種類を使用する．これらはそれぞれPER，LOCとタグ付けされ，予測する文脈としては単語Nグラムを採用する．図5.3は二種類の固有表現とそれらの左バイグラム（N =2）の例を示している．人名の左N^{グラムには，}“Minister”^{のように敬称} や人を表す名詞などの手がかりとなる単語が含まれる傾向がある．それゆえ，人名の文脈を予測するにはNグラムを構成する各単語が重要となる．それに対して，地名の左N^グラムに

… Prime Minister Margaret Thatcher …

Person name Word bigram ( )

… Corp. of San Diego …

Location name

図5.3:二種類の固有表現および左バイグラムの例表5.3:各データ集合が含むバイグラムの情報 Size of Train

データ集合全体 O_LOC O_PER

Str 種類数総頻度種類数総頻度種類数総頻度

10,000

訓練 1,468,292 4,002,930 31,294 64,072 41,123 67,780

開発 230,528 401,445 4,318 6,116 5,795 7,463

評価 231,931 403,145 4,164 5,876 6,035 7,635

2,500

訓練 493,368 1,000,627 9,983 15,965 12,458 17,292

開発 237,805 415,369 4,752 6,736 5,522 6,973

評価 233,143 402,320 4,448 6,372 5,318 6,622

は“of”のように前置詞が含まれる傾向にあるが，これらは様々な文脈にも含まれる．したがって，人名の文脈とは異なり，地名の文脈を予測するためには単語同士の繋がり（ここではN グラムを示す）が重要となる．以上のように異なる文脈特徴を持つ二つの固有表現は，提案手法の振る舞いを分析する際に役立つ．加えて，予測対象となるNグラムは一意に定まるため，客観的な評価が容易になる．最後に，Nグラムの頻度分布はべき乗測に従うため，まれなアイテムや観測されないアイテムを多く処理する必要がある．したがって，それらを処理する方法が文脈予測の性能に大きな影響を及ぼし，提案手法と5.4.3節で説明する比較手法との違いを明確に観察できる．

表5.4:各データ集合が含む4グラムの情報 Size of Train

データ集合全体 O_LOC O_PER

S_tr 種類数総頻度種類数総頻度種類数総頻度

10,000

訓練 3,618,822 3,982,930 59,167 63,665 64,729 67,437

開発 385,604 399,445 5,931 6,064 7,355 7,430

評価 388,401 401,145 5,713 5,832 7,497 7,593

2,500

訓練 947,710 995,627 15,305 15,851 16,919 17,219

開発 400,336 413,369 6,574 6,699 6,861 6,940

評価 387,489 400,320 6,212 6,327 6,537 6,589

5.4.1 データ集合と実験条件

実験では次の手順で作成したデータ集合を用いる．まず，Stanford Named Entity Recog-nizer [75]^を用いて1987 Wall Street Journal corpus³から固有表現を分類してタグ付けした．次にタグ付きコーパスから記事をランダムにサンプリングし，訓練，開発，評価データへと分配した．開発データと評価データはサイズを1,000記事に固定し，訓練データのサイズS_trは以下に示す条件に応じて変化させた．それぞれの条件は二つの選択肢を持つ⁴．

• N^{グラムの次数}N^：2^，4

• ^{訓練データのサイズ}S_tr：10,000記事，2,500記事

• 固有表現の種類：地名（LOC^{），人名（}PER^）

それゆえ，計2³の条件設定で実験を行うことになる．最初の二条件はデータ集合の疎性を調節するためのもの，最後の条件は予測する文脈の種類を切り替えるものである．データ集合の詳細を表5.3と表5.4に示す．なお，開発データとテストデータに含まれる記事は，訓練データのサイズを変更するごとにリサンプリングした．表中において，OLOCとOPERはそれぞれ地名と人名の左にNグラムが出現することを意味する．

5.4.2 実験手順

訓練データが含むNグラムについて，訓練データ全体および固有表現の左に出現する頻度をそれぞれ数え上げる．{Ψkw}^N_k₌₁についても同様に頻度を数え上げる．そして評価データが含む全てのNグラムに対し，数え上げた頻度を用いて次のr(w)^{を推定する．}

r(w)= p(w|O_NE) p(w)

3https://catalog.ldc.upenn.edu/LDC2000T43(accessed 2020-12-17)

4Nを2から4まで変化させて実験し，N=2とN=3の場合では同様の結果が得られた．また，N>4のケースでは頻度が疎となるため，実験結果はN=4の場合と大差ないと考える．したがって，Nグラムの次数としては2と4をの二つを設定する．

ドキュメント内統計量の保守的な推定に関する実証的研究 (ページ 80-101)

第 5 章 高・低・ゼロ頻度 N グラムのための統一 的な尤度比推定的な尤度比推定

5.3 提案する尤度比推定量

10

10

5.4 評価実験

第 5 章高・低・ゼロ頻度 N グラムのための統一的な尤度比推定的な尤度比推定

5.4 ^評価実験