少数サンプルに基づく確率表の混合モデルの推定

(1)

少数サンプルに基づく確率表の混合モデルの推定

Estimation for Mixture of Probability Tables with Small Samples

2007 ^年 3 ^月

早稲田大学大学院理工学研究科

電気・情報生命専攻情報学習システム研究

藤本悠

(2)

(3)

3

第 1 ^{章導入}

計算機能力の向上に伴い大規模なデータの確率的構造，因果関係の詳細な記述が求められる機会が多くなって来た．そのような膨大なデータの確率構造の解析，モデルの構築の際に問題になるのは扱うデータの数と考えたいモデルの大きさのバランスである．

例えば自然言語処理において文脈に応じた文書や単語の使われ方を確率的に記述することを考える．文書や単語の種類が増える事によって変数の状態数を詳細に記述する事が可能になり，それに伴ってパラメタ数の多いモデルと，少ないモデルのパラメタ数の差が極端に広がってしまう可能性がある．この問題を回避し，適度なパラメタ数のモデルを構築するために，文脈を表す潜在変数をモデルに導入するPLSA^（Probabilistic Latent Semantic Analysis^）などといった解析がしばしば行われる[13, 14]^．PLSA^{ではアスペクトモデ} ルと呼ばれるモデルが考案され，このモデルは様々な状況で応用され始めている．このようなモデルを用いる事でパラメタ数に関する柔軟性は実現できるが，推定に用いるサンプル数が少ない場合には推定結果の信頼性が問題となる．

また例として、多様化する個人の細かい要求に合致した特徴を持つような商品を推薦するためのモデルの構築を考える[25, 33]^{．個人の要求や商品の} 特徴を微細に渡って差別化することで，個人に対してきめ細かい対応ができるモデルが可能になる．一方で，それを実現するためには膨大なデータが必要となる．別な例として，奏者の演奏を模倣することで未知の楽曲に対する即興演奏を確率的に自動生成するシステムを考える[8, 35]^{．音楽的文脈とフ} レーズの組み合わせの使われ方の傾向を詳細にわたって記述することで，奏者の特徴を反映した幻の即興演奏が行えるようになる．一方で，それを実現するためには同様に大量の演奏データが必要になる．

これらの例は沢山の状態数を持つような確率変数を対象として，その変数間の依存関係を表す確率（同時確率や条件付き確率）表をモデル化する問題と考えることができる．特に文章と単語，個人の要求と商品の特徴，及び音楽的文脈とフレーズの種類などはデータが集まるにつれて差別化，細分化が可能となることから，確率表の大きさに対してサンプル数が相対的に不足しやすくなる．このような問題を扱うためにはモデルのパラメタ数とサンプル数の関係を考慮した上でモデルの推定，評価を行うことが必要となる．

例のように確率変数自体が多数の状態数を持っている巨大な確率表を表現

(6)

する際には，候補のモデル毎にパラメタ数の差があり過ぎるという問題があった．モデルのパラメタ数が多過ぎる時には，例えば独立性を仮定することでパラメタ数を大幅に削減した単純なモデルを考えることができる．しかしこの単純なモデルでは逆にパラメタ数が少なすぎて確率表の再現の精度が低くなり過ぎてしまう．前述のアスペクトモデルはこの単純なモデルを複数混合することで適切なパラメタ数のモデルを実現していると解釈することができる．この混合モデルを用いても，確率表が巨大でサンプル数が少ない場合にはモデリング時のオーバーフィットが依然として問題となる．そこでサンプル数が少ない状況でも信頼できるモデルの推定を行うための指標として「推定のロバスト性」という考え方を導入する．推定のロバスト性とは，パラメタの推定を行う際にデータに含まれる外れ値から受ける推定への影響の少なさを一般に意味するが，サンプル数が少ないことが推定結果へどのように影響するかを見ることで，同様の議論を行うことができる．

本論文では推定のロバスト性を実現するために，まず混合モデルのパラメタ推定法として広く用いられているEMアルゴリズムで導入されている Kullback-Leibler (KL)情報量の代わりに，これを一般化したBregman^情報量のクラスで同様のアルゴリズムが構成できることを示す．そして，Bregman 情報量の一種で外れ値に対するロバスト性が報告されているβ情報量を用いて推定アルゴリズムを構成することで，少数サンプルを用いたロバストな推定が実現できることを確認する．β情報量を用いる場合，情報量を算出する際のパラメタを変えることで情報量が持つロバスト性も変化していくが，実際には推定方法の候補の中から適切なものを選ぶ必要がある．しかし充分なサンプル数があることを仮定した漸近論で論じられている一般的な情報量基準はこの場合の評価としては適していない．そこでHellinger^{距離に基づいて} 分布の歪みに対する推定への影響の最悪評価を行うことで，サンプルが少数の場合でも信頼性のある推定方法を評価できることを示す．

本論文の構成を以下に示す．第2章では具体的な離散データの同時確率表のモデリングについて述べる．第3章で確率モデルの推定や評価を理解するために確率分布の空間を幾何的に解釈する準備をする．第4^章では第2^章で紹介した単純なモデルの拡張として情報量の定義から導き出されるm-^混合，

u-混合についても触れる．第5章では少数サンプルに基づく推定の問題に焦点を絞り，ロバスト推定の観点から対処策について論じる．第6^{章では内容} をまとめ，今後の展望について述べる．

(7)

7

第 2 章離散変数のモデリング

本章では複数の離散変数の依存関係の解析を行う際に良く用いられるモデルの解説を行う．通常離散データは，ある変数の状態が観測された頻度によって表現される度数の表（分割表）として扱われる．N個のデータx1:N ={x1, . . . , xN} が複数の離散変数によって表現されている時，この分割表の解析を行うことで，観測された離散データの背後にある確率構造を論じることができる．

単純な例としてそれぞれI，J 個の状態を持つ2^変数A，Bの分割表を表 2.1^に示す．N個のデータが観測された時，状態(ai, bj)に関する観測度数は分割表におけるai行bj 列に表示され，そのセルの観測度数をnijと表している．また，i行目，j列目に関して和を取った結果をそれぞれni+，n+jと表している．この分割表のデータの経験分布p˜は各セルの度数を総データ数 N で割ることで得ることが出来る．例えば経験分布において状態(ai, bj)が観測される確率はp(a˜ i, bj) =nij/Nと表現される．変数の数が増えても，変数の組み合わせで表される全状態X の中のあるセルx∈ X における経験分布p(x)˜ は，分割表上の対応するセルの度数nxを用いてp˜=nx/Nと与えることができる．

2.1 ^{基本的なモデル}

まず，変数間の同時確率を表した経験分布p˜を再現することを考える．考えられる様々な経験分布を完全に再現するためには各セルx∈ X の確率値

表2.1: 2^元分割表変数B

変数A b1 · · · bj · · · bJ 計 a1 n11 · · · n1j · · · n1J n1+

... ... ... ... ...

ai ni1 · · · nij · · · niJ ni+

... ... ... ... ...

aI nI1 · · · nIj · · · nIJ nI+

計 n+1 · · · n+j · · · n+J N

(8)

˜

p(x)が全て記述できなくてはならない．M 個の変数V1, . . . , VM がそれぞれ I1, . . . , IM個の状態数を持っている時，同時確率表の全状態数|X |はQM

m=1Im

となる．同時確率表は

X

x∈X

˜ p(x) = 1

˜

p(x)≥0 for allx

を満たすことから，経験分布を完全に記述できるパラメトリックモデルq(φ) は|X | −1個のセルの同時確率値をパラメタφとして持つ必要がある．このことから経験分布を完全に再現できるモデルが必要なパラメタの数dimφは一般にはdimφ=QM

m=1Im−1個となる．しかし状態数|X |(^{確率表のセル} 数)の経験分布をほぼ同じ数のパラメタで再現することになるため，真の分布が持つ変数間の依存関係を捉えるには不適切な場合がある．そこで妥当な制約を入れてパラメタ数を減らした単純なモデルを考える．以下ではそのような単純なモデルとして，独立性を考慮したモデルと，変数の状態の近傍を統合したモデルについて紹介をする．

2.1.1 ^{独立モデル}

変数同士が互いに独立である時，モデルqとして次のようなものを考えることができる．

定義2.1 (^{独立モデル}) ^変数A，BがそれぞれI，J個の状態数を持っている時，x= (ai, bj)の同時確率を

q(x;φ) =p(ai)p(bj) (2.1)

のように表現したモデルを独立モデルと呼ぶ．ただしここでpai，pbj はA， Bに関する周辺確率の値とし，φ={p(a1),· · ·, p(aI−1), p(b1),· · · , p(bJ−1)} である．

各変数の周辺確率は和が1となることから，この独立モデルの記述に必要なパラメタ数はdimφ=I+J −2となる．また，変数が増えた場合も同様に周辺確率の積を考える事で独立モデルを考える事ができる．それぞれ状態数がI1,· · ·, IM であるようなM 個の変数V1,· · · , VM が全て独立である時，

x= (v1,· · · , vM)の同時確率を次のように表すことができる．

q(x;φ) = YM m=1

p(vm) (2.2)

なお，この時パラメタ数はdimφ = PM

m=1(Im−1)となり，全ての変数間の独立性が仮定できる時には同時確率の簡潔な表現を実現することが可能になる．

(9)

2.1. ^{基本的なモデル} 9

例2.1 (^{独立モデル}) ^{それぞれ状態数が}3^{であるような}2^変数A，B の同時

確率を考える．状態(ai, bj)を表す同時確率値をpij と表すと，各状態の同時確率値は表2.2のように表せる．例えば確率表2.2^においてp33以外の8

表2.2:^{元の確率表} 変数B 変数A b1 b2 b3

a1 p11 p12 p13

a2 p21 p22 p23

a3 p31 p32 p33

個のセルの確率値が決定した時，同時確率値の和が1^{となることから}p33も決定される．このように同時確率表を完全に再現するにはパラメタ数として dimφ=|X | −1だけ必要となる．

一方で変数間の独立性を仮定できる場合，周辺確率p(A)，p(B)の積によって同時確率を表現することができる．各変数状態の周辺確率p(ai)，p(bj)をそれぞれpi+，p+jと表現すると，独立モデルによる表現は表2.3^{のようにな} る．確率表2.3^{では例えば周辺確率}p1+，p2+，及びp+1，p+2と4^つの値さ

表2.3:^{独立モデル} 変数B

変数A b1 b2 b3 p(A) a1 p1+·p+1 p1+·p+2 p1+·p+3 p1+

a2 p2+·p+1 p2+·p+2 p2+·p+3 p2+

a3 p3+·p+1 p3+·p+2 p3+·p+3 p3+

p(B) p+1 p+2 p+3

え決定すれば同時確率表が決定する．このように独立性が仮定できる場合には同時確率表はdimφ=PM

m=1(Im−1)個のパラメタで再現できる．

2.1.2 ^{タイルモデル}

先に述べた独立性以外の観点からも確率表を単純化することは可能である．

例えば変数の状態をいくつか統合し，状態数を縮約することで解析対象となる確率表を小さくすることも，このような単純化の1^{種だと考えられる．本} 稿ではこのような考え方から定義される確率表をモデルと考え，次のように定義する．

定義2.2 (^{タイルモデル}) ^{状態数がそれぞれ}I1, . . . , IM個のM個の変数V1, . . . , VM

(10)

を考えた時，表内のセルを結合することで|X |=QM

m=1Imよりもセル数の少ない粗い表を考えることができる．この結合したセルの単位をタイル，タイルの集合から成る粗い確率表のことをタイルモデルと呼ぶ．モデルがT個のタイルから構成される時，確率表におけるタイルのラベルをt，タイルtの確率値をpt，タイルtを構成するセルの数をctと表すことにする．するとタイルモデルqにおけるタイルtに属する状態xの確率は

q(x;φ) = pt

ct

(2.3) となる．ただしここでφ={p1, . . . , pT−1}である．

このモデルはどのセルがどのタイルに属しているかというセルの位相構造が分かっていれば，ptのみで確率表が構成できる．PT

t=1pt= 1という制約より，タイルモデルの記述に必要なパラメタ数はdimφ=T −1となる．セルを統合することによってT <QM

m=1Imとなるため，一般にタイルモデルのパラメタ数は飽和モデルよりも少なくなる．

例2.2 (^{タイルモデル}) 2^変数A，Bの同時確率表2.2^を表2.4^{のようなタイル} を持ったタイルモデルによって記述することを考える．表2.5^はセル数9の

表2.4:^{タイルの例} 変数B 変数A b1 b2 b3

a1 タイル1 ^タイル2

a2

a3 タイル3 ^タイル4

表2.5:^{タイルモデル} 変数B 変数A b1 b2 b3

a1 p1/4 p1/4 p2/2 a2 p1/4 p1/4 p2/2 a3 p3/2 p3/2 p4

確率表をT = 4個のタイルで表現するタイルモデルの例である．例えばタイル3^に属する(a3, b2)に着目した時，c3= 2より同時確率はp(a3, a2) =p3/2 と表されることになる．表2.5は巨大な確率表を小さくする目的で用いられる状態の縮約と同等となり，状態数を{a1, a2}，{b1, b2}のように統合した表 2.6の各セルの確率値が決定すれば元の3×3の確率表が表現できる．ここで

(11)

2.2. ^{対数線形モデル}/^{グラフィカルモデル} 11

表2.6:^{各変数の状態縮約} 変数B 変数A {b1, b2} b3

{a1, a2} p1 p2

a3 p3 p4

例えばp4以外のセルの確率値が決定すれば表2.5が構築できることから，タイルモデルで必要なパラメタ数はdimφ=T−1で済むことが分かる．

なお，実際にはタイルの位相がp確率表の上でのセルの近傍関係を表現している必要は無いため，解析者の発見的な知見を反映させやすいモデルとなっている．

2.2 ^{対数線形モデル} / ^{グラフィカルモデル}

独立モデルやタイルモデルは非常に単純なモデルであるが，巨大な確率表からデータの傾向を把握したい場合などに効果を発揮する．ここでは特に独立性に着目することでさらに様々なモデルが表現できる，対数線形モデル[32, 1]

とそれに対応するグラフィカルモデル[36, 34]^{の概要を紹介する．}

3個以上の変数を扱う場合，各変数群間で独立性を論じることができるため，様々な独立関係が存在することになる．以下ではその例として，それぞれ I，J，K個の状態を持つ3^変数A，B，Cを考える．ある状態x= (ai, bj, ck) を表すことを考えた時，式(2.1)に対応する独立モデルは次のようになる．

q(x;φ) =p(ai)p(bj)p(ck) ここで両辺の対数をとると次の式が得られる．

logq(x;φ) = logp(ai) + logp(bj) + logp(ck)

=α^A_i +α^B_j +α^C_k (2.4)

と表すことができる．ただしここでα^A_i = logp(ai)，α^B_j = logp(bj)，α^C_k = logp(ck)である．これが対数線形モデルにおける独立モデルとなり，各変数が全て互いに独立であることを表している．φ={α^A_i , α^B_j, α^C_k;i= 1, . . . , I−1, j= 1, . . . , J−1, k= 1, . . . , K−1}がこの場合のパラメタとなる．

また独立であるかどうかは各変数間で個々に議論することができる．例えばAとBは独立でないが，ABの組を新たな変数として考えた場合，ABと Cは独立であるような関係を次のように考えることができる．

q(x;φ) =p(ai, bj)p(ck)

(12)

この時Cは{A, B}と同時独立であることを意味し，対応する対数線形モデルは次のようになる．

logq(x;φ) =αÂ_i +α^B_j +α^C_k +αÂB_ij (2.5) ここでαÂB_ij はAとBの間の交互作用を表すパラメタで，完全な独立モデルでは表現できない部分を補正する項となる．

またCが与えられたときにAとBが独立になるという関係も表現することが出来る．これは

p(ai, bj|ck) =p(ai|ck)p(bj|ck) (2.6) という関係を表現することになり，Bayes^{の式変形より}

q(x;φ) = p(ai, ck)p(bj, ck) p(ck)

という関係のモデリングをすることになる．この場合の対数線形モデルは logq(x;φ) =α^A_i +α^B_j +α^C_k +α^AC_ik +α^BC_jk (2.7) と表現される．

条件付き独立の考え方を進めていき，他の変数が与えられた上で全ての変数間で条件付き独立が成り立つような場合，対応する対数線形モデルは

logq(x;φ) =αÂ_i +α^B_j +α^C_k +αÂB_ij +αÂC_ik +α^BC_jk (2.8) となる．しかし，変数間にどのような形の独立性も存在しない場合にはこれらの式による同時確率の完全な記述はできない．独立関係が全く無い場合の変数関係の記述には，対数線形モデルにおける飽和モデルを考える必要があり，これは次のように表せる．

logq(x;φ) =αÂ_i +α^B_j +α_k^C+αÂB_ij +αÂC_ik +α_jk^BC+αÂBC_ijk (2.9) ここでαÂBC_ijk は全ての変数間の交互作用を表すパラメタであり，独立を仮定した場合には説明しきれない(ai, bj, ck)に特有の効果を表現していることになる．対数線形モデルではこのように変数間の独立性に着目することで様々なモデルを論じることができる．なお，独立性とは異なる観点からモデルにパラメタを導入する例は[2]^{で紹介されている．}

これらの対数線形モデルは変数をノード，その依存関係を線で結ぶことで表現したグラフ構造で表されることがあり，このような表現をグラフィカルモデルと呼ぶ[36]．変数間の交互作用項がある場合にそのノード間を線で結んだものはグラフィカルモデルの1つの表現で，無向グラフと呼ばれる．各対数線形モデルに対応した無向グラフを図2.1に示す．なお，変数間の交互作用がある部分に線を引くという考え方をすると，式(2.8)^と式(2.9)^のグラ

(13)

2.2. ^{対数線形モデル}/^{グラフィカルモデル} 13

(a)式(2.4) (b)式(2.5) (c)式(2.7) (d)式(2.9)

図2.1:対数線形モデルに対応する無向グラフの例

図2.2:ベイジアンネットワークの例

フ構造が一致してしまうが，式(2.8)のような高次の交互作用が欠けたモデルは，グラフィカルモデルの範疇でのモデルの候補からは除いて議論することが多い．また，グラフィカルモデルの中で特に線が向きを持っている構造を有効グラフと呼び，有向線の意味合いとして尾端のノードで条件付けた先端のノードの確率を表すものを特にベイジアンネットワークと呼ぶ[24, 16, 23]

．例えば式(2.6)に示したような関係を用いて，3^変数A，B，Cの同時確率を次のように分解することを考える．

q(A, B, C) =q(C)q(A|C)q(B|C) (2.10) この関係はベイジアンネットワークでは図2.2^{のように示され，図}2.1(c)^のような関係に条件付き確率としての意味合いを明示したグラフとなっている．

多数の変数間の依存関係を視覚的に確認する場合には，このようなグラフィカルモデル，ベイジアンネットワークが非常に有用となる．

なお，ベイジアンネットワークで扱う変数として潜在変数を導入する事で，

潜在クラスモデルと呼ばれるモデルを考える事ができる[2]^．これはPLSA^などでしばしば導入されるモデルであり，例えば図2.3^{に示したグラフにおけ} る変数A，B間の同時確率を説明するために，潜在変数Lによって条件付けられた独立モデルを用いるというモデルとなる．なお，図2.3^{に示した潜在} クラスモデルは，第4章で紹介するように，混合要素を独立モデルとしたm- 混合と等価となる．

一般にモデルを構築してデータの確率的構造を把握する際には，変数間の些細な関係まで詳細に記述した複雑過ぎるモデルや，主要な関係の記述まで省略する単純過ぎるモデルよりも，本質的に重要な変数関係のみを表現する

(14)

図2.3:^{潜在クラスモデルの例}

ような適切なモデルが求められる．このようなモデルの複雑さを決定するのは主にモデルのパラメタの数となる．対象とするデータの経験分布が巨大な確率表で表現されるような場合も同様にパラメタ数の異なる複数のモデルを用意し，それらを比較することで適切なモデルを選択する必要がある．本節で述べたような独立性に着目した対数線形モデルは，変数の数が多い場合には様々なパラメタ数のモデルの候補を用意できるという点で非常に有効となる．一方で，変数の数が多くなくても各変数の状態数が多いために確率表が巨大になっているような場合には，パラメタ数が極端に多い飽和モデルと少ない独立モデルの他に，それらの中間的なパラメタ数を持ったモデルの候補の数が限られてしまう．このような場合に中間的なパラメタ数のモデルを実現するための工夫として第4章で紹介するようなモデルの混合という考え方を紹介する．またこのような考え方に基づいたモデルの選択としてはPearson のχ²検定や，尤度比検定などの検定による方法[18, 10]^や，AIC^{などの情報} 量基準に基づく方法[3]などが提案されている．第3^{章では情報量基準の考} え方を中心にモデル選択に用いられる代表的な手法について紹介をする．

(15)

15

第 3 章情報幾何的な解釈の準備

確率分布同士の関係を幾何的に解釈することで，統計的なモデル推定や評価の本質が直感的に理解し易くなる[6]．また幾何的な解釈によって，状況に適した推定や評価方法を導出することも可能になる．そのような幾何的な議論をしていくための準備として，基本となるいくつかの考え方が必要となる．

まず，変数の組み合わせで表現される状態Xを考えた時に，次のような性質を持つ関数空間Fを考える．

F= Ω

p(x) ØØ

Øp:X →R+,X

x∈X

p(x)<1 æ

(3.1)

ただし，ここでR+は0を含む正の実数値の集合とする．すると一般に統計学で解析の対象とされる離散確率分布としての性質を持つ分布関数の集合P は次のようにFの部分集合として表現されることになる．

P = Ω

p(x)ØØØp:X →R+,X

x∈X

p(x) = 1 æ

⊂ F (3.2)

これにより，ある離散確率分布pは空間P，あるいはF上の1^{点に対応する} ことになる．

本章では最初に空間P，もしくはFの中での分布同士の乖離の度合いを測る情報量（擬距離）を導入し，情報量を用いた分布間の位置関係を用いる事でモデルの推定や評価を解釈していく．

3.1 ^情報量

確率分布p1，p2の間の統計的な乖離の度合いを測るための道具として，情報量D(p1, p2)が定義される．一般に情報量はD(p1, p2)≥0であり，分布間の乖離が進むにつれて大きな値を示し，0^{になるのは}p1とp2が完全に同じ確率分布である時のみとなる．情報量にはいくつかの種類が存在しているが，

それぞれ異なる特徴を持つ．本節では代表的な情報量を紹介し，それぞれの特徴について解説をする．

(16)

3.1.1 Bregman ^情報量

2^つの関数p1, p2∈ F間の乖離の度合いを測る情報量の一種としてBregman 情報量があり，次のように定義される．

定義3.1 (Bregman^情報量) R上での任意の凸関数U(·)が与えられた時，その微分をu(·) =U⁰(·)，u(·)の逆関数をg(·) =u⁻¹(·)と表すと，2^つの関数 p1, p2∈ F間の乖離の度合いを測るBregman^情報量が

DU(p1, p2) =X

x∈X

n

U(g(p2(x)))−U(g(p1(x)))

−p1(x)(g(p2(x))−g(p1(x)))o と定義される．

Bregman情報量が測る量の意味合いは次のように解釈できる．2^つの関数

p1, p2∈ Fにおいて，変数状態xが与えられた時の値p1(x)，p2(x)に着目し，

dU(p1(x), p2(x)) =U(g(p2(x)))−U(g(p1(x)))

−p1(x)(g(p2(x))−g(p1(x))) (3.3) とおくと、Bregman^{情報量は全ての}x∈ X に関する和を計算した値となる．

DU(p1, p2) =X

x∈X

dU(p1(x), p2(x)) (3.4) 単純な例として図3.1^に示す2^つの関数p1，p2において，矢印の長さで表されるp1(x)，p2(x)に着目する．関数U(·)は凸関数であるため，u(·)，および g(·)は単調増加を示す．従ってp1(x)> p2(x)とするとg(p1(x))≥g(p2(x)) が言える．ここでdU(p1(x), p2(x))はg(·)とU(g(·))の関係を示したグラフ上で図3.2(a)に示す量を測っている事になる．このようなdU(p1(x), p2(x)) をx ∈ X に関して和を取ることによって式(3.4)^{で与えられる}Bregman^情報量が計算されることになる．なお，一般にdU(p1(x), p2(x))≥0であることから，Bregman^情報量DU(p1, p2) ≥ 0となる．特にp1(x) = p2(x)の時にdU(p1(x), p2(x)) = 0となることに着目すると，あらゆるx∈ X において p1(x) =p2(x)の時，つまりp1=p2の時のみDU(p1, p2) = 0となることが分かる．またp1(x)，p2(x)を入れ替えたdU(p2(x), p1(x))を考えると，図3.2(b)^に示すように乖離の測り方が変わることから，一般にはDU(p1, p2)6= DU(p2, p1) となり，DU(p1, p2)はp1，p2に関して非対称となる．

Bregman情報量を構成する具体的なU(·)（及びu(·)，g(·)）としては様々なものが考えられるが，代表的なものとして表3.1のようなものがある．これらの関数の具体的な形状を図3.3に示す．ここに示したような関数を用い

ることでBregman情報量のクラスに属する代表的な情報量が次のように具体

的に定義される．

(17)

3.1. ^情報量 17

(a)分布p1 (b)分布p2

図3.1: 1^変数Xの分布の例

(a)d_U(p1(x), p2(x)) (b)d_U(p2(x), p1(x))

図3.2: Bregman^{情報量における}p1(x)、p2(x)の間の乖離の測り方

表3.1:^{代表的な情報量の}U(·)，u(·)，g(·)．

U(z) u(z) g(z) =u⁻¹(z)

KL情報量 exp(z) exp(z) log(z)

β情報量 (βz+ 1)^β+1^β

β+ 1 (βz+ 1)¹^β z^β−1 β η情報量 exp(z) +ηz exp(z) +η log(z−η)

(18)

(a)U(·) (b)u(·)

(c)g(·)

図3.3: Bregman情報量を構成する関数の形状の例.

KL^情報量

DKL(p1, p2) = X

x∈X

p1(x) logp1(x)

p2(x) (3.5)

β情報量

Dβ(p1, p2) =X

x∈X

Ωp1(x)^β+1

β(β+ 1) −p1(x)p2(x)^β

β +p2(x)^β+1 β+ 1

æ

(3.6)

η情報量

Dη(p1, p2) =X

x∈X

(p1(x)−η) logp1(x)−η

p2(x)−η (3.7) このようにBregman^{情報量は関数}U(·)を変えることで種類の異なる情報量を表現できる広いクラスの情報量となる．

(19)

3.1. ^情報量 19 Bregman^{情報量を構成する}U(·)を定義することでu(·)，及びg(·)が決定し，以下のようなクロスエントロピーHU(p1, p2)が得られる．

HU(p1, p2) =X

x∈X

{U(g(p2(x)))−p1(x)g(p2(x))} (3.8) これを用いるとBregman^{情報量は次のような}2つのクロスエントロピーの差と考えることができる．

DU(p1, p2) = HU(p1, p2)−HU(p1, p1). (3.9) このことからp1を固定した時，

argmin

p2

DU(p1, p2) = argmin

p2

HU(p1, p2) (3.10) という関係が得られる．

Bregman^情報量は3^つの関数p1, p2, p3∈ Fを定めた時，

DU(p1, p3)−DU(p1, p2)−DU(p2, p3)

=X

x∈X

(p1(x)−p2(x)) (g(p3(x))−g(p2(x)))

を満たす．式の右辺はp1−p2とg(p3)−g(p2)の内積を表していることから，

次の定理が成り立つ．

定理3.1 (^{ピタゴラスの定理}) p1, p2, p3∈ Fが与えられた時，p1−p2とg(p3)− g(p2)が互いに直交する時，

DU(p1, p3) = DU(p1, p2) + DU(p2, p3) (3.11) が成り立つ．

このピタゴラスの定理は図3.4のように解釈ができる．

ピタゴラスの定理を満たす状況に着目することで空間F における平面を考えることができる．まず，空間上の関数pに対応する2^{種類の表現を導入} する．

p (m-^表現)

g(p) (u-^表現)

すると2種類の平坦性を次のように定義することができる．

定義3.2 (^平坦性) 2^点p1, p2∈ Fが与えられた時，2^点間のm-^{表現の意味で} の内分点の集合

r(x;π) = (1−π)·p1(x) +π·p2(x), 0≤π≤1, (3.12)

(20)

図3.4:^{ピタゴラスの定理}

(a)m-平坦な空間上の測地線 (b)u-平坦な空間上の測地線

図3.5:m-^測地線，u-^{測地線のイメージ}

をm-^{測地線と呼ぶ．同様に}2^点間のu-表現の意味での内分点の集合 r(x;π) =u((1−π)·g(p1(x)) +π·g(p2(x))), 0≤π≤1. (3.13) をu-測地線と呼ぶ．また，この測地線を含む部分空間のことをそれぞれm- 平坦，u-^{平坦な空間と呼ぶ．}

ここでu-^測地線は

g(r(x;π)) = (1−π)·g(p1(x)) +π·g(p2(x)), 0≤π≤1

を満たす内分点の集合と等価であり，Bregman情報量を具体的に構成する関数U(·)の形状が決まることで定義される．

関数Uの形状を変えることで一般にはp1，p2を結ぶm-^測地線とu-^測地線は一致しない．そのため，図3.5に示したイメージのようにm-^{表現，及び}u- 表現を考えた時にそれぞれの意味での直線が異なることになる．

(21)

3.1. ^情報量 21

図3.6:^{直交葉層化}

ここで関数空間F内のある点pを含むu-平坦な部分空間を考えてみる．p を含むu-^{平坦な部分空間は}_F内で無数に考えることができるが，ここではその中の適当な1^{つの部分空間}_Fuに着目する．F^u内でpを通る任意のu-^測地線を考えた時に，pにおいてそのu-^{測地線と直交する}m-^{測地線を含む}m- 平坦な部分空間F^m(p)を考えることができる．ここで着目しているF^u上の様々な点において同様にFuと直交するm-平坦な部分空間を考えていくと，

関数空間FはFuの周辺では図3.6に示すような層状の部分空間の集合として解釈することができる．

[

p∈Fu

Fm(p) =Fただしp∈ Fm(p).

このような構造のことをFの直交葉層化と呼ぶ．また，ここではu-^平坦な部分空間に対して直交するm-平坦な部分空間を考えたが，m-^{平坦な部分空間} 上の任意の点に対して直交するu-平坦な部分空間を層状に重ねることで，やはり直交葉層化を行うことができる．

互いに直交するm-^{平坦な部分空間，}u-平坦な部分空間を考えることで次のような2種類の射影を導くことができる．

定義3.3 (^射影) ^ある点p0において直交する，m-^{平坦な部分空間}_Fm上にある任意の点p1と，u-^{平坦な部分空間}_Fu上にある任意の点p2を考えた時，p0

はp1からF^uへのm-射影を行った点と呼ぶ．同様にp0はp2からF^mへの u-射影を行った点と呼ぶ．

(22)

図3.7: 2^{種類の射影}

2^{つの射影は図}3.7に示すことができる．ある点p0において直交する，m- 平坦な部分空間Fm上にある任意の点p1と，u-^{平坦な部分空間}_Fu上にある任意の点p2を考えた時，ピタゴラスの定理より次式が成り立つ．

DU(p1, p2) = DU(p1, p0) + DU(p0, p2)

この時DU(p0, p2)≥0より，DU(p1, p2)≥DU(p1, p0)が言える．このことからFm上の任意の点p1からFu上の1番近い点を探すと直交している点p0が得られることが分かる．Fmがm-^{平坦であることから，}p0はp1からFu上へ m-測地線の意味で射影された点と解釈することができる．またDU(p1, p0)≥0 より，DU(p1, p2)≥DU(p0, p2)も言えるため，p0はp2からFmへのu-^測地線の意味での最短点として射影された点と解釈できる．以上のことより，m- 射影，u-射影は次のように定式化できる．

p0= argmin

p1∈Fu

DU(p1, p2) (m-^射影) p0= argmin

p2∈Fm

DU(p1, p2) (u-^射影)

ここでパラメタθによって記述される第2.1節で紹介したパラメトリックモデルq(θ)の集合を表すモデル多様体Qを次のように定義する．

Q=©

q(x;θ);θ∈Θ⊂R^d™

(23)

3.1. ^情報量 23

図3.8:モデル推定の幾何的解釈

すると，データに基づくモデルの推定は，図3.8のように解釈することができる．推定時には真の分布pは未知であることが多いため，経験分布p˜と考えているモデル多様体Qの間の最短点を探すことになる．パラメトリックモデルq(θ)は，p˜に基づく推定パラメタθˆが与えられることで多様体Q上の 1点が一意に決定することから，特に明示の必要の無い限り，以下では推定されたモデルをqˆと表す．例えば統計モデルの推定で一般的な最尤推定では，

多様体Q上のu-^{平坦な微小部分への}m-射影を行っていることになる．そのため，Q全体がu-平坦であれば最尤推定を行うことによってqˆを一意に決定することができる．なお，推定時に用いる経験分布p˜はデータを沢山得ることによって真の分布pの近くに散らばることが期待されるが，一般にpとは完全には一致せず，データに依って違う経験分布に基づく推定を行うことになる．このような状況で推定結果がpに対してどの程度良いモデルかを評価する代表的な方法については第3.2^{節で論じる．}

3.1.2 KL ^情報量

統計モデルの推定や評価に広く用いられているものとしてKullback-Leibler

（KL）情報量が挙げられる．

定義3.4 (KL^情報量) ^確率分布p1, p2∈ Pを考えた時，2^{つの分布間の}KL^情報量DKL(p1, p2)は次のように定義される．

DKL(p1, p2) =X

x∈X

p1(x) logp1(x)

p2(x) (3.14)

先に挙げたBregman^{情報量において}U(z) = exp(z)，g(z) = log(z)を考える

と，式(3.14)^に示したKL情報量が導出される．このことからBregman^情報

(24)

図3.9:DKL(p1, p2)とDKL(p2, p1)の関係

量はKL^情報量の1つの一般化と考えることができる．Bregman^{情報量の性} 質を受け継ぎ，KL^{情報量は比較する}2^つの分布p1，p2に関して非対称であり，p1とp2を入れ替えると情報量の値も変化する．起点とする分布をどちらにするかによって値が違うことからKL^{擬距離とも呼ばれる．}

例3.1 (KL^{情報量の非対称性}) KL情報量の非対称性を確認するために状態

数|X | = 3であるような1変数の分布を例として考える．図3.1(a)^で与える分布p1に対して分布p2を2000個ランダムに用意し，全てのp2について DKL(p1, p2)とDKL(p2, p1)を計算し，これらの関係をプロットしたものを図 3.9^{に示す．図}3.9^{に示すように}DKL(p1, p2)とDKL(p2, p1)は一般には一致していないことが確認できる．

なお，KL情報量は様々な場面で広く応用されているが，実際の情報量の算出の際にはxにおいてp1(x)>0かつp2(x) = 0の場合には値が計算不能となり不都合が生じる点に注意が必要となる．

式(3.9)^{に挙げたように}Bregman情報量はクロスエントロピーの差で表現

できるが，KL情報量におけるクロスエントロピーは次のようになる．

HKL(p1, p2) =X

x∈X

{p2(x)−p1(x) log(p2(x))} (3.15)

特にp2∈ Pである場合は

HKL(p1, p2) = 1−X

x∈X

p1(x) log(p2(x))

(25)

3.1. ^情報量 25 となる．ここでp1をN個のデータx1:N ={x1, . . . , xN}の経験分布p˜，p2

をモデルqとした時には式(3.10)^は argmin

q

DKL(˜p, q) = argmin

q

HKL(˜p, q)

= argmax

q

X

x∈X

˜

p(x) log(q(x;θ))

= argmax

q

1 N

XN n=1

log(q(xn;θ)) (3.16) となり，KL情報量の最小化が対数尤度の最大化と同じであることを示している．

また，関数U(·)がexp(·)となっていることから，KL^{情報量における}u-^表現，u-^測地線，u-^{射影を特に}e-^表現，e-^測地線，e-^{射影と呼ぶ．}

ここで，あるモデルとそのパラメタが微小に変化したモデルとの間のKL 情報量がどのような量となるかを論じてみる．準備として次のようなFisher 情報量を用意する．

補題3.1 (Fisher^情報量) ^モデルq(θ)がθに関して微分可能である時，Fisher 情報量Iが

I=−X

x∈X

q(x;θ)@²

@θ²logq(x;θ)

=X

x∈X

q(x;θ) µ @

@θlogq(x;θ)

∂2

(3.17) のように与えられ，2つの定義は等価となる．

証明任意のパラメタθで表現されるq(θ)∈ Pについて次の恒等式 X

x∈X

q(x;θ) = 1

が成り立つ．この式のθに関する2^{階微分を考えると} 0 = @²

@θ² X

x∈X

q(x;θ)

= @

@θ

√X

x∈X

q(x;θ)

@

@θq(x;θ) q(x;θ)

!

= @

@θ

√X

x∈X

q(x;θ)@

@θlogq(x;θ)

!

=X

x∈X

q(x;θ)

@

@θq(x;θ) q(x;θ)

@

@θlogq(x;θ) +X

x∈X

q(x;θ)@²

@θ²logq(x;θ)

=X

x∈X

q(x;θ) µ @

@θlogq(x;θ)

∂2

+X

x∈X

q(x;θ)@²

@θ²logq(x;θ)

(26)

となる．これより，式(3.17)^{で与えられた}2種類の量は等価であることが示される．

このFisher^情報量Iは一般的な確率モデルにおける推定パラメタの理論上の

分散の下限を表現する際に重要な役目を果たす[37]^．KL^{情報量に基づく推} 定（最尤推定）パラメタの分散はこの下界を漸近的に実現できることからこの推定量は漸近有効性を持つ推定量と呼ばれる．

ここで，あるパラメタθ0によって表現される確率モデルq=q(θ0)においてθ0が微小に∆だけ動いた時のモデルq(θ0+ ∆)との間のKL^{情報量の値} DKL(q, q(θ0+ ∆))について考えてみる．θ0の周辺でTaylor^{展開し，高次項} を省略すると

DKL(q, q(θ0+ ∆)) = DKL(q, q(θ)) ØØ Øθ=θ0

+∆@

@θDKL(q, q(θ)) ØØ Øθ=θ0

+∆² 2

@²

@θ²DKL(q, q(θ))ØØØ

θ=θ0

(3.18) となる．以下では煩雑さを避けるため，次のような表現を用いる．

@

@θDKL(q, q(θ0)) = @

@θDKL(q, q(θ))ØØØ

θ=θ0

@²

@θ²DKL(q, q(θ0)) = @²

@θ²DKL(q, q(θ)) ØØ Øθ=θ0

ここで式(3.18)^の右辺第1^項はq=q(θ0)より0^{となり，第}2^{項に関しては}

@

@θDKL(q, q(θ0)) = @

@θ X

x∈X

{q(x) logq(x)−q(x) logq(x;θ0)}

=−X

x∈X

q(x) @

@θlogq(x;θ0)

=−X

x∈X

q(x)

@

@θq(x;θ0) q(x)

=− @

@θ X

x∈X

q(x;θ0)

| {z }

1

= 0 となる．また第3^項は

@²

@θ²DKL(q, q(θ0)) = @²

@θ² X

x∈X

{q(x) logq(x)−q(x) logq(x;θ0)}

=−X

x∈X

q(x) @²

@θ²logq(x;θ0)

=I

(27)

3.1. ^情報量 27 となる．結局式(3.18)^は

DKL(q, q(θ0+ ∆)) = ∆²

2 I (3.19)

となる．式(3.19)より，考えているモデルのパラメタが微小に動いた時のKL 情報量の変化の度合いを表す量がこのFisher^情報量Iであると解釈することができる．

3.1.3 Hellinger ^距離

Bregman情報量のクラスには属さないがしばしば用いられる情報量の一種

としてHellinger^{距離がある．}

定義3.5 (Hellinger^距離) ^確率分布p1, p2 ∈ Pを考えた時，2^{つの分布間の} Hellinger^距離DH(p1, p2)は次のように定義される．

DH(p1, p2) = 2X

x∈X

≥pp1(x)−p p2(x)¥2

(3.20)

KL^{情報量とは違い}p1，p2に関して対称であることからDH(p1, p2)は距離としての性質を持っている．また，任意のxにおいてp1(x) = 0もしくは p2(x) = 0であっても計算が行えることも特徴となる．また式(3.20)^から分かるようにKL^{情報量とは違い}0≤DH(p1, p2)≤4と有限の値になる．

ここでKL情報量の場合と同様に確率モデルq =q(θ0)とパラメタが微小に∆だけ変化したモデルq(θ0+ ∆)との間のHellinger^距離DH(q, q(θ0+ ∆)) について考えてみる．θ0の周辺でTaylor展開し，高次項を省略すると，

DH(q, q(θ0+ ∆)) = DH(q, q(θ0)) + ∆@

@θDH(q, q(θ0)) +∆²

2

@²

@θ²DH(q, q(θ0)) (3.21) となる．式(3.21)^の第1^項はq=q(θ0)より0^{になり，第}2^{項に関しても}

@

@θDH(q, q(θ0)) = @

@θ2X

x∈X

≥pq(x)−p

q(x;θ0)¥2

= @

@θ2≥X

x∈X

q(x)

| {z }

1

−2X

x∈X

q(x)¹²q(x;θ0)¹² +X

x∈X

q(x;θ0)

| {z }

1

¥

=−2X

x∈X

µ

q(x)¹²q(x;θ0)⁻¹² @

@θq(x;θ0)

∂

=−2 @

@θ X

x∈X

q(x;θ0)

| {z }

1

少数サンプルに基づく 確率表の混合モデルの推定