少数サンプルに基づく 確率表の混合モデルの推定
Estimation for Mixture of Probability Tables with Small Samples
2007 年 3 月
早稲田大学大学院理工学研究科
電気・情報生命専攻 情報学習システム研究
藤本 悠
3
目 次
第1章 導入 5
第2章 離散変数のモデリング 7
2.1 基本的なモデル . . . . 7
2.1.1 独立モデル . . . . 8
2.1.2 タイルモデル . . . . 9
2.2 対数線形モデル/グラフィカルモデル . . . . 11
第3章 情報幾何的な解釈の準備 15 3.1 情報量 . . . . 15
3.1.1 Bregman情報量 . . . . 16
3.1.2 KL情報量 . . . . 23
3.1.3 Hellinger距離 . . . . 27
3.2 推定のバラつきの評価 . . . . 29
3.2.1 クロスバリデーション . . . . 29
3.2.2 ブートストラップ. . . . 31
3.2.3 AIC / TIC . . . . 31
3.2.4 GIC . . . . 36
3.2.5 その他の情報量基準 . . . . 40
3.3 推定量の漸近正規性の導出 . . . . 40
第4章 混合モデルと推定アルゴリズム 43 4.1 2つの混合モデル . . . . 43
4.2 m-混合の推定 . . . . 48
4.2.1 mステップの簡略化 . . . . 54
4.2.2 m-混合の推定実験 . . . . 60
4.3 u-混合の推定 . . . . 63
4.3.1 u-混合の推定実験 . . . . 63
4.4 2つの混合モデルの比較 . . . . 64
第5章 少数サンプルの問題 69 5.1 オーバーフィットの問題 . . . . 69
5.1.1 オーバーフィットの回避手法 . . . . 70
5.2 ロバスト性について . . . . 76
5.3 β情報量に基づく推定 . . . . 79
5.3.1 β情報量の性質 . . . . 79
5.3.2 β-EM . . . . 82
5.4 推定方法の評価基準 . . . . 83
5.5 少数サンプルに基づく推定実験 . . . . 88
5.6 Bregman情報量に基づく推定量のIF. . . . 92
第6章 まとめ 95
5
第 1 章 導入
計算機能力の向上に伴い大規模なデータの確率的構造,因果関係の詳細な記 述が求められる機会が多くなって来た.そのような膨大なデータの確率構造 の解析,モデルの構築の際に問題になるのは扱うデータの数と考えたいモデ ルの大きさのバランスである.
例えば自然言語処理において文脈に応じた文書や単語の使われ方を確率的 に記述することを考える.文書や単語の種類が増える事によって変数の状態 数を詳細に記述する事が可能になり,それに伴ってパラメタ数の多いモデル と,少ないモデルのパラメタ数の差が極端に広がってしまう可能性がある.こ の問題を回避し,適度なパラメタ数のモデルを構築するために,文脈を表す 潜在変数をモデルに導入するPLSA(Probabilistic Latent Semantic Analysis) などといった解析がしばしば行われる[13, 14].PLSAではアスペクトモデ ルと呼ばれるモデルが考案され,このモデルは様々な状況で応用され始めて いる.このようなモデルを用いる事でパラメタ数に関する柔軟性は実現でき るが,推定に用いるサンプル数が少ない場合には推定結果の信頼性が問題と なる.
また例として、多様化する個人の細かい要求に合致した特徴を持つような 商品を推薦するためのモデルの構築を考える[25, 33].個人の要求や商品の 特徴を微細に渡って差別化することで,個人に対してきめ細かい対応ができ るモデルが可能になる.一方で,それを実現するためには膨大なデータが必 要となる.別な例として,奏者の演奏を模倣することで未知の楽曲に対する 即興演奏を確率的に自動生成するシステムを考える[8, 35].音楽的文脈とフ レーズの組み合わせの使われ方の傾向を詳細にわたって記述することで,奏 者の特徴を反映した幻の即興演奏が行えるようになる.一方で,それを実現 するためには同様に大量の演奏データが必要になる.
これらの例は沢山の状態数を持つような確率変数を対象として,その変数 間の依存関係を表す確率(同時確率や条件付き確率)表をモデル化する問題 と考えることができる.特に文章と単語,個人の要求と商品の特徴,及び音 楽的文脈とフレーズの種類などはデータが集まるにつれて差別化,細分化が 可能となることから,確率表の大きさに対してサンプル数が相対的に不足し やすくなる.このような問題を扱うためにはモデルのパラメタ数とサンプル 数の関係を考慮した上でモデルの推定,評価を行うことが必要となる.
例のように確率変数自体が多数の状態数を持っている巨大な確率表を表現
する際には,候補のモデル毎にパラメタ数の差があり過ぎるという問題があっ た.モデルのパラメタ数が多過ぎる時には,例えば独立性を仮定することで パラメタ数を大幅に削減した単純なモデルを考えることができる.しかしこ の単純なモデルでは逆にパラメタ数が少なすぎて確率表の再現の精度が低く なり過ぎてしまう.前述のアスペクトモデルはこの単純なモデルを複数混合 することで適切なパラメタ数のモデルを実現していると解釈することができ る.この混合モデルを用いても,確率表が巨大でサンプル数が少ない場合に はモデリング時のオーバーフィットが依然として問題となる.そこでサンプ ル数が少ない状況でも信頼できるモデルの推定を行うための指標として「推 定のロバスト性」という考え方を導入する.推定のロバスト性とは,パラメ タの推定を行う際にデータに含まれる外れ値から受ける推定への影響の少な さを一般に意味するが,サンプル数が少ないことが推定結果へどのように影 響するかを見ることで,同様の議論を行うことができる.
本論文では推定のロバスト性を実現するために,まず混合モデルのパラ メタ推定法として広く用いられているEMアルゴリズムで導入されている Kullback-Leibler (KL)情報量の代わりに,これを一般化したBregman情報量 のクラスで同様のアルゴリズムが構成できることを示す.そして,Bregman 情報量の一種で外れ値に対するロバスト性が報告されているβ情報量を用い て推定アルゴリズムを構成することで,少数サンプルを用いたロバストな推 定が実現できることを確認する.β情報量を用いる場合,情報量を算出する 際のパラメタを変えることで情報量が持つロバスト性も変化していくが,実 際には推定方法の候補の中から適切なものを選ぶ必要がある.しかし充分な サンプル数があることを仮定した漸近論で論じられている一般的な情報量基 準はこの場合の評価としては適していない.そこでHellinger距離に基づいて 分布の歪みに対する推定への影響の最悪評価を行うことで,サンプルが少数 の場合でも信頼性のある推定方法を評価できることを示す.
本論文の構成を以下に示す.第2章では具体的な離散データの同時確率表 のモデリングについて述べる.第3章で確率モデルの推定や評価を理解する ために確率分布の空間を幾何的に解釈する準備をする.第4章では第2章で 紹介した単純なモデルの拡張として情報量の定義から導き出されるm-混合,
u-混合についても触れる.第5章では少数サンプルに基づく推定の問題に焦 点を絞り,ロバスト推定の観点から対処策について論じる.第6章では内容 をまとめ,今後の展望について述べる.
7
第 2 章 離散変数のモデリング
本章では複数の離散変数の依存関係の解析を行う際に良く用いられるモデルの 解説を行う.通常離散データは,ある変数の状態が観測された頻度によって表現 される度数の表(分割表)として扱われる.N個のデータx1:N ={x1, . . . , xN} が複数の離散変数によって表現されている時,この分割表の解析を行うこと で,観測された離散データの背後にある確率構造を論じることができる.
単純な例としてそれぞれI,J 個の状態を持つ2変数A,Bの分割表を表 2.1に示す.N個のデータが観測された時,状態(ai, bj)に関する観測度数は 分割表におけるai行bj 列に表示され,そのセルの観測度数をnijと表して いる.また,i行目,j列目に関して和を取った結果をそれぞれni+,n+jと 表している.この分割表のデータの経験分布p˜は各セルの度数を総データ数 N で割ることで得ることが出来る.例えば経験分布において状態(ai, bj)が 観測される確率はp(a˜ i, bj) =nij/Nと表現される.変数の数が増えても,変 数の組み合わせで表される全状態X の中のあるセルx∈ X における経験分 布p(x)˜ は,分割表上の対応するセルの度数nxを用いてp˜=nx/Nと与える ことができる.
2.1 基本的なモデル
まず,変数間の同時確率を表した経験分布p˜を再現することを考える.考 えられる様々な経験分布を完全に再現するためには各セルx∈ X の確率値
表2.1: 2元分割表 変数B
変数A b1 · · · bj · · · bJ 計 a1 n11 · · · n1j · · · n1J n1+
... ... ... ... ...
ai ni1 · · · nij · · · niJ ni+
... ... ... ... ...
aI nI1 · · · nIj · · · nIJ nI+
計 n+1 · · · n+j · · · n+J N
˜
p(x)が全て記述できなくてはならない.M 個の変数V1, . . . , VM がそれぞれ I1, . . . , IM個の状態数を持っている時,同時確率表の全状態数|X |はQM
m=1Im
となる.同時確率表は
X
x∈X
˜ p(x) = 1
˜
p(x)≥0 for allx
を満たすことから,経験分布を完全に記述できるパラメトリックモデルq(φ) は|X | −1個のセルの同時確率値をパラメタφとして持つ必要がある.この ことから経験分布を完全に再現できるモデルが必要なパラメタの数dimφは 一般にはdimφ=QM
m=1Im−1個となる.しかし状態数|X |(確率表のセル 数)の経験分布をほぼ同じ数のパラメタで再現することになるため,真の分 布が持つ変数間の依存関係を捉えるには不適切な場合がある.そこで妥当な 制約を入れてパラメタ数を減らした単純なモデルを考える.以下ではそのよ うな単純なモデルとして,独立性を考慮したモデルと,変数の状態の近傍を 統合したモデルについて紹介をする.
2.1.1 独立モデル
変数同士が互いに独立である時,モデルqとして次のようなものを考える ことができる.
定義2.1 (独立モデル) 変数A,BがそれぞれI,J個の状態数を持っている 時,x= (ai, bj)の同時確率を
q(x;φ) =p(ai)p(bj) (2.1)
のように表現したモデルを独立モデルと呼ぶ.ただしここでpai,pbj はA, Bに関する周辺確率の値とし,φ={p(a1),· · ·, p(aI−1), p(b1),· · · , p(bJ−1)} である.
各変数の周辺確率は和が1となることから,この独立モデルの記述に必要 なパラメタ数はdimφ=I+J −2となる.また,変数が増えた場合も同様 に周辺確率の積を考える事で独立モデルを考える事ができる.それぞれ状態 数がI1,· · ·, IM であるようなM 個の変数V1,· · · , VM が全て独立である時,
x= (v1,· · · , vM)の同時確率を次のように表すことができる.
q(x;φ) = YM m=1
p(vm) (2.2)
なお,この時パラメタ数はdimφ = PM
m=1(Im−1)となり,全ての変数間 の独立性が仮定できる時には同時確率の簡潔な表現を実現することが可能に なる.
2.1. 基本的なモデル 9
例2.1 (独立モデル) それぞれ状態数が3であるような2変数A,B の同時
確率を考える.状態(ai, bj)を表す同時確率値をpij と表すと,各状態の同 時確率値は表2.2のように表せる.例えば確率表2.2においてp33以外の8
表2.2:元の確率表 変数B 変数A b1 b2 b3
a1 p11 p12 p13
a2 p21 p22 p23
a3 p31 p32 p33
個のセルの確率値が決定した時,同時確率値の和が1となることからp33も 決定される.このように同時確率表を完全に再現するにはパラメタ数として dimφ=|X | −1だけ必要となる.
一方で変数間の独立性を仮定できる場合,周辺確率p(A),p(B)の積によっ て同時確率を表現することができる.各変数状態の周辺確率p(ai),p(bj)を それぞれpi+,p+jと表現すると,独立モデルによる表現は表2.3のようにな る.確率表2.3では例えば周辺確率p1+,p2+,及びp+1,p+2と4つの値さ
表2.3:独立モデル 変数B
変数A b1 b2 b3 p(A) a1 p1+·p+1 p1+·p+2 p1+·p+3 p1+
a2 p2+·p+1 p2+·p+2 p2+·p+3 p2+
a3 p3+·p+1 p3+·p+2 p3+·p+3 p3+
p(B) p+1 p+2 p+3
え決定すれば同時確率表が決定する.このように独立性が仮定できる場合に は同時確率表はdimφ=PM
m=1(Im−1)個のパラメタで再現できる.
2.1.2 タイルモデル
先に述べた独立性以外の観点からも確率表を単純化することは可能である.
例えば変数の状態をいくつか統合し,状態数を縮約することで解析対象とな る確率表を小さくすることも,このような単純化の1種だと考えられる.本 稿ではこのような考え方から定義される確率表をモデルと考え,次のように 定義する.
定義2.2 (タイルモデル) 状態数がそれぞれI1, . . . , IM個のM個の変数V1, . . . , VM
を考えた時,表内のセルを結合することで|X |=QM
m=1Imよりもセル数の 少ない粗い表を考えることができる.この結合したセルの単位をタイル,タ イルの集合から成る粗い確率表のことをタイルモデルと呼ぶ.モデルがT個 のタイルから構成される時,確率表におけるタイルのラベルをt,タイルtの 確率値をpt,タイルtを構成するセルの数をctと表すことにする.するとタ イルモデルqにおけるタイルtに属する状態xの確率は
q(x;φ) = pt
ct
(2.3) となる.ただしここでφ={p1, . . . , pT−1}である.
このモデルはどのセルがどのタイルに属しているかというセルの位相構造が 分かっていれば,ptのみで確率表が構成できる.PT
t=1pt= 1という制約よ り,タイルモデルの記述に必要なパラメタ数はdimφ=T −1となる.セル を統合することによってT <QM
m=1Imとなるため,一般にタイルモデルの パラメタ数は飽和モデルよりも少なくなる.
例2.2 (タイルモデル) 2変数A,Bの同時確率表2.2を表2.4のようなタイル を持ったタイルモデルによって記述することを考える. 表2.5はセル数9の
表2.4:タイルの例 変数B 変数A b1 b2 b3
a1 タイル1 タイル2
a2
a3 タイル3 タイル4
表2.5:タイルモデル 変数B 変数A b1 b2 b3
a1 p1/4 p1/4 p2/2 a2 p1/4 p1/4 p2/2 a3 p3/2 p3/2 p4
確率表をT = 4個のタイルで表現するタイルモデルの例である.例えばタイ ル3に属する(a3, b2)に着目した時,c3= 2より同時確率はp(a3, a2) =p3/2 と表されることになる.表2.5は巨大な確率表を小さくする目的で用いられ る状態の縮約と同等となり,状態数を{a1, a2},{b1, b2}のように統合した表 2.6の各セルの確率値が決定すれば元の3×3の確率表が表現できる.ここで
2.2. 対数線形モデル/グラフィカルモデル 11
表2.6:各変数の状態縮約 変数B 変数A {b1, b2} b3
{a1, a2} p1 p2
a3 p3 p4
例えばp4以外のセルの確率値が決定すれば表2.5が構築できることから,タ イルモデルで必要なパラメタ数はdimφ=T−1で済むことが分かる.
なお,実際にはタイルの位相がp確率表の上でのセルの近傍関係を表現し ている必要は無いため,解析者の発見的な知見を反映させやすいモデルとなっ ている.
2.2 対数線形モデル / グラフィカルモデル
独立モデルやタイルモデルは非常に単純なモデルであるが,巨大な確率表 からデータの傾向を把握したい場合などに効果を発揮する.ここでは特に独立 性に着目することでさらに様々なモデルが表現できる,対数線形モデル[32, 1]
とそれに対応するグラフィカルモデル[36, 34]の概要を紹介する.
3個以上の変数を扱う場合,各変数群間で独立性を論じることができるた め,様々な独立関係が存在することになる.以下ではその例として,それぞれ I,J,K個の状態を持つ3変数A,B,Cを考える.ある状態x= (ai, bj, ck) を表すことを考えた時,式(2.1)に対応する独立モデルは次のようになる.
q(x;φ) =p(ai)p(bj)p(ck) ここで両辺の対数をとると次の式が得られる.
logq(x;φ) = logp(ai) + logp(bj) + logp(ck)
=αAi +αBj +αCk (2.4)
と表すことができる.ただしここでαAi = logp(ai),αBj = logp(bj),αCk = logp(ck)である.これが対数線形モデルにおける独立モデルとなり,各変数が全 て互いに独立であることを表している.φ={αAi , αBj, αCk;i= 1, . . . , I−1, j= 1, . . . , J−1, k= 1, . . . , K−1}がこの場合のパラメタとなる.
また独立であるかどうかは各変数間で個々に議論することができる.例え ばAとBは独立でないが,ABの組を新たな変数として考えた場合,ABと Cは独立であるような関係を次のように考えることができる.
q(x;φ) =p(ai, bj)p(ck)
この時Cは{A, B}と同時独立であることを意味し,対応する対数線形モデ ルは次のようになる.
logq(x;φ) =αAi +αBj +αCk +αABij (2.5) ここでαABij はAとBの間の交互作用を表すパラメタで,完全な独立モデル では表現できない部分を補正する項となる.
またCが与えられたときにAとBが独立になるという関係も表現するこ とが出来る.これは
p(ai, bj|ck) =p(ai|ck)p(bj|ck) (2.6) という関係を表現することになり,Bayesの式変形より
q(x;φ) = p(ai, ck)p(bj, ck) p(ck)
という関係のモデリングをすることになる.この場合の対数線形モデルは logq(x;φ) =αAi +αBj +αCk +αACik +αBCjk (2.7) と表現される.
条件付き独立の考え方を進めていき,他の変数が与えられた上で全ての変 数間で条件付き独立が成り立つような場合,対応する対数線形モデルは
logq(x;φ) =αAi +αBj +αCk +αABij +αACik +αBCjk (2.8) となる.しかし,変数間にどのような形の独立性も存在しない場合にはこれ らの式による同時確率の完全な記述はできない.独立関係が全く無い場合の 変数関係の記述には,対数線形モデルにおける飽和モデルを考える必要があ り,これは次のように表せる.
logq(x;φ) =αAi +αBj +αkC+αABij +αACik +αjkBC+αABCijk (2.9) ここでαABCijk は全ての変数間の交互作用を表すパラメタであり,独立を仮定 した場合には説明しきれない(ai, bj, ck)に特有の効果を表現していることに なる.対数線形モデルではこのように変数間の独立性に着目することで様々 なモデルを論じることができる.なお,独立性とは異なる観点からモデルに パラメタを導入する例は[2]で紹介されている.
これらの対数線形モデルは変数をノード,その依存関係を線で結ぶことで 表現したグラフ構造で表されることがあり,このような表現をグラフィカル モデルと呼ぶ[36].変数間の交互作用項がある場合にそのノード間を線で結 んだものはグラフィカルモデルの1つの表現で,無向グラフと呼ばれる.各 対数線形モデルに対応した無向グラフを図2.1に示す.なお,変数間の交互 作用がある部分に線を引くという考え方をすると,式(2.8)と式(2.9)のグラ
2.2. 対数線形モデル/グラフィカルモデル 13
(a)式(2.4) (b)式(2.5) (c)式(2.7) (d)式(2.9)
図2.1:対数線形モデルに対応する無向グラフの例
図2.2:ベイジアンネットワークの例
フ構造が一致してしまうが,式(2.8)のような高次の交互作用が欠けたモデル は,グラフィカルモデルの範疇でのモデルの候補からは除いて議論すること が多い.また,グラフィカルモデルの中で特に線が向きを持っている構造を 有効グラフと呼び,有向線の意味合いとして尾端のノードで条件付けた先端 のノードの確率を表すものを特にベイジアンネットワークと呼ぶ[24, 16, 23]
.例えば式(2.6)に示したような関係を用いて,3変数A,B,Cの同時確率 を次のように分解することを考える.
q(A, B, C) =q(C)q(A|C)q(B|C) (2.10) この関係はベイジアンネットワークでは図2.2のように示され,図2.1(c)の ような関係に条件付き確率としての意味合いを明示したグラフとなっている.
多数の変数間の依存関係を視覚的に確認する場合には,このようなグラフィ カルモデル,ベイジアンネットワークが非常に有用となる.
なお,ベイジアンネットワークで扱う変数として潜在変数を導入する事で,
潜在クラスモデルと呼ばれるモデルを考える事ができる[2].これはPLSAな どでしばしば導入されるモデルであり,例えば図2.3に示したグラフにおけ る変数A,B間の同時確率を説明するために,潜在変数Lによって条件付け られた独立モデルを用いるというモデルとなる.なお,図2.3に示した潜在 クラスモデルは,第4章で紹介するように,混合要素を独立モデルとしたm- 混合と等価となる.
一般にモデルを構築してデータの確率的構造を把握する際には,変数間の 些細な関係まで詳細に記述した複雑過ぎるモデルや,主要な関係の記述まで 省略する単純過ぎるモデルよりも,本質的に重要な変数関係のみを表現する
図2.3:潜在クラスモデルの例
ような適切なモデルが求められる.このようなモデルの複雑さを決定するの は主にモデルのパラメタの数となる.対象とするデータの経験分布が巨大な 確率表で表現されるような場合も同様にパラメタ数の異なる複数のモデルを 用意し,それらを比較することで適切なモデルを選択する必要がある.本節 で述べたような独立性に着目した対数線形モデルは,変数の数が多い場合に は様々なパラメタ数のモデルの候補を用意できるという点で非常に有効とな る.一方で,変数の数が多くなくても各変数の状態数が多いために確率表が 巨大になっているような場合には,パラメタ数が極端に多い飽和モデルと少 ない独立モデルの他に,それらの中間的なパラメタ数を持ったモデルの候補 の数が限られてしまう.このような場合に中間的なパラメタ数のモデルを実 現するための工夫として第4章で紹介するようなモデルの混合という考え方 を紹介する.またこのような考え方に基づいたモデルの選択としてはPearson のχ2検定や,尤度比検定などの検定による方法[18, 10]や,AICなどの情報 量基準に基づく方法[3]などが提案されている.第3章では情報量基準の考 え方を中心にモデル選択に用いられる代表的な手法について紹介をする.
15
第 3 章 情報幾何的な解釈の準備
確率分布同士の関係を幾何的に解釈することで,統計的なモデル推定や評価 の本質が直感的に理解し易くなる[6].また幾何的な解釈によって,状況に適 した推定や評価方法を導出することも可能になる.そのような幾何的な議論 をしていくための準備として,基本となるいくつかの考え方が必要となる.
まず,変数の組み合わせで表現される状態Xを考えた時に,次のような性 質を持つ関数空間Fを考える.
F= Ω
p(x) ØØ
Øp:X →R+,X
x∈X
p(x)<1 æ
(3.1)
ただし,ここでR+は0を含む正の実数値の集合とする.すると一般に統計 学で解析の対象とされる離散確率分布としての性質を持つ分布関数の集合P は次のようにFの部分集合として表現されることになる.
P = Ω
p(x)ØØØp:X →R+,X
x∈X
p(x) = 1 æ
⊂ F (3.2)
これにより,ある離散確率分布pは空間P,あるいはF上の1点に対応する ことになる.
本章では最初に空間P,もしくはFの中での分布同士の乖離の度合いを測 る情報量(擬距離)を導入し,情報量を用いた分布間の位置関係を用いる事 でモデルの推定や評価を解釈していく.
3.1 情報量
確率分布p1,p2の間の統計的な乖離の度合いを測るための道具として,情 報量D(p1, p2)が定義される.一般に情報量はD(p1, p2)≥0であり,分布間 の乖離が進むにつれて大きな値を示し,0になるのはp1とp2が完全に同じ 確率分布である時のみとなる.情報量にはいくつかの種類が存在しているが,
それぞれ異なる特徴を持つ.本節では代表的な情報量を紹介し,それぞれの 特徴について解説をする.
3.1.1 Bregman 情報量
2つの関数p1, p2∈ F間の乖離の度合いを測る情報量の一種としてBregman 情報量があり,次のように定義される.
定義3.1 (Bregman情報量) R上での任意の凸関数U(·)が与えられた時,そ の微分をu(·) =U0(·),u(·)の逆関数をg(·) =u−1(·)と表すと,2つの関数 p1, p2∈ F間の乖離の度合いを測るBregman情報量が
DU(p1, p2) =X
x∈X
n
U(g(p2(x)))−U(g(p1(x)))
−p1(x)(g(p2(x))−g(p1(x)))o と定義される.
Bregman情報量が測る量の意味合いは次のように解釈できる.2つの関数
p1, p2∈ Fにおいて,変数状態xが与えられた時の値p1(x),p2(x)に着目し,
dU(p1(x), p2(x)) =U(g(p2(x)))−U(g(p1(x)))
−p1(x)(g(p2(x))−g(p1(x))) (3.3) とおくと、Bregman情報量は全てのx∈ X に関する和を計算した値となる.
DU(p1, p2) =X
x∈X
dU(p1(x), p2(x)) (3.4) 単純な例として図3.1に示す2つの関数p1,p2において,矢印の長さで表さ れるp1(x),p2(x)に着目する.関数U(·)は凸関数であるため,u(·),および g(·)は単調増加を示す.従ってp1(x)> p2(x)とするとg(p1(x))≥g(p2(x)) が言える.ここでdU(p1(x), p2(x))はg(·)とU(g(·))の関係を示したグラフ 上で図3.2(a)に示す量を測っている事になる.このようなdU(p1(x), p2(x)) をx ∈ X に関して和を取ることによって式(3.4)で与えられるBregman情 報量が計算されることになる.なお,一般にdU(p1(x), p2(x))≥0であるこ とから,Bregman情報量DU(p1, p2) ≥ 0となる.特にp1(x) = p2(x)の時 にdU(p1(x), p2(x)) = 0となることに着目すると,あらゆるx∈ X において p1(x) =p2(x)の時,つまりp1=p2の時のみDU(p1, p2) = 0となることが分か る.またp1(x),p2(x)を入れ替えたdU(p2(x), p1(x))を考えると,図3.2(b)に 示すように乖離の測り方が変わることから,一般にはDU(p1, p2)6= DU(p2, p1) となり,DU(p1, p2)はp1,p2に関して非対称となる.
Bregman情報量を構成する具体的なU(·)(及びu(·),g(·))としては様々 なものが考えられるが,代表的なものとして表3.1のようなものがある.こ れらの関数の具体的な形状を図3.3に示す. ここに示したような関数を用い
ることでBregman情報量のクラスに属する代表的な情報量が次のように具体
的に定義される.
3.1. 情報量 17
(a)分布p1 (b)分布p2
図3.1: 1変数Xの分布の例
(a)dU(p1(x), p2(x)) (b)dU(p2(x), p1(x))
図3.2: Bregman情報量におけるp1(x)、p2(x)の間の乖離の測り方
表3.1:代表的な情報量のU(·),u(·),g(·).
U(z) u(z) g(z) =u−1(z)
KL情報量 exp(z) exp(z) log(z)
β情報量 (βz+ 1)β+1β
β+ 1 (βz+ 1)1β zβ−1 β η情報量 exp(z) +ηz exp(z) +η log(z−η)
(a)U(·) (b)u(·)
(c)g(·)
図3.3: Bregman情報量を構成する関数の形状の例.
KL情報量
DKL(p1, p2) = X
x∈X
p1(x) logp1(x)
p2(x) (3.5)
β情報量
Dβ(p1, p2) =X
x∈X
Ωp1(x)β+1
β(β+ 1) −p1(x)p2(x)β
β +p2(x)β+1 β+ 1
æ
(3.6)
η情報量
Dη(p1, p2) =X
x∈X
(p1(x)−η) logp1(x)−η
p2(x)−η (3.7) このようにBregman情報量は関数U(·)を変えることで種類の異なる情報量 を表現できる広いクラスの情報量となる.
3.1. 情報量 19 Bregman情報量を構成するU(·)を定義することでu(·),及びg(·)が決定 し,以下のようなクロスエントロピーHU(p1, p2)が得られる.
HU(p1, p2) =X
x∈X
{U(g(p2(x)))−p1(x)g(p2(x))} (3.8) これを用いるとBregman情報量は次のような2つのクロスエントロピーの差 と考えることができる.
DU(p1, p2) = HU(p1, p2)−HU(p1, p1). (3.9) このことからp1を固定した時,
argmin
p2
DU(p1, p2) = argmin
p2
HU(p1, p2) (3.10) という関係が得られる.
Bregman情報量は3つの関数p1, p2, p3∈ Fを定めた時,
DU(p1, p3)−DU(p1, p2)−DU(p2, p3)
=X
x∈X
(p1(x)−p2(x)) (g(p3(x))−g(p2(x)))
を満たす.式の右辺はp1−p2とg(p3)−g(p2)の内積を表していることから,
次の定理が成り立つ.
定理3.1 (ピタゴラスの定理) p1, p2, p3∈ Fが与えられた時,p1−p2とg(p3)− g(p2)が互いに直交する時,
DU(p1, p3) = DU(p1, p2) + DU(p2, p3) (3.11) が成り立つ.
このピタゴラスの定理は図3.4のように解釈ができる.
ピタゴラスの定理を満たす状況に着目することで空間F における平面を 考えることができる.まず,空間上の関数pに対応する2種類の表現を導入 する.
p (m-表現)
g(p) (u-表現)
すると2種類の平坦性を次のように定義することができる.
定義3.2 (平坦性) 2点p1, p2∈ Fが与えられた時,2点間のm-表現の意味で の内分点の集合
r(x;π) = (1−π)·p1(x) +π·p2(x), 0≤π≤1, (3.12)
図3.4:ピタゴラスの定理
(a)m-平坦な空間上の測地線 (b)u-平坦な空間上の測地線
図3.5:m-測地線,u-測地線のイメージ
をm-測地線と呼ぶ.同様に2点間のu-表現の意味での内分点の集合 r(x;π) =u((1−π)·g(p1(x)) +π·g(p2(x))), 0≤π≤1. (3.13) をu-測地線と呼ぶ.また,この測地線を含む部分空間のことをそれぞれm- 平坦,u-平坦な空間と呼ぶ.
ここでu-測地線は
g(r(x;π)) = (1−π)·g(p1(x)) +π·g(p2(x)), 0≤π≤1
を満たす内分点の集合と等価であり,Bregman情報量を具体的に構成する関 数U(·)の形状が決まることで定義される.
関数Uの形状を変えることで一般にはp1,p2を結ぶm-測地線とu-測地線 は一致しない.そのため,図3.5に示したイメージのようにm-表現,及びu- 表現を考えた時にそれぞれの意味での直線が異なることになる.
3.1. 情報量 21
図3.6:直交葉層化
ここで関数空間F内のある点pを含むu-平坦な部分空間を考えてみる.p を含むu-平坦な部分空間はF内で無数に考えることができるが,ここではそ の中の適当な1つの部分空間Fuに着目する.Fu内でpを通る任意のu-測 地線を考えた時に,pにおいてそのu-測地線と直交するm-測地線を含むm- 平坦な部分空間Fm(p)を考えることができる.ここで着目しているFu上の 様々な点において同様にFuと直交するm-平坦な部分空間を考えていくと,
関数空間FはFuの周辺では図3.6に示すような層状の部分空間の集合とし て解釈することができる.
[
p∈Fu
Fm(p) =Fただしp∈ Fm(p).
このような構造のことをFの直交葉層化と呼ぶ.また,ここではu-平坦な部 分空間に対して直交するm-平坦な部分空間を考えたが,m-平坦な部分空間 上の任意の点に対して直交するu-平坦な部分空間を層状に重ねることで,や はり直交葉層化を行うことができる.
互いに直交するm-平坦な部分空間,u-平坦な部分空間を考えることで次の ような2種類の射影を導くことができる.
定義3.3 (射影) ある点p0において直交する,m-平坦な部分空間Fm上にあ る任意の点p1と,u-平坦な部分空間Fu上にある任意の点p2を考えた時,p0
はp1からFuへのm-射影を行った点と呼ぶ.同様にp0はp2からFmへの u-射影を行った点と呼ぶ.
図3.7: 2種類の射影
2つの射影は図3.7に示すことができる.ある点p0において直交する,m- 平坦な部分空間Fm上にある任意の点p1と,u-平坦な部分空間Fu上にある 任意の点p2を考えた時,ピタゴラスの定理より次式が成り立つ.
DU(p1, p2) = DU(p1, p0) + DU(p0, p2)
この時DU(p0, p2)≥0より,DU(p1, p2)≥DU(p1, p0)が言える.このことか らFm上の任意の点p1からFu上の1番近い点を探すと直交している点p0が 得られることが分かる.Fmがm-平坦であることから,p0はp1からFu上へ m-測地線の意味で射影された点と解釈することができる.またDU(p1, p0)≥0 より,DU(p1, p2)≥DU(p0, p2)も言えるため,p0はp2からFmへのu-測地 線の意味での最短点として射影された点と解釈できる.以上のことより,m- 射影,u-射影は次のように定式化できる.
p0= argmin
p1∈Fu
DU(p1, p2) (m-射影) p0= argmin
p2∈Fm
DU(p1, p2) (u-射影)
ここでパラメタθによって記述される第2.1節で紹介したパラメトリック モデルq(θ)の集合を表すモデル多様体Qを次のように定義する.
Q=©
q(x;θ);θ∈Θ⊂Rd™
3.1. 情報量 23
図3.8:モデル推定の幾何的解釈
すると,データに基づくモデルの推定は,図3.8のように解釈することがで きる.推定時には真の分布pは未知であることが多いため,経験分布p˜と考 えているモデル多様体Qの間の最短点を探すことになる.パラメトリックモ デルq(θ)は,p˜に基づく推定パラメタθˆが与えられることで多様体Q上の 1点が一意に決定することから,特に明示の必要の無い限り,以下では推定 されたモデルをqˆと表す.例えば統計モデルの推定で一般的な最尤推定では,
多様体Q上のu-平坦な微小部分へのm-射影を行っていることになる.その ため,Q全体がu-平坦であれば最尤推定を行うことによってqˆを一意に決定 することができる.なお,推定時に用いる経験分布p˜はデータを沢山得るこ とによって真の分布pの近くに散らばることが期待されるが,一般にpとは 完全には一致せず,データに依って違う経験分布に基づく推定を行うことに なる.このような状況で推定結果がpに対してどの程度良いモデルかを評価 する代表的な方法については第3.2節で論じる.
3.1.2 KL 情報量
統計モデルの推定や評価に広く用いられているものとしてKullback-Leibler
(KL)情報量が挙げられる.
定義3.4 (KL情報量) 確率分布p1, p2∈ Pを考えた時,2つの分布間のKL情 報量DKL(p1, p2)は次のように定義される.
DKL(p1, p2) =X
x∈X
p1(x) logp1(x)
p2(x) (3.14)
先に挙げたBregman情報量においてU(z) = exp(z),g(z) = log(z)を考える
と,式(3.14)に示したKL情報量が導出される.このことからBregman情報
図3.9:DKL(p1, p2)とDKL(p2, p1)の関係
量はKL情報量の1つの一般化と考えることができる.Bregman情報量の性 質を受け継ぎ,KL情報量は比較する2つの分布p1,p2に関して非対称であ り,p1とp2を入れ替えると情報量の値も変化する.起点とする分布をどち らにするかによって値が違うことからKL擬距離とも呼ばれる.
例3.1 (KL情報量の非対称性) KL情報量の非対称性を確認するために状態
数|X | = 3であるような1変数の分布を例として考える.図3.1(a)で与え る分布p1に対して分布p2を2000個ランダムに用意し,全てのp2について DKL(p1, p2)とDKL(p2, p1)を計算し,これらの関係をプロットしたものを図 3.9に示す.図3.9に示すようにDKL(p1, p2)とDKL(p2, p1)は一般には一致 していないことが確認できる.
なお,KL情報量は様々な場面で広く応用されているが,実際の情報量の算 出の際にはxにおいてp1(x)>0かつp2(x) = 0の場合には値が計算不能と なり不都合が生じる点に注意が必要となる.
式(3.9)に挙げたようにBregman情報量はクロスエントロピーの差で表現
できるが,KL情報量におけるクロスエントロピーは次のようになる.
HKL(p1, p2) =X
x∈X
{p2(x)−p1(x) log(p2(x))} (3.15)
特にp2∈ Pである場合は
HKL(p1, p2) = 1−X
x∈X
p1(x) log(p2(x))
3.1. 情報量 25 となる.ここでp1をN個のデータx1:N ={x1, . . . , xN}の経験分布p˜,p2
をモデルqとした時には式(3.10)は argmin
q
DKL(˜p, q) = argmin
q
HKL(˜p, q)
= argmax
q
X
x∈X
˜
p(x) log(q(x;θ))
= argmax
q
1 N
XN n=1
log(q(xn;θ)) (3.16) となり,KL情報量の最小化が対数尤度の最大化と同じであることを示して いる.
また,関数U(·)がexp(·)となっていることから,KL情報量におけるu-表 現,u-測地線,u-射影を特にe-表現,e-測地線,e-射影と呼ぶ.
ここで,あるモデルとそのパラメタが微小に変化したモデルとの間のKL 情報量がどのような量となるかを論じてみる.準備として次のようなFisher 情報量を用意する.
補題3.1 (Fisher情報量) モデルq(θ)がθに関して微分可能である時,Fisher 情報量Iが
I=−X
x∈X
q(x;θ)@2
@θ2logq(x;θ)
=X
x∈X
q(x;θ) µ @
@θlogq(x;θ)
∂2
(3.17) のように与えられ,2つの定義は等価となる.
証明 任意のパラメタθで表現されるq(θ)∈ Pについて次の恒等式 X
x∈X
q(x;θ) = 1
が成り立つ.この式のθに関する2階微分を考えると 0 = @2
@θ2 X
x∈X
q(x;θ)
= @
@θ
√X
x∈X
q(x;θ)
@
@θq(x;θ) q(x;θ)
!
= @
@θ
√X
x∈X
q(x;θ)@
@θlogq(x;θ)
!
=X
x∈X
q(x;θ)
@
@θq(x;θ) q(x;θ)
@
@θlogq(x;θ) +X
x∈X
q(x;θ)@2
@θ2logq(x;θ)
=X
x∈X
q(x;θ) µ @
@θlogq(x;θ)
∂2
+X
x∈X
q(x;θ)@2
@θ2logq(x;θ)
となる.これより,式(3.17)で与えられた2種類の量は等価であることが示 される.
このFisher情報量Iは一般的な確率モデルにおける推定パラメタの理論上の
分散の下限を表現する際に重要な役目を果たす[37].KL情報量に基づく推 定(最尤推定)パラメタの分散はこの下界を漸近的に実現できることからこ の推定量は漸近有効性を持つ推定量と呼ばれる.
ここで,あるパラメタθ0によって表現される確率モデルq=q(θ0)におい てθ0が微小に∆だけ動いた時のモデルq(θ0+ ∆)との間のKL情報量の値 DKL(q, q(θ0+ ∆))について考えてみる.θ0の周辺でTaylor展開し,高次項 を省略すると
DKL(q, q(θ0+ ∆)) = DKL(q, q(θ)) ØØ Øθ=θ0
+∆@
@θDKL(q, q(θ)) ØØ Øθ=θ0
+∆2 2
@2
@θ2DKL(q, q(θ))ØØØ
θ=θ0
(3.18) となる.以下では煩雑さを避けるため,次のような表現を用いる.
@
@θDKL(q, q(θ0)) = @
@θDKL(q, q(θ))ØØØ
θ=θ0
@2
@θ2DKL(q, q(θ0)) = @2
@θ2DKL(q, q(θ)) ØØ Øθ=θ0
ここで式(3.18)の右辺第1項はq=q(θ0)より0となり,第2項に関しては
@
@θDKL(q, q(θ0)) = @
@θ X
x∈X
{q(x) logq(x)−q(x) logq(x;θ0)}
=−X
x∈X
q(x) @
@θlogq(x;θ0)
=−X
x∈X
q(x)
@
@θq(x;θ0) q(x)
=− @
@θ X
x∈X
q(x;θ0)
| {z }
1
= 0 となる.また第3項は
@2
@θ2DKL(q, q(θ0)) = @2
@θ2 X
x∈X
{q(x) logq(x)−q(x) logq(x;θ0)}
=−X
x∈X
q(x) @2
@θ2logq(x;θ0)
=I
3.1. 情報量 27 となる.結局式(3.18)は
DKL(q, q(θ0+ ∆)) = ∆2
2 I (3.19)
となる.式(3.19)より,考えているモデルのパラメタが微小に動いた時のKL 情報量の変化の度合いを表す量がこのFisher情報量Iであると解釈すること ができる.
3.1.3 Hellinger 距離
Bregman情報量のクラスには属さないがしばしば用いられる情報量の一種
としてHellinger距離がある.
定義3.5 (Hellinger距離) 確率分布p1, p2 ∈ Pを考えた時,2つの分布間の Hellinger距離DH(p1, p2)は次のように定義される.
DH(p1, p2) = 2X
x∈X
≥pp1(x)−p p2(x)¥2
(3.20)
KL情報量とは違いp1,p2に関して対称であることからDH(p1, p2)は距離 としての性質を持っている.また,任意のxにおいてp1(x) = 0もしくは p2(x) = 0であっても計算が行えることも特徴となる.また式(3.20)から分 かるようにKL情報量とは違い0≤DH(p1, p2)≤4と有限の値になる.
ここでKL情報量の場合と同様に確率モデルq =q(θ0)とパラメタが微小 に∆だけ変化したモデルq(θ0+ ∆)との間のHellinger距離DH(q, q(θ0+ ∆)) について考えてみる.θ0の周辺でTaylor展開し,高次項を省略すると,
DH(q, q(θ0+ ∆)) = DH(q, q(θ0)) + ∆@
@θDH(q, q(θ0)) +∆2
2
@2
@θ2DH(q, q(θ0)) (3.21) となる.式(3.21)の第1項はq=q(θ0)より0になり,第2項に関しても
@
@θDH(q, q(θ0)) = @
@θ2X
x∈X
≥pq(x)−p
q(x;θ0)¥2
= @
@θ2≥X
x∈X
q(x)
| {z }
1
−2X
x∈X
q(x)12q(x;θ0)12 +X
x∈X
q(x;θ0)
| {z }
1
¥
=−2X
x∈X
µ
q(x)12q(x;θ0)−12 @
@θq(x;θ0)
∂
=−2 @
@θ X
x∈X
q(x;θ0)
| {z }
1