• 検索結果がありません。

確率的推論のモデル化と推論結果の信頼性を保証する推論方式について

N/A
N/A
Protected

Academic year: 2021

シェア "確率的推論のモデル化と推論結果の信頼性を保証する推論方式について"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

1.は じ め に 近年,不確実性を含む推論の分野では,対象とする事 象間の確率的従属関係をグラフィカルに表現し確率的推 論を実現する手法が,人工知能 (AI) や統計学をはじめ 様々な分野で活発に研究されている.1980 年代に Belief Network (BN) が Pearl によって提案されて以来,BN は確 率的推論の分野の主要な手法の一つとなっている10) .BN とは,事象(命題)をノード,事象間の確率的依存関係 をアークで表現した有向非循環グラフ (Directed Acyclic Graph: DAG) を用いて確率的な推論を実現する手法であ る.BN は人間にとって直感的に理解しやすい知識表現 機能を備えており,多くの Expert System (ES) の基礎理

論としても利用されている9) .Pearl は,事象間の因果関 係等の不確実性を含む知識が条件付確率表 (Conditional Probability Table: CPT) で与えられることを前提として, それらの事象間の関係を DAG で表現し,それに対して 有効な確率的(演繹)推論法を提案している10) これに対し,これらの従来手法よりも一般的な演繹推 論アルゴリズムを前稿において提案した14) .前稿では, Pearlの研究において CPT が与えられることと同様の立 場にたち,真の確率分布を規定する母数が既知であると いう仮定のもとで,不確実な知識を用いた演繹推論をモ デル化し,その推論が“ある確率変数に対する広義の条 件付確率の計算”であることを明らかにした.そして, その条件付確率の計算を実現する演繹推論アルゴリズム として,離散データ解析の分野で用いられている ISP (Iterative Scaling Procedure)6)

を利用した反復アルゴリズム を提案した.しかし専門家によって真の母数が与えられ ない場合,それを何らかの手段で獲得する必要性が生じ る.これは,Pearl の BN や CPT が既知であるという仮 定についても同様である. 本稿では,基本式(属性)の数がそれほど多くなく, データ数が十分大きい問題を想定して,不確実性を含む 推論の問題を論じる.具体的には,既知情報が真の母数 ではなく分割表形式のデータ(分割表データ)である場 合に,多項分布の最尤推定量を計算し,それを利用した 予測の問題を扱う.したがって本稿で論じる推論処理は, 分割表データから母数を推定し,その母数の推定値と一 つの個体についての観測事実を用いて未観測の確率変数 についての条件付確率を計算するという 2 段階の推論プ ロセスに分類される.以降では,前者の分割表データか

確率的推論のモデル化と推論結果の信頼性を

保証する推論方式について

鈴 木

誠 *

On Modeling for Probabilistic Reasoning and Reasoning Method with Belief Interval

Makoto SUZUKI*

In the field of Artificial Intelligence (AI), the framework of belief networks (BN) was proposed by Pearl in the 1980s. BN has become popular within the probability and uncertainty community of AI. The knowledge representation of BN facilitates intuitive understanding of knowledge. On the other hand, we proposed a new reasoning method, i.e. deduction algorithm, which is more general than the previous methods in our last paper. In this paper, we shall divide the reason-ing into two parts, i.e. deduction and induction. The induction is a calculation of the maximum likelihood estimator of each cell in a contingency table. Meanwhile, the deduction is a calculation of conditional probabilities using the maxi-mum likelihood estimator when several marginal sums of the conditional probabilities are given. We shall show that our deduction algorithm is useful for the framework in this paper. Moreover, we shall propose a new reasoning method that guarantees a given reliability based on statistics by applying the interval estimation.

Vol. 37, No. 1, 2003

* 情報工学科 講師

(2)

ら母数を推定する推論プロセスを帰納推論と呼び,後者 の条件付確率を計算する推論プロセスを演繹推論と呼ぶ こととする. そして本稿の目的は以下の 2 点である.第 1 に,上記 の推論の問題に対して明確な数理モデルを与え,その推 論モデルのもとでも前稿の演繹推論アルゴリズムが有用 であることを示す.第 2 に,区間推定の理論を応用し前 稿の演繹推論アルゴリズムを拡張することにより,確信 度に幅を持たせて推論結果の信頼性を保証する推論方式 (確信度区間推論方式)を提案する.この推論方式によ り得られる確信度区間は,漸近的かつ近似的に区間の幅 を最小にしている. 2.準   備 2.1 表記法の整理 本稿で用いる記号を以下にまとめる *1 k :基本式の数. s :観測された基本式(観測事実)の数 (sk). Xi :基本式 Ai(w ) の真理値,確率変数 Xi{1, 0}, (i1, 2,···, k). Xiの実現値は小文字 xiで表記する. U(l ) : l 番目のサンプル,2k次元単位ベクトル U(l )(U 1 (l ), U 2 (l ), · · · , U 2k(l )). V :分割表のセルの頻度,2k次元列ベクトル N :分割表のデータの総数, X X :真の(多項)分布を規定する母数(真の母数). 2k 次元列ベクトル XX(X1, X2, · · · , X2k). 以降は d (domain) 結合確信度と呼ぶ. 式 (33), (35) の Pr (X1, · · · , Xk| X ) は Xx1· · · Xkと等価で ある. X Xˆ (V) :真の(多項)分布を規定する母数の推定値. 以降は XXˆ と表記する. 2k次元列ベクトル X(Xˆ 1, Xˆ2, · · · , Xˆ2k). q :s 個の基本式 Arm(w ) に関する観測事実 (m1, 2,···, s, rm{1,···, k}). s次元列ベクトル q(qr1, qr2, · · · , qrs). 各 qrmは式 (34) の i (individual) 確信度. y :観測過程によって得られた基本式 Arm(w ) の真理 値,通信路を経て得られた受信語. s次元列ベクトル y(yr1, yr2, · · · , yrs). Y Y :観測過程(通信路)を規定するパラメータ. s次元列ベクトル YY(yr1,yr2, · · · ,yrs). 式 (33), (35) の Pr (yi| Xi,yi) は yrmと等価である. P(XX , q) :真の母数 X と観測事実 q が得られたもとでの条 件付確率の(真の)値. 式 (35)(または,(1))の i 結合確信度. 以降は P と表記する. 2k次元列ベクトル P(P 1, P2, · · · , P2k). P(XXˆ , q):母数の推定値 XXˆ と観測事実 q が得られたもとで の条件付確率の値,以降は Pˆ と表記する. 2k次元列ベクトル Pˆ(Pˆ 1, Pˆ2, · · · , Pˆ2k). 2.2 2 つの不確実性と推論システムの入出力 前稿では不確実性を含む演繹推論をモデル化した14) その際,演繹推論で扱っている不確実性を“(1)ドメイン 全体に対する不確実性”と“(2) 個体に対する不確実性” の 2 つに分類した.本稿では,不確実性を含む推論を帰 納推論と演繹推論の二段階に分けて考察し,前稿と同様 に (1), (2) の不確実性を分類するという観点から帰納・演 繹の各推論を整理する.推論システム全体の入出力,各 推論モジュールの入出力とそれらが扱う上記 (1) と (2) の 不確実性の関係を図 1 に示す. 帰納推論モジュールはドメイン全体に対するサンプリ ングによって得られた分割表データ V を入力とし,母数 の推定値 XXˆ を出力する.すなわち帰納推論は,従来の統 計学で通常行われている推定であり,ドメイン全体に対 する不確実性のみを扱っている. これに対し演繹推論モジュールは,“(i) 帰納推論によ る母数の推定値 XXˆ”と,“(ii) s 個の基本式についての観 測事実 q”を入力とし,未観測の基本式についての確信 度 P(XXˆ (V), q)*2 を出力する.ここで,前者 (i) の入力はド メイン全体に対する不確実性を含んでいるのに対し,後 者 (ii) の入力は個体に対する不確実性を意味している点 が重要である.このように,演繹推論では両方の不確実 性を扱っている. N Vi i k  1 2

Â

. V     (V V, , ,V ) ,V U( ). k i il l 1 2 2 1 ◊◊◊

Â

*1X iと Xx1· · · xk,または Piと Px1· · · xkは添え字の振り方が 10進表現と 2 進表現の違いはあるが全く同じもの を意味する.Xx1· · · xkや Px1· · · xkは基本式との対応を分 かりやすくするための表記法である. *2 厳密には P(XXˆ , q) の周辺和である.また以降では表 記を簡潔にするため,条件付確率 P(XXˆ , q) と P(XX, q) を各々 Pˆ と P で表記する.Pˆ と表記すると確率変 数の因果関係が明確でなくなるが,Pˆ は確率変数 V の関数であり確率変数であることに注意されたい.

(3)

3.推論結果の信頼性を保証する演繹推論法 3.1 条件付分布の正規近似による信頼区間 本節では,確信度区間推論方式の基礎となる理論につ いて述べる *3.第 1 に,条件付確率 Pˆ の分布の分散につ いて論じる.ここでは,クラメール・ラオの不等式と母 数変換によって起こるフィッシャー情報行列の変換が重 要な概念となる.第 2 に,条件付確率 Pˆ の分布を正規近 似することにより,未観測の基本式 At(w ) の i 確信度 Pˆ1(xt) の信頼区間について論じる. 前節において演繹推論は式 (35) で示される条件付確率 の計算であると述べた.式 (35) を別の視点からとらえる と,演繹推論は XX から P への一種の母数変換を行って いるとみなすこともできる.すなわち,PP(XX)である. 例えば,基本式の数が 3 (k3),観測事実の数が 2 (s2) で,観測結果 yiが真,すなわち y11, y21 の場合に,式 (35) を P と YY を用いて書きかえると以下のようになる. (1) ただし, f (XX, YY)(X000X001)(1y1)(1y2) (X010X011)(1y1)y2 (X000X101)y1(1y2) (X110X111)y1y2 ここで,条件付確率 Pˆ の分布の分散を考える.多項分 布の場合,XXˆ (V/N ) は一様最小分散不偏推定量 (UMVU: Uniformly Minimum Variance Unbiased estimator) であり,

かつ最尤推定量である.そして,最尤推定量 XXˆ の漸近的

な分散共分散行列はフィッシャー情報行列の逆行列とな ることが知られている.また,不偏推定量は母数変換に

図 1 2つの不確実性と推論システムの入出力

Fig. 1. Two kinds of uncertainty and input/output to the inference system.

*3

本節で述べる内容の詳細は付録の A.1 章を参照され たい.

(4)

関して一般には不変ではないが,最尤推定量は母数変換 に関して不変である.したがって,PP(XX) を XX を変換 した母数とすると,XX の最尤推定量 XXˆ と P の条件付確率 Pˆ の間には PˆP(XXˆ ) の関係が成り立っている.よって, 条件付確率 Pˆ の分散の最小値は,付録の A.1.2 節で述べ る XX から P への母数変換によって起こるフィッシャー情 報行列の変換を考えることにより得られる.すなわち, 母数変換のヤコビ行列を J (∂P/∂ X)と表記すると,条件付 確率 Pˆ の分散は J (∂P/∂ X)I(XX)1J (∂P /∂ X ) となる15) 次に,未観測の基本式 At(w ) の i 確信度 Pˆ1(x t)の信頼区 間を求める.Pˆ1(xt) を求めるということは,式 (36) で示され ているように条件付確率 P の要素 Piの部分和を求める ことに等しい.本稿では真の母数が未知という立場であ るので,最尤推定量 XXˆ に基づいて計算された条件付確率 Pˆ の部分和を求めることになる.すなわち, (2) である.ここで,N が大きいとき,Pˆ1(xt) は近似的に平均 P1(xt),分散 Var(P1(xt)/Nの正規分布に従う * 4.よって,次式 が成り立つ. (3) ただし,za/2は標準正規分布の両側 a 点である. 本稿の場合,真の母数 XX が未知であると仮定している ため条件付確率の真の値 P1(x t)を求めることは不可能であ る.そこで,分散 Var(P1(xt) )/N中の P1(xt) を Pˆ1(xt) に置き換える ことにより,式 (3) の近似的な信頼区間を求める.この 置き換えを行えば Var(P1(xt) )は P1(xt) を含まなくなり,式 (3) を近似的に P1(x t)に関して解くことにより次式が得られる. (4) 式 (4) が最尤推定量 XXˆ に基づく P1(xt)の信頼係数 1a の近 似的な信頼区間である. ところで多項分布の場合の最尤推定量 XXˆ の不偏性によ り,式 (18) の Var(XXˆ) は等号を達成することに注意する と,XXˆ と式 (35) の関係にある条件付確率 Pˆ も式 (26) の等 号 を 達 成 す る の で , 分 散 Var(Pˆ1(x t))は 式 (26) の 左 辺 の J (∂P/∂ X ) I (XX)1J (∂P /∂ X ) を用いることにより求められる. その際,フィッシャー情報行列 I (XX) の XX はその最尤推定 量 XXˆ で置き換えられ,漸近的かつ近似的な分散共分散行 列 J (∂P/∂ X) I (XXˆ )1J (∂P /∂ X ) を用いる. 3.2 推論結果の信頼性を保証する推論方式 本節では,前節の議論を用いて,確信度に幅を持たせ ることにより推論結果の信頼性を保証する推論方式を提 案する. [確信度区間推論方式] (STEP0):帰納推論を行う.すなわち,最尤推定法によ り分割表の各セルの最尤推定値 Xˆx1x2x3(Vx1x2x3/N )を求め る.さらに,XXˆ の(2k1)(2k1)フィッシャー情報行列 I (XXˆ )を求める. (STEP1):観測事実 q を用いて,各条件付確率値 pˆx 1x2· · · xk と,未観測の基本式 At(w ) の i 確信度 Pˆ1(xt)を演繹推論 アルゴリズム *5により求める. (STEP2): PP(XX)を Xx1x2x3の各パターンで偏微分する ことにより,ヤコビ行列 J (∂P/∂ X) を求める. (STEP3):(STEP1) のフィッシャー情報行列 I (XXˆ ) の逆行 列 I (XXˆ )1と(STEP2) のヤコビ行列 J (∂P/∂ X ) を用いて J (∂P/∂ X ) I (XXˆ )1J (∂P /∂ X ) (I(Pˆ)1)を計算する. (STEP4):(STEP3) で求めたフィッシャー情報行列の逆 行列 I (Pˆ)1を用いて,基本式 At(w ) の i 確信度の分散 Var(Pˆ1(x t))を求める. (STEP5):(STEP1)で求めた i 確信度 Pˆ1(xt) と標準正規分布 のパーセント点 za/2を用いて,基本式 At(w ) の i 確信度 の確信度区間 (Pˆl 1(xt) , Pu 1(xt) )を式 (5) を用いて求める. (5) こ こ で , 基 本 式 の 数 が 3 (k3),観測事実の数が 2 (s2)の場合の確信度区間推論方式の実行例を示す *6 例 1:提案推論方式の実行例 今,表 1 に示す三元表が与えられたとする. (STEP0):帰納推論の結果,真の母数 XX の最尤推定値 X Xˆ ,すなわち d 結合確信度の値 xˆx1x2x3は以下のようにな る. ˆ ˆ ( ˆ ) / ( ) ( ) / ( ) P P z V P N xt xt xt l 1 1 a2 1 ˆ ˆ ( ˆ ) / ( ) ( ) / ( ) P P z V P N xt xt xt u 1 1 a2 1 ˆ ( ˆ ) / ˆ ( ˆ ) / ( ) / ( ) ( ) ( ) / ( ) P z Var P N P P z Var P N xt xt xt xt xt 1 a2 1  1  1 a2 1 Pr P P Var P N z xt xt xt 1 1 1 2 1 ( ) ( ) ( ) ˆ ( ) / ˙ /   a  a Ê Ë Á ÁÁ ˆ ¯ ˜ ˜˜ ˆ ˆ ( ) ( ) { , , }\{ } P P xt k t xt k X X X X X 1 1 1 1  ◊◊◊ ◊◊◊ ◊◊◊

Â

*4付録 A.1.3 節の定理 1 を参照されたい. *5この演繹推論アルゴリズムは前稿において既に提案 されているので,詳細は前稿を参照されたい14) *6記号””と””を各々近似値と収束値の意味で 用いる.

(5)

1111.000101, 1105.000102, 1014.000101, 1007.000102, (6) 0112.000101, 0101.000101, 0011.600101, 0002.800101, また,XX の 77 のフィッシャー情報行列 I (XX)は以下のよ うに計算される. I (XX)I1(XX)I2(XX) (7) ここで,I1(XX) は対角要素のみが N/xx1x2x3(ただし,x1x2x3 は 001111)で他の要素は 0 である 77 正方行列であ り,I2(XX) は全ての要素が N/x000の 77 正方行列である. I (XX ) の XX を式 (6) の最尤推定量 XXˆ に置き換え, 逆行列 I (XX)1を計算すると以下のようになる. (8) (STEP1):個体に対する観測事実として基本式 A1(w ) , A2(w ) の i 確信度 q10.5, q20.75 が各々得られたとして, 未観測の基本式 A3(w ) の i 確信度 pˆ1(x3)を求める場合の演 繹推論を考える.前稿の演繹推論アルゴリズム14) を用い ると,以下の結果が得られる. p ˆ1112.713101, pˆ 1101.356101, p ˆ1013.384102, pˆ1005.923102, (9) p ˆ0112.287101, pˆ 0101.144101, p ˆ0015.707102, pˆ0009.986102, これより,i 確信度 pˆ 1(x3)の値は以下のようになる. p ˆ1(x 3)pˆ001pˆ101pˆ011pˆ111 5.909101 (10) (STEP2):式 (1) を xx1x2x3の各パターンで偏微分すること により,式 (26) のヤコビ行列 J (∂P/∂ X) を求める *7 .この 場合,q10.5, q20.75 と式 (6)の xˆx1x2x3の値を用いて通信 路 パ ラ メ ー タ yiの 値 を 定 め る と , y17.0346101, y27.6226101となる.これらの値を用いてヤコビ行列 J (∂P/∂ X )を計算すると以下のようになる. (11) (STEP3):式 (8) のフィッシャー情報行列の逆行列 I (XX)1 と式 (11) のヤコビ行列を用いて を計算すると以下のようになる. (12) (STEP4):分散 Var(pˆ1(x 3))は式 (12) の行列を用いて以下の ように計算される. 10 46 39 1 111 45 95 1 111 243 2 140 9 2 223 36 71 281 8 2 587 5 477 63 42 1 478 3 130 36 24 22 98 70 46 282 6 45 95 140 9 6               . , . , , . . , . , , . . , . , , . . , . , , . . , . , , . . , . , , . . , . , ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊◊ È Î Í Í Í Í Í Í Í Í Í ˘ ˚ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ , 906 7. JP I J P ∂ Ê Ë Á ˆ ¯ ˜ ∂ ∂ Ê Ë Á ˆ ¯ ˜ X ( )XX X 1  10 33 63 6 526 15 48 4 079 1012 31 02 8 157 26 16 62 05 2 112 6 773 16 07 1 207 3 870 9 181 4 838 15 51 36 80 9 676 31 2                    . , . , , . . , , , . . , . , , . . , . , , . . , . , , . . , . , , . . , ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊ ..02, ◊◊◊, 197 7. È Î Í Í Í Í Í Í Í Í Í ˘ ˚ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ 10 2 688 0 320 0 320 0 320 1 800 0 200 0 640 0 400 0 400 0 224 0 140 0 140 0 128 0 080 0 080 0 160 0 100 0 100 0 320 4                   . , . , , . . , . , , . . , . , , . . , . , , . . , . , , . . , . , , . . , ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊ ◊◊◊  0 200. , ◊◊◊, 1 800. È Î Í Í Í Í Í Í Í Í Í ˘ ˚ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ 表 1 三元表

Table 1. 3-way contingency table. A¯1 A¯1 TOTAL A¯2 A2 A¯2 A2 A¯3 140 50 35 25 250 A3 80 100 20 50 250 220 150 55 75 500 *7 より具体的には,式 (1) を xx1x2x3の各パターンで偏微 分する.

(6)

Var(p1(x3))Var(p001)Var(p011)Var(p101) Var(p111)2{Cov(p101, p101) Cov(p001, p101)Cov(p001, p111) (13) Cov(p011, p101)Cov(p011, p111) Cov(p011, p111)}3.633101 (STEP5):(p1pˆ1(x3) )/Var——( p1(x3) )/ —— Nは標準正規分布に従 うとみなし,a0.05 とすると,正規分布表より 5 パーセ ント点は 1.96 (za/2)である.また,(STEP1) の式 (10) より p ˆ 1(x3)0.5909 であるので,式 (5)にこれらの値を代入する と, (14) となる.よって 5.885101pˆ15.933101 (15) を得る.  4.考   察 4.1 統計的決定理論からの推論結果の意味づけ 統計的推測の目的は,ある損失を平均的に少なくする ような決定を行うことである.このように定式化するこ とによって,推定や検定の統計的推測の問題が数学的な 最適化問題に帰着される.本節では,この統計的決定理 論の立場から本推論方式で得られた推論結果の意味づけ を行う. 本推論システムの最終的な出力は条件付確率 Pˆ であ る*8 .ここで,損失関数として式 (16) の二乗誤差を考え る. L{Pˆ , P}(PˆP)2 (16) 統計的決定理論の立場から考えると,式 (17) の平均期待 損失を最小化するような Pˆ を求めることが目的となる. EXX[L{Pˆ , P}]E [(PˆP) 2] (17)

ここで,E (Pˆ)P が成り立つので,E [(PˆP)2]Var(Pˆ)と

なる.したがって,式 (17) の平均期待損失を最小化する ことは,Pˆ の分散 Var(Pˆ) を最小化することと等価である. よって,フィッシャー情報行列の逆行列 I (P)1は分散を 最小とする分散共分散行列であると同時に,式(17)の平 均期待損失を最小化していることがわかる. 4.2 確率的推論における本研究の位置づけ 本研究では,確率的推論を演繹推論と帰納推論に大別 している.確率的推論の研究の発端は,専門家によって 与えられた知識 (BN) と新たに得られた観測事実をもとに 条件付確率の計算をする演繹推論であった.しかし,専 門家が BN を与えることが難しい問題もあり,データか ら BN を構成する研究も行われるようになった.本稿で は,これらの BN を構成する研究を帰納推論と呼んでい る. 帰納推論に対しては従来から様々なアプローチがなさ れているが,帰納推論の問題を大別すると,パラメータ 推定とモデル選択に分けられる.パラメータ推定は条件 付確率や同時確率の推定問題であり,主に最尤推定に 基づくアプローチとベイズ統計学的なアプローチがあ 4,5,11).モデル選択は BN のグラフ構造を決定する問題 であり,ヒュ−リスティクスを用いたアプローチや統計 的なアプローチがなされている.前者の主要な研究とし ては,K-2 アルゴリズムがあげられる3) .後者の研究とし ては,MDL 基準を適用したものや,複数のモデルの混合 を考慮したものなどがある12,17) .一般に,取り扱う基本 式の数を k 個としパラメータ推定の問題を考えると,推 定すべきパラメータの最大数は O(2k) である.一方,対数 線形モデルを仮定してモデル選択の問題を考えた場合, 探索しなければならないモデルの最大総数は O(22k) となっ てしまう.仮に対数線形モデルの階層構造2) を仮定した としても,k7 程度で,何らかのヒュ−リスティクスを 用いるか,準最適解で満足しない限り,モデル選択を行 うのは困難である. ここで重要なのは,BN において帰納推論は演繹推論 とは独立に論じるべきではなく,帰納推論で獲得した知 識を演繹推論でいかに用いるかという点である.すなわ ち,演繹推論の目的により,帰納推論における知識獲得 の手法や獲得した知識の保持の仕方も異なってくる. まず,演繹推論の目的は“(a) 計算量や記憶容量の効 率を高めること”と,“(b) 推論結果の精度を高めること” の 2 通りに分けられる.一般に,両者はトレードオフの 関係にあり,推論結果の精度を高めるにはある程度の計 算量と記憶容量がかかることを覚悟する必要があり,逆 に計算量や記憶容量の効率を高めるには推論結果の精度 を犠牲にせざるをえない. ˆ . . . / ( ) P xt l 1 4 0 5909 1 96 7 266 10 500     ˆ . . . / ( ) P xt u 1 4 0 5909 1 96 7 266 10 500     *8 正確には,出力は条件付確率 Pˆ の周辺和 Pˆ1(x t)であ る.

(7)

この演繹推論の目的により,帰納推論結果の保持の仕 方も“(c) 圧縮された知識を保持する方法”や“(d) 全て の母数を保持する方法”などの様々な方法が考えられる. (c) を実現するためにはモデル選択をし,データを発生さ せているルールを陽に知ることは有効な手段である.一 方,(d) を実現するのであれば必ずしもルールを陽に知る 必要はなく,パラメータ推定だけで済ませる方法も考え られる. 本稿では,(d) の立場から不確実性を含む推論の問題 を論じた.すなわち,k20 程度でデータ数 N が十分大 きい問題を想定して,現在の計算機パワーで実現可能な レベルの計算量と記憶容量を費やし,推論結果の精度も 実用的には良い built-in タイプの予測1) を用いた.実は, モデル選択をする方法や混合をとる方法の方が推定精度 が向上することが知られているが,帰納・演繹の両推論 を総合的に考えて,実装も容易で単純な処理を繰り返す だけで所望の推論結果を得ることができる本手法は確率 的推論の一つの有効なアプローチである. 5.ま と め 本稿では,多項分布の母数の推定問題を帰納推論と し,ある確率変数に対する広義の条件付確率の計算問題 を演繹推論ととらえることにより,不確実な知識を用い た推論を帰納・演繹推論の二段階に分けて論じた.特 に,帰納・演繹の両推論をドメイン全体に対する不確実 性と個体に対する不確実性という観点から整理すると, 帰納推論ではドメイン全体に対する不確実性しか扱って いないのに対し,演繹推論では両方の不確実性を切り分 けて扱うことにより条件付確率の計算に落とし込んでい る点が重要である.この条件付確率の計算は,ベイズ統 計学的な視点からとらえると事後確率の計算とみなすこ ともできる.そして,前稿で提案した演繹推論アルゴリ ズムが分割表データが与えられた場合にも有用であるこ とを示した. さらに,確信度に幅を持たせることにより演繹推論結 果の信頼性を保証する推論法を構築した.本稿で扱った 問題は,帰納推論結果の最尤推定量 XXˆ を用いて演繹推論 を行い,条件付確率 Pˆ を計算するという二重構造になっ ている.すなわち,演繹推論時には推定誤差が生じる余 地はなく,本質的に推定誤差を含んでいるのは XXˆ のみで あり,Pˆ は XXˆ の推定誤差を引き継ぐ形式のモデルになっ ている.そこで,多項分布の場合の最尤推定量 XXˆ の不偏 性と式 (18) の多母数の場合のクラメール・ラオの不等式 により XXˆ の分散が近似的に最小になるという性質に着目 し,式 (35) で示される XX から P への母数変換によって起 こるフィッシャー情報行列の変換を考えることにより, 漸近的かつ近似的に区間の幅を最小にする P1(x 3)の確信度 区間を求めた. 6.今後の課題 本稿では,ドメインに対する分割表形式の大規模な データがバッチ的に得られている状況を問題にしたが, データが逐次的に得られることも考えられる.特にサン プリング・データが少ないシステムなどを考える場合は, 新たな観測事実をカウントしドメイン全体に対する不確 実性が逐次的に変化するというベイズ統計学的な立場か らの定式化を検討する必要がある. また,データが断片的に得られている場合も考えられ る.例えば,属性 A1, A2, A3についての分割表と,属性 A3, A4, A5についての分割表が別々に得られている場合 に,これらの分割表を用いた推論法も重要な検討課題で ある. さらに,データが常に完全に得られているとは限らな いので,データに欠測がある場合の推論方法の検討も重 要である8) 一方で,前稿で提案した演繹推論アルゴリズムを用い た実用システムの構築も検討中である.特に,消費者金 融事業や銀行カードローン等における顧客初期与信シス テムやデータベース・マーケティングシステム等のシス テムには,本手法が適用できる可能性がある. 参 考 文 献

1) Beran, J.: Statistics for Long-memory Processes, Chap-man and Hall, New York (1994).

2) Birch, M. W.: Maximum Likelihood in Three-Way Con-tingency Tables, J. Roy. Statis., Soc., B25, pp. 220–233 (1963).

3) Cooper, G. F. and Herskovits, E.: A Bayesian Method for the Induction of Probabilistic Networks from Data, Ma-chine Learning, Vol. 9, pp. 309–347 (1992).

4) Geiger, D. and Heckerman, D.: A Characterization of the Dirichlet distribution with Application to Learning Bayesian Networks, Proc. of the 11th Int. Conf. on Un-certainty in Artificial Intelligence, pp. 196–207 (1995). 5) Heckerman, D., Geiger, D. and Chickering, D.: Learning

Bayesian Networks; the Combination of Knowledge and Statistical Data, Machine Learning, Vol. 20, pp. 197–243 (1995).

(8)

given marginals, Biometrika, Vol. 55, 1, pp. 179–188 (1968).

7) Lauritzen, S. L.: Graphical Models, Clarendon Press, Ox-ford (1996).

8) McLachlan, G. J.: The EM Algorithm and Extensions, John Wiley & Sons (1996).

9) 本村,佐藤:ベイジアンネットワーク—不確定性の

モデリング技術—,人工知能学会誌,Vol. 15, No. 4, pp. 575–582 (2000).

10) Pearl, J.: Probabilistic Reasoning in Intelligent Systems, Morgan Kaufmann (1988).

11) Spiegelhalter, D. J., Lauritzen, S. L., Dawid, A. P. and Cowell, R. G.: Bayesian Analysis in Expert Systems, Sta-tistical Science, Vol. 8, pp. 219–247 (1993).

12) Suzuki, J.: A Construction of Bayesian Networks from Databases on an MDL Principle, Proc. of the 9th Int. Conf. on Uncertainty in Artificial Intelligence, pp. 243– 250 (1993). 13) 鈴木,松嶋,平澤:推論の信頼性を考慮した不確 実な知識の表現法と推論法について,情報処理学会 論文誌,Vol. 35, No. 5, pp. 691–705 (1994). 14) 鈴木,松嶋,平澤:不確実な知識を用いた推論のモ デル化と推論法について,情報処理学会論文誌, Vol. 41, No. 1, pp. 1–11 (2000). 15) 竹村彰通:現代数理統計学,創文社 (1991). 16) 竹内啓:数理統計学,東洋経済 (1963).

17) Thiesson, B., Meek, C., Chickering, D. and Heckerman, D.: Learning Mixtures of DAG Models, Proc. of the 14th Int. Conf. on Uncertainty in Artificial Intelligence, pp. 504–513 (1998).

18) Weiss, L.: The normal approximation on the Multino-mial with an Increasing Number of Classes, Naval Res. Logist. Quart., Vol. 23, No. 1, pp. 139–149 (1976).

付   録 A.1 確信度区間推論方式に関する基礎的事項 A.1.1 最尤推定量とクラメール・ラオの不等式 多項分布の場合の最尤推定量 XXˆ は不偏推定量である. したがって,XXˆ の分散 Var(XXˆ ) は多母数の場合のクラメー ル・ラオの不等式の下限を達成する.すなわち,式 (18) の等式が成り立ち,XXˆ は UMVU である. Var(XXˆ ) J (XX)I (XX)1J (XX) (18) ここで,I (XX) は (2k1)(2k1)のフィッシャー情報行列 *9 で,I (XX)1はその逆行列である.また,J (XX) は (2k1) (2k1)のヤコビ行列で,J (XX) はその転置行列である. 今,XXˆ は不偏推定量であるので J (XX) は単位行列となり, Var(XXˆ ) I (XX)1 (19) となる.また,この場合,第 i 要素 XXˆ については, Var(Xi) Ii i(XX) (20) が成り立つ.ここで,A B とは二つの対称行列 A, B に ついて,対称行列 AB が非負定値行列であることを定 義する. A.1.2 フィッシャー情報行列の変換 ここでは,式(35)(または,(1))の“XX から P への母 数変換”によって起こるフィッシャー情報行列の変換に ついて論じる15) 以降では,対数尤度関数を l (XX(P), V)(または単に l) と表記する.ここで,式 (35) によれば XXXX(P),すなわち XiXi(P1, P2, · · · , P2k)という関係が成り立っていることに注 意されたい. ところで,合成関数の微分の鎖則により次式が成り立 つ. (21) これを行列表現すると次式のようになる. (22) X XXX(P)の(2k1)(2k1)のヤコビ行列 J (∂X/∂P )の (i, j) 要 素を[∂ Xi/∂ Pj]とおき,対数尤度 l (XX(P) , V) をP および XX の 要素で偏微分して得られる列ベクトルをそれぞれ [∂ l/∂ Pj], [∂ l/∂ Xi] で表せば,式 (22) は次式で表すことができる. (23) 式 (23) の両辺の分散共分散行列を計算すれば P および XX に関するフィッシャー情報行列の間には次式で表される 関係があることがわかる. ∂ ∂ È Î Í Í ˘ ˚ ˙ ˙ ∂ ∂ Ê Ë Á ˆ ¯ ˜ ∂ ∂ È Î Í ˘ ˚ ˙ l P J P l j i  X  X ∂ ∂ ◊ ◊ ◊ ∂ ∂ È Î Í Í Í Í Í Í Í Í Í ˘ ˚ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ∂ ∂ ◊◊◊ ∂ ∂ ◊ ◊◊◊ ◊ ◊ ◊◊◊ ◊ ◊ ◊◊◊ ◊ ∂ ∂ ◊◊◊ ∂ ∂ È Î Í Í Í Í Í Í Í Í Í ˘ ˚ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ l P l P P P P P k k k k k 1 2 1 1 1 2 1 1 1 2 1 2 1 2 1       X X X X ˙˙ ∂ ∂ ◊ ◊ ◊ ∂ ∂ È Î Í Í Í Í Í Í Í Í Í ˘ ˚ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙   l l k X X 1 2 1 ∂ ∂ ∂ ∂ ∂ ∂

Â

l P P l i j j i j k ( ( ),XXP V) ( ( ),XXP V)    1 2 1 X X *9 多項分布の母数 XX に含まれる全ての Xiの和は 1 と なる,すなわち であるので母数の自由度は 2k1 であり,フィッシャー情報行列 I (XX) は(2k1) (2k1)行列となる. Xi i k   1 2 1

Â

(9)

(24) 今,P と XX が 1 対 1 の関係にあり,変換のヤコビ行列は 正則であるので,式 (24) の逆行列を求めることにより以 下のようになる. (25) 式 (25) では,J (∂ X/∂ P )1J (∂P/∂X)となることを用いた. ここで,E (Pˆ)P(XX)とするとクラメール・ラオの不等 式より (26) である.一方,Pˆ は PP(XX)の不偏推定量であるので, クラメール・ラオの不等式より Var(Pˆ ) I(P)1 (27) でなければならない.式 (25) によりどちらで考えてもク ラメール・ラオの不等式の下限は一致している. A.1.3 条件付分布の正規近似について 提案した確信度区間推論方式では,(STEP5) において Pˆiの分布を漸近的に正規分布に近似している.これに関 する定理とその証明を以下に示す.この証明は Pˆiの分布 を確率変数 XXˆ の関数の分布としてとらえている. 定理 1:条件付分布の正規近似 2k次元確率変数ベクトルの列 U(1), U(2), · · · , U(N)があると する.ただし, U(l )(U 0 (l ), U 1 (l ), · · · , U(l ) 2k1) である. 今, k 元表の各セルの頻度 Vi であり,各セルの最尤推定量 Xˆi と書ける.一般に,N が大きくなるとき,2k 元多項分布 は 2k1 次元正規分布に近似することができる16,18) .その 分布の平均ベクトルを m(m0,m1, · · · ,m2k1) とすると,そ の分散共分散行列は S/N となる.ただし,S は である.このとき,PiPi(X1, X2, · · · , X2k1) (i1, 2,···, 2k1) とし,Pi(X1, X2, · · · , X2k1) が m で連続微分可能ならば,N が大きくなるとき各 PˆiPi(Xˆ1, Xˆ2, · · · , Xˆ2k1) の分布は,漸 近的に平均 Pi(m1,m2, · · · ,m2k1),分散 s の正規分布に近 づく.ただし, (28) である.  (証明)Piを XXm のまわりでテーラー展開すると, PiPi(m1,m2, · · · ,m2k1) R (29) となり,R の項は 1/N 以下の大きさであるので無視する と,近似的に PiPi(m1,m2, · · · ,m2k1) (30) となる.これより,平均は, E [Pˆi]Pi(m1,m2, · · · ,m2k1) (31) であり,分散は, E [{PˆiPi(m1,m2, · · · ,m2k1)}2] (32) となり,Piは漸近的に上記の平均と分散を持つ正規分布 に近づく.  A.2 前稿の演繹推論の定式化 前節の仮定のもとで,前稿における演繹推論の定式化 を以下の式 (33)(36)に示す14).まず,X 1, · · · , Xk, yr1, · · · , yrs    j i j j j j k i j k j k P P

Â

Ê

Â

Ë Á ˆ ¯ ˜ 2 2 2 1 2 X m( m) X X m m     j j j j i P k

Â

ÏÌÔ ∂ Ó Ô ¸ ˝ Ô ˛ Ô ◊◊◊ (X ) ( , , , )| X X X X m 1 2 2 1 XX m     1 1! j ( j j) j ( 1, 2, , 2 1)| i P k

Â

ÏÌÔ ∂ Ó Ô ¸ ˝ Ô ˛ Ô ◊◊◊ X X X X X m XX m s m  m m m j i j j j j k i j k j k P P

Â

Ê

Â

Ë Á ˆ ¯ ˜ 2 2 2 1 2 X ( ) X X m m m m m m m m m m m m m m m m m m 1 1 1 2 1 2 1 1 2 2 2 2 2 1 1 2 1 2 2 1 2 1 2 1 1 1 1 ( ), , , , ( ), , , , , ( )                ◊◊◊ ◊◊◊ ◊ ◊ ◊ ◊ ◊◊◊ È Î Í Í Í Í Í ˘ ˚ ˙ ˙ ˙ ˙ ˙ k k k k k k ˆ ( ) Xi i l N i l V N N U    1 1

Â

Vi U l N i l  1

Â

( ) Var( ˆ )P JP I( ) J P  ∂ Ê Ë Á ˆ ¯ ˜ ∂ ∂ Ê Ë Á ˆ ¯ ˜ X XX X 1 JP I  J P  ∂ Ê Ë Á ˆ ¯ ˜ ∂ ∂ Ê Ë Á ˆ ¯ ˜ X ( )XX X 1 I J P I J P ( )P ( )      1 1 1 1 ∂ ∂ Ê Ë Á ˆ ¯ ˜ ∂ ∂ Ê Ë Á ˆ ¯ ˜ X X XX I J P I J P ( )P ∂  ( ) ∂ Ê Ë Á ˆ ¯ ˜ ∂ ∂ Ê Ë Á ˆ ¯ ˜ X X XX

(10)

の結合確率分布は式 (33) で表現できる. Pr (X1, · · · , Xk, yr1, · · · , yrs| X ,Y ) (33) 次に,観測事実である s 個の基本式 Arm(w ) についての i 確信度 q1(xr m) は,真理値の観測結果 yrmと既知の母数 XX と パラメータ yrmが与えられたもとでの真理値 xrm の条件 付確率とみなすことができ,式 (34) で表現できる. Pr(X1, X2, · · · , Xrm1,···, Xk| yr1, · · · , yrs, X , Y ) Pr(Xrm1 | yrm,yrm) (34) さらに,条件付確率(i 結合確信度)は式 (35) のように 表 現できる. Px1· · · xkPr(X1x1, · · · , Xkxk| yr1, · · · , yrs, X , Y ) (35) 最後に,演繹推論結果である基本式 At(w ) の i 確信度 P1(xt) は式 (36) で表現できる. (36)  { , , }\{ } ( ) X X X X X k t xt k P 1 1 1 ◊◊◊ ◊◊◊ ◊◊◊

Â

P X X X y y xt k t s X X X t k r r 1 1 1 1 1 ( ) { , , }\{ } ( , , , , | , , , , )   ◊◊◊

Â

◊◊◊ ◊◊◊ ◊◊◊ Pr X Y    Pr Pr Pr Pr ( , , | ) ( | , ) ( , , | ) ( | , ) , , X X y X X X y X k i s r r i X X k i s r r i i i k i i 1 1 1 1 1 ◊◊◊ ◊◊◊ Ï Ì Ô Ó Ô ¸ ˝ Ô ˛ Ô

Â

◊◊◊ X X y y Pr Pr ( , , , , , | , ) ( , , | , ) X X y y y y k r r r r s s 1 1 1 ◊◊◊ ◊◊◊ ◊◊◊ X Y X Y q xrm k rm X X X 1 1 ( ) { , , )\{ }  ◊◊◊

Â

  Pr(X, ,Xk| ) Pr( |y X, ) i s i i i 1 1 ◊◊◊ X

y   Pr(X, ,Xk| ) Pr( |y X, ,X , , ) i s i k 1 1 1 ◊◊◊ X

◊◊◊ X Y

Fig. 1. Two kinds of uncertainty and input/output to the inference system.
Table 1. 3-way contingency table.

参照

関連したドキュメント

Maurer )は,ゴルダンと私が以前 に証明した不変式論の有限性定理を,普通の不変式論

We construct a Lax pair for the E 6 (1) q-Painlev´ e system from first principles by employing the general theory of semi-classical orthogonal polynomial systems characterised

Standard domino tableaux have already been considered by many authors [33], [6], [34], [8], [1], but, to the best of our knowledge, the expression of the

Maurer )は,ゴルダンと私が以前 に証明した不変式論の有限性定理を,普通の不変式論

 

2 E-LOCA を仮定した場合でも,ECCS 系による注水流量では足りないほどの原子炉冷却材の流出が考

本文のように推測することの根拠の一つとして、 Eickmann, a.a.O..

Amount of Remuneration, etc. The Company does not pay to Directors who concurrently serve as Executive Officer the remuneration paid to Directors. Therefore, “Number of Persons”