ベイズ予測とその応用経済統計鹿野研究室

(1)

担当：鹿野（大阪府立大学）

2012 年度前期

はじめに

前回の復習

加法定理。

条件付き確率（乗法定理）_⇒事象の独立性。

今回学ぶこと

ベイズの定理。

ベイズ予測の応用例。

テキスト該当箇所：_4.5章。松原望（₂₀₀₈）『入門ベイズ統計』も参照。

1 ベイズの定理

1.1 準備：全確率の定理

標本空間の分割（図₁）：標本空間_Ωが、二つの互いに排反な事象_H₁、_H₂にちょうど二分割されるとする。_H₁、_H₂の確率を標本点の数で表すと（全体_{= N}）

Pr(H1) = ^R^H¹

N ^, ^Pr(H²^{) =} R_H₂

N ^. ⁽¹⁾

⊲ ^{このとき適当な事象} A ⊂_Ω^は、H₁^とH₂^に ^。⇒ H₁^、H₂^{のもとでの}A の条件付き確率を標本点の数で表すと（講義ノート_#05）

Pr(A|H1) = ^R^A∩H¹

R_H₁ ^, ^Pr(A|H²^{) =} R_A∩H₂

R_H₂ ^. ⁽²⁾

⊲ (1)^式、(2)式にある確率から、条件なしの確率_Pr(A)を復元するには？

全確率の定理：_Ω上の事象_Aの確率は、次式で与えられる。

Pr(A) = Pr(A|H1^{) Pr(H}1) + Pr(A|H2^{) Pr(H}2⁾ ⁽³⁾

これをと呼ぶ。

1

(2)

ǡ

A

H

₁

H

₂

AъH

₁

AъH

₂

図_{1: H}₁、_H₂による標本空間_Ωの分割と、事象_A

⊲ ∴Pr(A)は、二つの条件付き確率_Pr(A|H₁₎、_Pr(A|H₂₎の。_Pr(H₁₎、_Pr(H₂₎ は各条件付き確率の重要度。

⊲ 証明：図₁から、_Aに該当の標本点の数は

RA= ^. ⁽⁴⁾

また₍₃₎式左辺に₍₁₎式、₍₂₎式の表現を全て代入すると (3)^式左辺₌ ^R^A∩H¹

RH₁

N ⁺ RH₂

N RA∩H₂

RH₂ ⁼

RA∩H₁

N ⁺

RA∩H₂

N ⁼

RA∩H₁+ RA∩H₂

N ⁼ ^.

(5)

これは_Aの確率_{Pr(A) =}

R_A

N ^{に他ならない。}^∴⁽³⁾^{式が成立。}

1.2 ベイズの定理：「結果」から「原因」を予測

例：二つの工場_H₁と_H₂から部品を調達している製造企業。部品が不良品であることを

A^と置く。

⊲ 部品に占める各工場の割合は_Pr(H₁_{) =} ²

3^、^Pr(H²^{) =} 1 3^。

⊲ 過去の実績によれば、各工場について不良品の割合は_Pr(A|H₁_{) =} ³

100^、^Pr(A|H²^{) =} 4 100^。

⊲ ^{「あっ、不良品だ！」}⇒^{この不良品が工場}H₁^{から来た確率}Pr(H1|A)^は？

_Remark：上の例で、_Aは「（不良品）」、_H₁、_H₂はその「（製造元の工

場）」と解釈できる。

⊲ ^このときPr(H1)^を、H₁^の ^と呼ぶ。^「結果」A^{を見る前の、}^「原因」H₁ の確率。

⊲ ^一方Pr(H₁|A)^を、H₁^の ^と呼ぶ。^「結果」A^{を見た後の、}^「原因」H₁^の確率。

⊲ H₂^{についても同様。}

(3)

ベイズの定理：_Aに基づく_H₁の事後確率は、次式で与えられる。 Pr(H1^|A) = ^Pr(A|H¹^{) Pr(H}¹⁾

Pr(A|H1) Pr(H1) + Pr(A|H2) Pr(H2)^. ⁽⁶⁾

これをと呼ぶ。_Pr(H₂_|A)も同様に計算可能。

⊲ 証明：乗法定理（講義ノート_#05）より_{Pr(A ∩ H}₁_{) =} 。これと全確率の定理₍₃₎式を、条件付き確率の定義の分子・分母に代入すれば

Pr(H₁|A_{) =} ^{Pr(A ∩ H}¹⁾ Pr(A) ⁼

Pr(A|H₁) Pr(H₁)

Pr(A|H1) Pr(H1) + Pr(A|H2) Pr(H2)^. ⁽⁷⁾

例：不良品が_H₁から来た確率は？_⇒ベイズの定理を使うと Pr(H1^|A) =

3 100

2 3 3 100

2 3 ⁺

4 100

1 3

= ⁶

6 + 4 ⁼ 6

10 ⁼ ^. ⁽⁸⁾

同様に_Pr(H₁_|A_{) =} ²

5^。

⊲ ∴どちらかと言えば、工場_H₁の方がアヤシイ。

⊲ 注意：上の計算の分母（全確率の定理より） Pr(A) = ³

100 2 3 ⁺

4 100

1 3 ⁼

10 300 ⁼

1

30 ⁽⁹⁾

は、製造元の工場如何に関わらず、不良品に出くわす確率。

_Remark：_Pr(A|H₁₎と_Pr(H₁_|A)の違いに注目。現在直面している予測問題（_H₁と_H₂のどちらが犯人？）は、どちらの確率を使うべき？

⊲ Pr(A|H1) = ^の中で、 ^{に出くわす確率。}

⊲ ^事後確率Pr(H₁|A_{) =} ^の中で、 ^{に出くわす確率。}^∴^{正解はコレ！}

⊲ ^{事後確率を求めずに、}^「Pr(A|H₁) < Pr(A|H₂)^だからH₂がアヤシイ！」と判断するのは誤り。_...しかし現実の生活では、この誤りを犯しがち。

ベイズ予測：ベイズの定理を応用し、「結果」_Aから「原因」_H₁、_H₂の判別を行う手法

を、と呼ぶ。

⊲ 現在、さまざまな分野で採用されている技術。

⊲ 例：問診結果から病状を予測（医療）、スパムメールのフィルタリング（_IT）。

2 _{ベイズ予測の応用}

2.1 ベイズ診断

例：患者の問診結果（頭痛の有無）から、その患者が特定の病状である確率を知りたい。

⊲ ^{可能性のある病状：}H₁ ₌^{「病状なし」}^、H₂₌^「風邪」^、H₃ ₌^{「インフルエンザ」}^{。こ} の時期の患者の平均的な病状は

Pr(H₁_{) =} ⁴

10^, ^Pr(H²^{) =} 5

10^, ^Pr(H³^{) =} 1

10^. ⁽¹⁰⁾

(4)

⊲ 過去の問診結果をまとめると、病状ごとに_A₌「頭痛」を訴える割合は Pr(A|H₁_{) =} ¹

10^, ^Pr(A|H²^{) =} 3

10^, ^Pr(A|H³^{) =} 5

10^. ⁽¹¹⁾

⊲ 今来院した患者が、頭痛を訴えている。_⇒彼が「インフルエンザ」である確率は？

ベイズ診断：_A₌「頭痛」を訴える患者が_H₁ ₌「インフルエンザ」である事後確率は、ベイズ定理₍₆₎式より

Pr(H₃|A_{) =}

5 10

1 10 1

10 4 10 ⁺

3 10

5 10⁺

5 10

1 10

= ⁵

4 + 15 + 5 ⁼ 5

24^. ⁽¹²⁾

これをと呼ぶ。患者個人の診断結果を織り込んだ、病状の確率。

⊲ 問診結果を見る前の「インフルエンザ」の確率_Pr(H₃_{) =} ¹

10 ^{より、やや大きい。}

⊲ H₁^、H₂^{の事後確率}⇒^{今回の復習問題。}

_Remark：ベイズ診断による問診の一部自動化。

⊲ ₍₁₀₎式と₍₁₁₎式の確率（割合）を求めるためのデータベースさえあれば、医学の知識が無くとも病状の診断が可能。∴医師業務の一部を補完できる可能性。

⊲ 例：オンラインで来院者に問診し、ベイズ診断により自動で問診結果を出力。

2.2 ベイジアンフィルター

日々送られる膨大な _eメール_⇒NGワードに基づき、スパムメールを自動で「ゴミ箱行き」にしたい。

⊲ 単純な方法：_NGワードを含むメールを全て削除_→問題ないメールまで削除される！

∴もっと賢い判別法が必要。

⊲ ベイジアンフィルター：代表的なメーラー（_Outlook等）やサーバーで採用されているスパム判定アルゴリズム。有害サイトのフィルタリング等にも。

例：受信メールに関し、_H₁ ₌「スパム」、_H₂ ₌「スパムでない」、_A₌「_NGワード含む」と置く。

⊲ 過去のスパムメール割合は_Pr(H₁_{) =} ¹

10 ^（^∴^{スパムでない割合は}^Pr(H²^{) =} 9 10^）^。

⊲ NG^{ワードを含む割合は、}H₁^、H₂^それぞれPr(A|H₁_{) =} ⁴₅^、Pr(A|H₂_{) =} ²₅^。

⊲ ^{今受信したメールに、}NG^{ワード有り。}⇒このメールがスパムである確率は？

ベイジアンフィルター：あらかじめ許容水準を_p^∗と設定。「_NGワード」_Aが判明した下での「スパム」_H₁の事後確率_Pr(H₁_|A)をベイズ定理₍₆₎式で求め、

判定ルール： _⇒ 「スパム」 ₍₁₃₎

とする。この方式を（Bayesian filter^{）と呼ぶ。}

⊲ メーラーの「フィルタリングの強さ」の設定は、実は_p^∗の値を調節するためのもの。

⊲ p^∗_{= 0 ⇒NG}ワード入りの受信メールを（スパムの如何に関わらず）問答無用て削除。

(5)

例：許容水準を _p^∗₌ ⁹

10 と設定。上の数値例をベイズの定理₍₆₎式に代入すれば

Pr(H₁|A_{) =}

4 5 1 10 4 5

1 10⁺

2 5

9 10

= ⁴

4 + 18 ⁼ ^. ⁽¹⁴⁾

⊲ ^{許容率と比較}→Pr(H1^|A) = ₁₁² ^< ₁₀⁹^。^∴このメールは「スパムでない」と判断。

2.3 ベイズ更新：自ら「学習」する確率

例（前節のベイジアンフィルター）：今届いた_NGワード入りメールがスパムである事後確率_Pr(H₁_|A_{) =} ²

11、スパムでない事後確率_Pr(H₂_|A_{) =} ⁹

11^。

⊲ ^{次に受信したメールも}NG^{ワード入り}⇒このメールの事後確率を、どう求めるか？

⊲ せっかくなので、古い事前確率_Pr(H₁_{) =} ¹

10^、^Pr(H²^{) =} 9

10を今求めた事後確率に置き換え、改めて₍₆₎式でベイズ予測。

⎧⎪

⎪⎪

⎨

⎪⎪

⎪⎩

Pr(H1) = ₁₀¹ ^−−−→^更新 ^Pr(H1) = ₁₁² Pr(H₂_{) =} ₁₀⁹ −−−→^更新 Pr(H₂_{) =} ₁₁⁹

⇒ Pr(H₁|A,^更新_{) =} ¹

4^, ^Pr(H²^|A,^更新^{) =} 3

4

次のベイズ予測

.

(15)

ベイズ更新：上の方式で更新されたベイズ予測の事後確率は、過去に二回_NGワードが来

たこと（_{A ∩ A}）を踏まえた事後確率と等しい。

, . (16)

これをベイズ更新（Bayesian updating）と呼ぶ。学習アルゴリズムの一種。

⊲ ^事前確率Pr(H₁)^、Pr(H₂)の初期値がイイカゲンでも、フィルタリングと学習を繰り返していくうちに。ユーザーが細かい設定をするより、はるかに簡単。

⊲ 新しく使い始めたメーラーが、ユーザーの意図に合わない取捨選択をするのは、学習が未熟なため。

_Remark：ベイズ予測が注目される理由。

1. データのリアルタイムな変化を、予測に取り入れるのが容易。_⇒

を迫られる作業（病状の判別、スパムメールの判別、_etc.）と、非常に相性が良い。 2. 経験を積み、徐々に確率を修正するプロセスが、人間臭い_⇒より。

まとめと復習問題

今回のまとめ

ベイズの定理：「結果」_Aの下での、「原因」_H₁、_H₂の事後確率を算出。

ベイズ予測の応用。

(6)

復習問題

出席確認用紙に解答し（用紙裏面を用いても良い）、退出時に提出せよ。 1. (12)^{式に従い、}H₁^とH₂^{の事後確率}Pr(H₁|A)^、Pr(H₂|A)^{を求めよ。}

2. ある小学校には、二つのクラス_H₁、_H₂がある。_A ₌「学校の窓ガラスを割る」と置く。次の問題では_Pr(A|H₁₎と_Pr(H₁_|A)、どちらを参照すべきか？また、それはどうしてか？

(a) 「学校の窓ガラスが割れていた。割ったのはどちらのクラスか？」 (b) 「花瓶を飾るなら、どちらのクラスが安全か？」

ベイズ予測とその応用 経済統計 鹿野研究室