担当:鹿野(大阪府立大学)
2012 年度前期
はじめに
前回の復習
加法定理。
条件付き確率(乗法定理)⇒事象の独立性。
今回学ぶこと
ベイズの定理。
ベイズ予測の応用例。
テキスト該当箇所 :4.5章。松原望(2008)『入門ベイズ統計』 も参照。
1 ベイズの定理
1.1 準備:全確率の定理
標本空間の分割 (図1):標本空間Ωが、二つの互いに排反な事象H1、H2にちょうど二 分割されるとする。H1、H2の確率を標本点の数で表すと (全体= N)
Pr(H1) = RH1
N , Pr(H2) = RH2
N . (1)
⊲ このとき適当な事象 A ⊂Ωは、H1とH2に 。⇒ H1、H2のもとでのA の条件付き確率を標本点の数で表すと (講義ノート#05)
Pr(A|H1) = RA∩H1
RH1 , Pr(A|H2) = RA∩H2
RH2 . (2)
⊲ (1)式、(2)式にある確率から、 条件なしの確率Pr(A)を復元するには?
全確率の定理:Ω上の事象Aの確率は、次式で与えられる。
Pr(A) = Pr(A|H1) Pr(H1) + Pr(A|H2) Pr(H2) (3)
これを と呼ぶ。
1
ǡ
A
H
1H
2AъH
1AъH
2図1: H1、H2による標本空間Ωの分割と、事象A
⊲ ∴Pr(A)は、二つの条件付き確率Pr(A|H1)、Pr(A|H2)の 。Pr(H1)、Pr(H2) は各条件付き確率の重要度。
⊲ 証明:図1から、Aに該当の標本点の数は
RA= . (4)
また(3)式左辺に(1)式、(2)式の表現を全て代入すると (3)式左辺= RA∩H1
RH1
RH1
N + RH2
N RA∩H2
RH2 =
RA∩H1
N +
RA∩H2
N =
RA∩H1+ RA∩H2
N = .
(5)
これはAの確率Pr(A) =
RA
N に他ならない。∴(3)式が成立。
1.2 ベイズの定理: 「結果」から「原因」を予測
例:二つの工場H1とH2から部品を調達している製造企業。 部品が不良品であることを
Aと置く。
⊲ 部品に占める各工場の割合はPr(H1) = 2
3、Pr(H2) = 1 3。
⊲ 過去の実績によれば、各工場について不良品の割合はPr(A|H1) = 3
100、Pr(A|H2) = 4 100。
⊲ 「あっ、不良品だ!」⇒この不良品が工場H1から来た確率Pr(H1|A)は?
Remark:上の例で、Aは「 (不良品)」、H1、H2はその「 (製造元の工
場)」と解釈できる。
⊲ このときPr(H1)を、H1の と呼ぶ。「結果」Aを見る前の、「原因」H1 の確率。
⊲ 一方Pr(H1|A)を、H1の と呼ぶ。「結果」Aを見た後の、「原因」H1の 確率。
⊲ H2についても同様。
ベイズの定理:Aに基づくH1の事後確率は、 次式で与えられる。 Pr(H1|A) = Pr(A|H1) Pr(H1)
Pr(A|H1) Pr(H1) + Pr(A|H2) Pr(H2). (6)
これを と呼ぶ。Pr(H2|A)も同様に計算可能。
⊲ 証明:乗法定理(講義ノート#05)よりPr(A ∩ H1) = 。これと全確 率の定理(3)式を、条件付き確率の定義の分子 ・分母に代入すれば
Pr(H1|A) = Pr(A ∩ H1) Pr(A) =
Pr(A|H1) Pr(H1)
Pr(A|H1) Pr(H1) + Pr(A|H2) Pr(H2). (7)
例:不良品がH1から来た確率は?⇒ベイズの定理を使うと Pr(H1|A) =
3 100
2 3 3 100
2 3 +
4 100
1 3
= 6
6 + 4 = 6
10 = . (8)
同様にPr(H1|A) = 2
5。
⊲ ∴どちらかと言えば、 工場H1の方がアヤシイ。
⊲ 注意:上の計算の分母(全確率の定理より) Pr(A) = 3
100 2 3 +
4 100
1 3 =
10 300 =
1
30 (9)
は、製造元の工場如何に関わらず、 不良品に出くわす確率。
Remark:Pr(A|H1)とPr(H1|A)の違いに注目。現在直面している予測問題(H1とH2のど ちらが犯人?)は、どちらの確率を使うべき ?
⊲ Pr(A|H1) = の中で、 に出くわす確率。
⊲ 事後確率Pr(H1|A) = の中で、 に出くわす確率。∴正解はコレ!
⊲ 事後確率を求めずに、「Pr(A|H1) < Pr(A|H2)だからH2がアヤシイ!」と判断するの は誤り。...しかし現実の生活では、 この誤りを犯しがち。
ベイズ予測:ベイズの定理を応用し、「結果」Aから「原因」H1、H2の判別を行う手法
を、 と呼ぶ。
⊲ 現在、さまざまな分野で採用されている技術。
⊲ 例:問診結果から病状を予測 (医療)、スパムメールのフィルタリング (IT)。
2 ベイズ予測の応用
2.1 ベイズ診断
例:患者の問診結果(頭痛の有無)から、その患者が特定の病状である確率を知りたい。
⊲ 可能性のある病状 :H1 =「病状なし」、H2=「風邪」、H3 =「インフルエンザ」。 こ の時期の患者の平均的な病状は
Pr(H1) = 4
10, Pr(H2) = 5
10, Pr(H3) = 1
10. (10)
⊲ 過去の問診結果をまとめると、 病状ごとにA=「頭痛」を訴える割合は Pr(A|H1) = 1
10, Pr(A|H2) = 3
10, Pr(A|H3) = 5
10. (11)
⊲ 今来院した患者が、 頭痛を訴えている。⇒彼が「インフルエンザ」 である確率は?
ベイズ診断:A=「頭痛」を訴える患者がH1 =「インフルエンザ」である事後確率は、ベ イズ定理(6)式より
Pr(H3|A) =
5 10
1 10 1
10 4 10 +
3 10
5 10+
5 10
1 10
= 5
4 + 15 + 5 = 5
24. (12)
これを と呼ぶ。患者個人の診断結果を織り込んだ、 病状の確率。
⊲ 問診結果を見る前の 「インフルエンザ」 の確率Pr(H3) = 1
10 より、やや大きい。
⊲ H1、H2の事後確率⇒今回の復習問題。
Remark:ベイズ診断による問診の一部自動化。
⊲ (10)式と(11)式の確率(割合)を求めるためのデータベースさえあれば、 医学の知 識が無くとも病状の診断が可能。∴医師業務の一部を補完できる可能性。
⊲ 例:オンラインで来院者に問診し、 ベイズ診断により自動で問診結果を出力。
2.2 ベイジアンフィルター
日々送られる膨大な eメール⇒NGワードに基づき、 スパムメールを自動で 「ゴミ箱行 き」にしたい。
⊲ 単純な方法:NGワードを含むメールを全て削除→問題ないメールまで削除される!
∴もっと賢い判別法が必要。
⊲ ベイジアンフィルター:代表的なメーラー(Outlook等)やサーバーで採用されてい るスパム判定アルゴリズム。 有害サイトのフィルタリング等にも。
例:受信メールに関し、H1 =「スパム」、H2 =「スパムでない」、A=「NGワード含む」 と置く。
⊲ 過去のスパムメール割合はPr(H1) = 1
10 (∴スパムでない割合はPr(H2) = 9 10)。
⊲ NGワードを含む割合は、H1、H2それぞれPr(A|H1) = 45、Pr(A|H2) = 25。
⊲ 今受信したメールに、NGワード有り。⇒このメールがスパムである確率は ?
ベイジアンフィルター:あらかじめ許容水準をp∗と設定。「NGワード」Aが判明した下 での「スパム」H1の事後確率Pr(H1|A)をベイズ定理(6)式で求め、
判定ルール: ⇒ 「スパム」 (13)
とする。この方式を (Bayesian filter)と呼ぶ。
⊲ メーラーの「フィルタリングの強さ」の設定は、実はp∗の値を調節するためのもの。
⊲ p∗= 0 ⇒NGワード入りの受信メールを(スパムの如何に関わらず)問答無用て削除。
例:許容水準を p∗= 9
10 と設定。上の数値例をベイズの定理(6)式に代入すれば
Pr(H1|A) =
4 5 1 10 4 5
1 10+
2 5
9 10
= 4
4 + 18 = . (14)
⊲ 許容率と比較→Pr(H1|A) = 112 < 109。∴このメールは「スパムでない」 と判断。
2.3 ベイズ更新:自ら「学習」する確率
例(前節のベイジアンフィルター):今届いたNGワード入りメールがスパムである事後 確率Pr(H1|A) = 2
11、スパムでない事後確率Pr(H2|A) = 9
11。
⊲ 次に受信したメールもNGワード入り⇒このメールの事後確率を、 どう求めるか?
⊲ せっかくなので、古い事前確率Pr(H1) = 1
10、Pr(H2) = 9
10を今求めた事後確率に置き 換え、改めて(6)式でベイズ予測。
⎧⎪
⎪⎪
⎨
⎪⎪
⎪⎩
Pr(H1) = 101 −−−→更新 Pr(H1) = 112 Pr(H2) = 109 −−−→更新 Pr(H2) = 119
⇒ Pr(H1|A,更新) = 1
4, Pr(H2|A,更新) = 3
4
次のベイズ予測
.
(15)
ベイズ更新:上の方式で更新されたベイズ予測の事後確率は、過去に二回NGワードが来
たこと(A ∩ A)を踏まえた事後確率と等しい。
, . (16)
これをベイズ更新 (Bayesian updating)と呼ぶ。学習アルゴリズムの一種。
⊲ 事前確率Pr(H1)、Pr(H2)の初期値がイイカゲンでも、フィルタリングと学習を繰り返 していくうちに 。ユーザーが細かい設定をするより、はるかに簡単。
⊲ 新しく使い始めたメーラーが、 ユーザーの意図に合わない取捨選択をするのは、 学 習が未熟なため。
Remark:ベイズ予測が注目される理由。
1. データのリアルタイムな変化を、予測に取り入れるのが容易。⇒
を迫られる作業(病状の判別、 スパムメールの判別、etc.)と、非常に相性が良い。 2. 経験を積み、徐々に確率を修正するプロセスが、 人間臭い⇒より 。
まとめと復習問題
今回のまとめ
ベイズの定理:「結果」Aの下での、「原因」H1、H2の事後確率を算出。
ベイズ予測の応用。
復習問題
出席確認用紙に解答し (用紙裏面を用いても良い)、 退出時に提出せよ。 1. (12)式に従い、H1とH2の事後確率Pr(H1|A)、Pr(H2|A)を求めよ。
2. ある小学校には、 二つのクラスH1、H2がある。A =「学校の窓ガラスを割る」 と置く。 次の問題ではPr(A|H1)とPr(H1|A)、どちらを参照すべきか ?また、それはどうしてか ?
(a) 「学校の窓ガラスが割れていた。 割ったのはどちらのクラスか ?」 (b) 「花瓶を飾るなら、 どちらのクラスが安全か ?」