• 検索結果がありません。

ベイズ予測とその応用 経済統計 鹿野研究室

N/A
N/A
Protected

Academic year: 2018

シェア "ベイズ予測とその応用 経済統計 鹿野研究室"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

担当:鹿野(大阪府立大学)

2012 年度前期

はじめに

前回の復習

 加法定理。

 条件付き確率(乗法定理)事象の独立性。

今回学ぶこと

 ベイズの定理。

 ベイズ予測の応用例。

 テキスト該当箇所 :4.5章。松原望(2008)『入門ベイズ統計』 も参照。

1 ベイズの定理

1.1 準備:全確率の定理

 標本空間の分割 (図1):標本空間が、二つの互いに排反な事象H1H2にちょうど二 分割されるとする。H1H2の確率を標本点の数で表すと (全体= N

Pr(H1) = RH1

N , Pr(H2) = RH2

N . (1)

このとき適当な事象 A ⊂は、H1H2 ⇒ H1H2のもとでのA の条件付き確率を標本点の数で表すと (講義ノート#05

Pr(A|H1) = RA∩H1

RH1 , Pr(A|H2) = RA∩H2

RH2 . (2)

⊲ (1)式、(2)式にある確率から、 条件なしの確率Pr(A)を復元するには?

 全確率の定理:上の事象Aの確率は、次式で与えられる。

Pr(A) = Pr(A|H1) Pr(H1) + Pr(A|H2) Pr(H2) (3)

これを と呼ぶ。

1

(2)

ǡ

A

H

1

H

2

AъH

1

AъH

2

1: H1H2による標本空間の分割と、事象A

⊲ ∴Pr(A)は、二つの条件付き確率Pr(A|H1)Pr(A|H2)の 。Pr(H1)Pr(H2) は各条件付き確率の重要度。

⊲ 証明:図1から、Aに該当の標本点の数は

RA= . (4)

また(3)式左辺に(1)式、(2)式の表現を全て代入すると (3)式左辺= RA∩H1

RH1

RH1

N + RH2

N RA∩H2

RH2 =

RA∩H1

N +

RA∩H2

N =

RA∩H1+ RA∩H2

N = .

(5)

これはAの確率Pr(A) =

RA

N に他ならない。(3)式が成立。

1.2 ベイズの定理: 「結果」から「原因」を予測

 例:二つの工場H1H2から部品を調達している製造企業。 部品が不良品であることを

Aと置く。

⊲ 部品に占める各工場の割合はPr(H1) = 2

3Pr(H2) = 1 3

⊲ 過去の実績によれば、各工場について不良品の割合はPr(A|H1) = 3

100Pr(A|H2) = 4 100

「あっ、不良品だ!」この不良品が工場H1から来た確率Pr(H1|A)は?

 Remark:上の例で、Aは「 (不良品)」、H1H2はその「 (製造元の工

場)」と解釈できる。

このときPr(H1)を、H1 と呼ぶ。「結果」Aを見る前の、「原因」H1 の確率。

一方Pr(H1|A)を、H1 と呼ぶ。「結果」Aを見た後の、「原因」H1 確率。

⊲ H2についても同様。

(3)

 ベイズの定理:Aに基づくH1の事後確率は、 次式で与えられる。 Pr(H1|A) = Pr(A|H1) Pr(H1)

Pr(A|H1) Pr(H1) + Pr(A|H2) Pr(H2). (6)

これを と呼ぶ。Pr(H2|A)も同様に計算可能。

⊲ 証明:乗法定理(講義ノート#05)よりPr(A ∩ H1) = 。これと全確 率の定理(3)式を、条件付き確率の定義の分子 ・分母に代入すれば

Pr(H1|A) = Pr(A ∩ H1) Pr(A) =

Pr(A|H1) Pr(H1)

Pr(A|H1) Pr(H1) + Pr(A|H2) Pr(H2). (7)

 例:不良品がH1から来た確率は?ベイズの定理を使うと Pr(H1|A) =

3 100

2 3 3 100

2 3 +

4 100

1 3

= 6

6 + 4 = 6

10 = . (8)

同様にPr(H1|A) = 2

5

⊲ ∴どちらかと言えば、 工場H1の方がアヤシイ。

⊲ 注意:上の計算の分母(全確率の定理より) Pr(A) = 3

100 2 3 +

4 100

1 3 =

10 300 =

1

30 (9)

は、製造元の工場如何に関わらず、 不良品に出くわす確率。

 RemarkPr(A|H1)Pr(H1|A)の違いに注目。現在直面している予測問題(H1H2のど ちらが犯人?)は、どちらの確率を使うべき ?

⊲ Pr(A|H1) = の中で、 に出くわす確率。

事後確率Pr(H1|A) = の中で、 に出くわす確率。正解はコレ!

事後確率を求めずに、Pr(A|H1) < Pr(A|H2)だからH2がアヤシイ!」と判断するの は誤り。...しかし現実の生活では、 この誤りを犯しがち。

 ベイズ予測:ベイズの定理を応用し、「結果」Aから「原因」H1H2の判別を行う手法

を、 と呼ぶ。

⊲ 現在、さまざまな分野で採用されている技術。

⊲ 例:問診結果から病状を予測 (医療)、スパムメールのフィルタリング (IT)。

2 ベイズ予測の応用

2.1 ベイズ診断

 例:患者の問診結果(頭痛の有無)から、その患者が特定の病状である確率を知りたい。

可能性のある病状 :H1 =「病状なし」H2=「風邪」H3 =「インフルエンザ」。 こ の時期の患者の平均的な病状は

Pr(H1) = 4

10, Pr(H2) = 5

10, Pr(H3) = 1

10. (10)

(4)

⊲ 過去の問診結果をまとめると、 病状ごとにA=「頭痛」を訴える割合は Pr(A|H1) = 1

10, Pr(A|H2) = 3

10, Pr(A|H3) = 5

10. (11)

⊲ 今来院した患者が、 頭痛を訴えている。彼が「インフルエンザ」 である確率は?

 ベイズ診断:A=「頭痛」を訴える患者がH1 =「インフルエンザ」である事後確率は、ベ イズ定理(6)式より

Pr(H3|A) =

5 10

1 10 1

10 4 10 +

3 10

5 10+

5 10

1 10

= 5

4 + 15 + 5 = 5

24. (12)

これを と呼ぶ。患者個人の診断結果を織り込んだ、 病状の確率。

⊲ 問診結果を見る前の 「インフルエンザ」 の確率Pr(H3) = 1

10 より、やや大きい。

⊲ H1H2の事後確率今回の復習問題。

 Remark:ベイズ診断による問診の一部自動化。

(10)式と(11)式の確率(割合)を求めるためのデータベースさえあれば、 医学の知 識が無くとも病状の診断が可能。∴医師業務の一部を補完できる可能性。

⊲ 例:オンラインで来院者に問診し、 ベイズ診断により自動で問診結果を出力。

2.2 ベイジアンフィルター

 日々送られる膨大な eメール⇒NGワードに基づき、 スパムメールを自動で 「ゴミ箱行 き」にしたい。

⊲ 単純な方法:NGワードを含むメールを全て削除問題ないメールまで削除される!

∴もっと賢い判別法が必要。

⊲ ベイジアンフィルター:代表的なメーラー(Outlook等)やサーバーで採用されてい るスパム判定アルゴリズム。 有害サイトのフィルタリング等にも。

 例:受信メールに関し、H1 =「スパム」、H2 =「スパムでない」、A=NGワード含む」 と置く。

⊲ 過去のスパムメール割合はPr(H1) = 1

10 スパムでない割合はPr(H2) = 9 10

⊲ NGワードを含む割合は、H1H2それぞれPr(A|H1) = 45Pr(A|H2) = 25

今受信したメールに、NGワード有り。⇒このメールがスパムである確率は ?

 ベイジアンフィルター:あらかじめ許容水準をpと設定。「NGワード」Aが判明した下 での「スパム」H1の事後確率Pr(H1|A)をベイズ定理(6)式で求め、

判定ルール: 「スパム」 (13)

とする。この方式を (Bayesian filter)と呼ぶ。

⊲ メーラーの「フィルタリングの強さ」の設定は、実はpの値を調節するためのもの。

⊲ p= 0 ⇒NGワード入りの受信メールを(スパムの如何に関わらず)問答無用て削除。

(5)

 例:許容水準を p= 9

10 と設定。上の数値例をベイズの定理(6)式に代入すれば

Pr(H1|A) =

4 5 1 10 4 5

1 10+

2 5

9 10

= 4

4 + 18 = . (14)

許容率と比較→Pr(H1|A) = 112 < 109このメールは「スパムでない」 と判断。

2.3 ベイズ更新:自ら「学習」する確率

 例(前節のベイジアンフィルター):今届いたNGワード入りメールがスパムである事後 確率Pr(H1|A) = 2

11、スパムでない事後確率Pr(H2|A) = 9

11

次に受信したメールもNGワード入り⇒このメールの事後確率を、 どう求めるか?

⊲ せっかくなので、古い事前確率Pr(H1) = 1

10Pr(H2) = 9

10を今求めた事後確率に置き 換え、改めて(6)式でベイズ予測。

⎧⎪

⎪⎪

⎪⎪

⎪⎩

Pr(H1) = 101 −−−→更新 Pr(H1) = 112 Pr(H2) = 109 −−−→更新 Pr(H2) = 119

⇒ Pr(H1|A,更新) = 1

4, Pr(H2|A,更新) = 3

 4

次のベイズ予測

.

(15)

 ベイズ更新:上の方式で更新されたベイズ予測の事後確率は、過去に二回NGワードが来

たこと(A ∩ A)を踏まえた事後確率と等しい。

, . (16)

これをベイズ更新 (Bayesian updating)と呼ぶ。学習アルゴリズムの一種。

事前確率Pr(H1)Pr(H2)の初期値がイイカゲンでも、フィルタリングと学習を繰り返 していくうちに 。ユーザーが細かい設定をするより、はるかに簡単。

⊲ 新しく使い始めたメーラーが、 ユーザーの意図に合わない取捨選択をするのは、 学 習が未熟なため。

 Remark:ベイズ予測が注目される理由。

1. データのリアルタイムな変化を、予測に取り入れるのが容易。

を迫られる作業(病状の判別、 スパムメールの判別、etc.)と、非常に相性が良い。 2. 経験を積み、徐々に確率を修正するプロセスが、 人間臭いより 。

まとめと復習問題

今回のまとめ

 ベイズの定理:「結果」Aの下での、「原因」H1H2の事後確率を算出。

 ベイズ予測の応用。

(6)

復習問題

出席確認用紙に解答し (用紙裏面を用いても良い)、 退出時に提出せよ。 1. (12)式に従い、H1H2の事後確率Pr(H1|A)Pr(H2|A)を求めよ。

2. ある小学校には、 二つのクラスH1H2がある。A =「学校の窓ガラスを割る」 と置く。 次の問題ではPr(A|H1)Pr(H1|A)、どちらを参照すべきか ?また、それはどうしてか ?

(a) 「学校の窓ガラスが割れていた。 割ったのはどちらのクラスか ?」 (b) 「花瓶を飾るなら、 どちらのクラスが安全か ?」

図 1: H 1 、 H 2 による標本空間 Ω の分割と、事象 A

参照

関連したドキュメント

また IFRS におけるのれんは、IFRS3 の付録 A で「企業結合で取得した、個別に識別さ

「分離の壁」論と呼ばれる理解と,関連する判 例における具体的な事案の判断について分析す る。次に, Everson 判決から Lemon

るのが判例であるから、裁判上、組織再編の条件(対価)の不当を争うことは

(1)経済特別区による法の継受戦略

て﹁性質に基づく区別﹂と﹁用法に基づく区別﹂を分類し︑そ

自ら将来の課題を探究し,その課題に対して 幅広い視野から柔軟かつ総合的に判断を下す 能力 (課題探究能力)

(注妬)精神分裂病の特有の経過型で、病勢憎悪、病勢推進と訳されている。つまり多くの場合、分裂病の経過は病が完全に治癒せずして、病状が悪化するため、この用語が用いられている。(参考『新版精神医

◼ 自社で営む事業が複数ある場合は、経済的指標 (※1) や区分計測 (※2)