• 検索結果がありません。

不偏推定量

N/A
N/A
Protected

Academic year: 2021

シェア "不偏推定量"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)

不偏推定量

情報科学の補足資料

2018年6月27日 藤本祥二

(2)

統計的推定(statistical estimation)

• 確率分布が理論的に分かっている標本統計量

を利用する

• 確率分布の期待値の値をそのまま推定値とする

のが点推定(信頼度0%)

• 点推定に±で幅を持たせて信頼度を上げたもの

が区間推定

◦ 持たせた幅のことを誤差(error)と呼ぶ

• 信頼度(confidence level)とは推定が当たる確率

◦ 大きい方が良いが100%にすることは不可能

◦ 伝統的には68%, 95%, 99% が良く使われる

◦ 品質管理の分野では 99.99966% を目標としている

100万回のうち3,4回しか間違えない(シックスシグマと呼ばれてる)

(3)

不偏推定量

• 標本を使った統計量で、その統計量の確率分布の期待値 が母数(母平均,母分散,等)になるものを不偏推定量と 呼ぶ • 点推定には不偏推定量を使う • 標本平均を表す確率変数を ത𝑋とすると ത 𝑋 = 1 𝑛 ෍ 𝑖=1 𝑛 𝑋𝑖 • ത𝑋の分布の期待値𝐸 ത𝑋 は母平均𝑚になる (中心極限定理) 𝐸 ത𝑋 = 𝑚 • 母平均𝑚の不偏推定量は標本平均 ത𝑋である 母平均𝑚の点推定には標本平均 ҧ𝑥の値を使えばよい

(4)

母分散の不偏推定量

• 母分散

𝜎

2

の不偏推定量はどのような統計量か?

• 標本𝑋

𝑖

と母平均

𝑚の偏差2乗の平均

1 𝑛 ෍ 𝑖=1 𝑛 𝑋𝑖 − 𝑚 2

が母分散の不偏推定量

• 上記統計量の分布の期待値が母分散になる

𝐸 1 𝑛 ෍ 𝑖=1 𝑛 𝑋𝑖 − 𝑚 2 = 𝜎2 • 母平均𝑚は全数調査しないと分からない量 • 𝑚の値が分からない状況で𝜎2を推定したい • 母平均𝑚から標本平均 ത𝑋に変更したらどうなる?

(5)

母平均と標本平均の偏差の違い

母集団 𝑚 サンプリング1回目 ത 𝑋 𝑋1 𝑋2 𝑋4 𝑋3 サンプリング2回目 ത 𝑋 分散の不偏推定量を求めるには母平均からの偏差(赤矢印)の2乗平均を使う必要がある. 𝑚の値は全数調査しないと分からない、仕方がないので標本平均からの偏差(青矢印)に変更 青矢印を使うと赤矢印より小さな値に偏ってしまう、偏りをなくした不偏な値に補正が必要. サンプリングを無限回やったとして偏差2乗平均の分布の期待値を調べる 𝑋𝑖 − 𝑚 𝑋𝑖 − ത𝑋

(6)

標本分散(不偏分散)

• 母分散の不偏推定量 𝐸 1 𝑛 ෍ 𝑖=1 𝑛 𝑋𝑖 − 𝑚 2 = 𝜎2 • 母平均𝑚ではなく標本平均𝑋തに変えると1/𝑛の部分を1/(𝑛 − 1)に 変えなければならない 𝐸 1 𝑛 − 1෍ 𝑖=1 𝑛 𝑋𝑖 − 𝑋ത 2 = 𝜎2 • 次の量を標本分散(不偏分散)という 𝑠2 = 1 𝑛 − 1෍ 𝑖=1 𝑛 𝑋𝑖 − ത𝑋 2 • 標本数𝑛が小さいとき は1/𝑛と1/ 𝑛 − 1 の 大きさは結構違う • 𝑛が大きいときはそれ ほど違いはない • 医療統計は𝑛が小さい 場合が多い なぜ1/(𝑛 − 1)になるかの感覚的な理由は前ページのスライド (補足スライドに数学的な証明を示す)

(7)

分散を計算する関数

• VAR.P (VARP Excel2007以前のバージョン)

母集団(全数調査)分散を計算する関数

分散は英語で variance, 母集団は英語で population

𝜎

2

=

1

𝑁

𝑖=1 𝑁

𝑥

𝑖

− 𝑚

2

• VAR.S (VAR Excel2007以前のバージョン)

標本(標本調査)分散を計算する関数

標本は英語で sample

𝑠

2

=

1

𝑛 − 1

𝑖=1 𝑛

𝑥

𝑖

− ҧ𝑥

2 教科書P18に書いてあるExcel関数名は 古い2007以前のバージョンの関数名 標本調査では .S 付きの関数を 使わないと母集団の不偏推定量にならない 全数調査では .P 付きの 関数を使わないといけない 1 データ数 1 データ数− 1

(8)

標準偏差を計算する関数

• STDEV.P (STDEVP Excel2007以前のバージョン) 母集団(全数調査)標準偏差を計算する関数 標準偏差は英語で standard deviation 𝜎 = 𝜎2 = 1 𝑁 ෍ 𝑖=1 𝑁 𝑥𝑖 − 𝑚 2

• STDEV.S (STDEV Excel2007以前のバージョン) 標本(標本調査)分散を計算する関数 𝑠 = 𝑠2 = 1 𝑛 − 1 ෍ 𝑖=1 𝑛 𝑥𝑖 − ҧ𝑥 2 教科書P20に書いてあるExcel関数名は 古い2007以前のバージョンの関数名 全数調査では .P 付きの 関数を使わないといけない 標本調査では .S 付きの関数を 使わないと母集団の不偏推定量にならない

(9)

Excelのバージョンに関する注意

• Excelは発売年でバージョン番号が付けられていて細かな 仕様が違います(2003,2007,2010,2013,2016) • 関数に関してはバージョン2007以前と2010以降で大きな 仕様変更がありました • 関数の名前の付け方に統一性がなかったものが整理され て古いバージョンに比べて系統的に分かり易くなりました • 2010以降のバージョンでも互換性を保つために2007以前 の古い関数名が使える場合があります • 今後古いバージョンの関数は消えていく運命なので使わ ないようにした方が無難です • 教科書はExcel 2016/2013 対応版と表紙に書いてあります が古い2007以前の関数を使ってます(色々事情があるの でしょう)

(10)

𝑡分布(student’s t-distribution)

• 標本数が少ない時などによく使う(他にも応用例がたくさんある) • 1908年,イギリス,ギネスビール社の研究員のゴセット(studentは ペンネーム)が発見 中心極限定理 𝑛が大きいとき,次の統計量

𝑋 − 𝑚

𝜎

𝑛

は標準正規分布に従う 𝑛が小さくても,正規母集団 のとき,次の統計量

𝑋 − 𝑚

𝑠

𝑛

は自由度𝑓 = 𝑛 − 1の𝑡分布 に従う

(11)

𝑡分布の形

𝑡分布の確率密度関数

• 自由度が変わると形

が変わる

◦ 自由度が小さい時 ▪ 中心の確率低い ▪ 裾の確率が高い ◦ 自由度が大きくなるに したがって標準正規分 布に近づいていく ▪ 理論的には自由度∞ で標準正規分布に一 致する ▪ 実用的には自由度30 くらいで殆ど見分けが つかない

(12)

自由度について

• 自由度(degree of freedom)

ある統計量を決めるために必要な確率変数

の数(自由に動かせる確率変数の数)

• 自由度

𝑛 の統計量

𝑋

1

+ 𝑋

2

+ ⋯ + 𝑋

𝑛

• 自由度

𝑛 の統計量

𝑋

1

− 𝑚

2

+ 𝑋

2

− 𝑚

2

+ ⋯ + 𝑋

𝑛

− 𝑚

2

• 自由度

𝑛 − 1 の統計量

𝑋

1

− ത

𝑋

2

+ 𝑋

2

− ത

𝑋

2

+ ⋯ + 𝑋

𝑛

− ത

𝑋

2 以降の説明が分からない時は 自由度とは「標本数引く1」だと丸暗記すること

(13)

𝑛 = 2の場合

• 次の統計量の自由度を調べてみる

𝑋

1

− ത

𝑋

2

+ 𝑋

2

− ത

𝑋

2

• ത

𝑋 = 𝑋

1

+ 𝑋

2

/2を使って式変形

𝑋

1

− ത

𝑋 = 𝑋

1

𝑋

1

+ 𝑋

2

2

=

2𝑋

1

− 𝑋

1

− 𝑋

2

2

=

𝑋

1

− 𝑋

2

2

𝑋

2

− ത

𝑋 = 𝑋

2

𝑋

1

+ 𝑋

2

2

=

2𝑋

2

− 𝑋

1

− 𝑋

2

2

=

𝑋

2

− 𝑋

1

2

1 2

𝑋

1

− 𝑋

2

= 𝑌

1

を使うと次の式が確かめられる

𝑋

1

− ത

𝑋

2

+ 𝑋

2

− ത

𝑋

2

= 𝑌

12

• 自由に動かせる変数は𝑌

1

の1つであることが確かめら

れた

標本数𝑛 = 2の時,確率変数は𝑋1, 𝑋2の2個に見えるが 標本分散𝑠2や標本標準偏差𝑠の計算では𝑌1の1個しかない

(14)

𝑛 = 3の場合 • ത𝑋 = 𝑋1 + 𝑋2 + 𝑋3 /3を使うと 𝑋1 − ത𝑋 2 + 𝑋2 − ത𝑋 2 + 𝑋3 − ത𝑋 2 = 2 3 𝑋12 + 𝑋22 + 𝑋32 − 𝑋1𝑋2 − 𝑋2𝑋3 − 𝑋3𝑋1 = 𝑌12 + 𝑌22 • 最後の等式で以下の置き換えを行った(代入して展開す れば確かめられる) 𝑌1 = 1 2 𝑋1 − 𝑋2 , 𝑌2 = 1 6 𝑋1 + 𝑋2 − 2𝑋3 • 自由に動かせる変数は𝑌1と𝑌2の2つであることが確かめら れた 標本数𝑛 = 3の時,確率変数は𝑋1, 𝑋2, 𝑋3の3個に見えるが 標本分散𝑠2や標本標準偏差𝑠の計算では𝑌1, 𝑌2の2個しかない

(15)

一般の

𝑛の場合

• ത

𝑋 = σ

𝑖=1𝑛

𝑋

𝑖

/𝑛を使うと次の式が成り立つことが

確認できる

𝑖=1 𝑛

𝑋

𝑖

− ത

𝑋

2

= ෍

𝑗=1 𝑛−1

𝑌

𝑗2

• 計算途中で以下の置き換えを行った

𝑌

𝑗

=

1

𝑗 𝑗 + 1

𝑘=1

𝑗

𝑋

𝑘

− 𝑗𝑋

𝑗

𝑌

𝑗

𝑛 − 1 個の変数なので自由度は 𝑛 − 1 であ

標本数𝑛の時,確率変数は𝑛個に見えるが 標本分散𝑠2や標本標準偏差𝑠の計算では𝑛 − 1 個しかない 𝑛個に見えるが 𝑛 − 1個の確率変数で 書き換え可能

(16)

𝑡分布に関するEXCEL関数

(入力)𝑡, 𝑓 ⇒ 𝑝(出力)

T.DIST 𝑡, 𝑓, TRUE

第1引数:𝑡の値 第2引数:自由度𝑓の値 第3引数:TRUEなら累積確率を出力 FALSEなら確率密度を出力 (入力)𝑝, 𝑓 ⇒ 𝑡(出力)

T.INV 𝑝, 𝑓

第1引数:𝑝の値 第2引数:自由度𝑓の値

注意:ドットなしの TINV はExcel ver 2007 以前の古いバージョンの関数です。 ここでのドットありの関数とは使い方が全然違います。 教科書ではP140などで使ってますが、今後消えていく関数なので使わないようにしましょう。 𝑡 𝑡分布は自由度で形が変わるので 自由度の情報も関数に与える必要がある 自由度𝑓の 𝑡分布

(17)
(18)

ある地域の成人男性の平均身長を調べるために5人を無作為抽出 して標本調査を行ったところ、{167.0, 157.2, 172.4, 182.7, 182.0} cm であった。この地域の成人男性の身長の分布は正規分布に従うとし て、この地域の成人男性の身長を95%の信頼度で区間推定せよ。 サンプルサイズ𝑛[人],標本平均 ҧ𝑥[cm],標本標準偏差𝑠[cm]を整理する。 𝑛 = 5, ҧ𝑥 = 172.26, 𝑠 = 10.705 信頼度95%自由度4の𝑡値はExcel関数T.INV(0.975,4) 又はT.INV(0.025,4) で 調べることができて、𝑡値は 2.777 である。 信頼度95%の推定区間は次の式になる。 ҧ𝑥 − 2.777 ∙ 𝑠 𝑛 ≤ 𝑚 ≤ ҧ𝑥 + 2.777 ∙ 𝑠 𝑛 誤差部分を計算すると次の値になる。 2.777 ∙ 𝑠 𝑛 = 2.777 ∙ 10.705 5 ≒ 13.29 [点推定]±[誤差]の形式で信頼度95%の推定区間を答えると次のようになる。 𝑚 = 172.26 ± 13.29 信頼度95%の推定区間は次の区間である。 158.97 ≤ 𝑚 ≤ 185.55 −2.777 ≤ ҧ𝑥 − 𝑚𝑠 𝑛 ≤ 2.777 変形して導出

参照

関連したドキュメント

phate glass dosemeter, radiophoto-luminescence natural radiation monitoring.. zawa University; Wake, Tatsunokuchi-machi, Ishikawa

Chadwick: "The detection of cyclobutane thymine dimers, (6-4) photolesions and the Dewar photoisomers in sections of UV- irradiated human skin using specific antibodies, and

 総テノ試験管(内容)ガ脱色シ去りタル場合ニ ハ被槍血糖量ハ200mg%ヲ超工,逆二其ノ何レ

症状 推定原因 処置.

[r]

本論文での分析は、叙述関係の Subject であれば、 Predicate に対して分配される ことが可能というものである。そして o

This paper proposes that the two-way interpretation of an indet-mo shown in (88) results from the two structural positions that an indet-mo can occur in: an indet-mo itself

32 Ono [1999:314]: “But inasmuch as the sattv¯anum¯ana is established, we could say that for the later Dharmak¯ırti there is no actual reason to classify ‘audibility’ with