不偏推定量

(1)

不偏推定量

情報科学の補足資料

2018年6月27日藤本祥二

(2)

統計的推定（statistical estimation）

• 確率分布が理論的に分かっている標本統計量

を利用する

• 確率分布の期待値の値をそのまま推定値とする

のが点推定（信頼度0%）

• 点推定に±で幅を持たせて信頼度を上げたもの

が区間推定

◦ 持たせた幅のことを誤差（error）と呼ぶ

• 信頼度（confidence level）とは推定が当たる確率

◦ 大きい方が良いが100%にすることは不可能

◦ 伝統的には68%, 95%, 99% が良く使われる

◦ 品質管理の分野では 99.99966% を目標としている

100万回のうち3,4回しか間違えない（シックスシグマと呼ばれてる）

(3)

不偏推定量

• 標本を使った統計量で、その統計量の確率分布の期待値が母数（母平均，母分散，等）になるものを不偏推定量と呼ぶ • 点推定には不偏推定量を使う • 標本平均を表す確率変数を ത𝑋とすると ത 𝑋 = 1 𝑛 ෍ 𝑖=1 𝑛 𝑋_𝑖 • ത𝑋の分布の期待値𝐸 ത𝑋 は母平均𝑚になる（中心極限定理） 𝐸 ത𝑋 = 𝑚 • 母平均𝑚の不偏推定量は標本平均 ത𝑋である母平均_{𝑚の点推定には標本平均 ҧ𝑥の値を使えばよい}

(4)

母分散の不偏推定量

• 母分散

𝜎

2

の不偏推定量はどのような統計量か？

• 標本𝑋

_𝑖

と母平均

𝑚の偏差2乗の平均

1 𝑛 ෍ 𝑖=1 𝑛 𝑋_𝑖 − 𝑚 2

が母分散の不偏推定量

• 上記統計量の分布の期待値が母分散になる

𝐸 1 𝑛 ෍ 𝑖=1 𝑛 𝑋_𝑖 − 𝑚 2 = 𝜎2 • 母平均𝑚は全数調査しないと分からない量 • 𝑚の値が分からない状況で𝜎2を推定したい • 母平均𝑚から標本平均 ത𝑋に変更したらどうなる？

(5)

母平均と標本平均の偏差の違い

母集団 𝑚 サンプリング1回目 ത 𝑋 𝑋₁ 𝑋₂ 𝑋₄ 𝑋₃ サンプリング2回目 ത 𝑋 分散の不偏推定量を求めるには母平均からの偏差（赤矢印）_{の2乗平均を使う必要がある．} 𝑚の値は全数調査しないと分からない、仕方がないので標本平均からの偏差（青矢印）に変更青矢印を使うと赤矢印より小さな値に偏ってしまう、偏りをなくした不偏な値に補正が必要．サンプリングを無限回やったとして偏差2乗平均の分布の期待値を調べる 𝑋_𝑖 − 𝑚 𝑋_𝑖 − ത𝑋

(6)

標本分散（不偏分散）

• 母分散の不偏推定量 𝐸 1 𝑛 ෍ 𝑖=1 𝑛 𝑋_𝑖 − 𝑚 2 = 𝜎2 • 母平均𝑚ではなく標本平均𝑋തに変えると1/𝑛の部分を1/(𝑛 − 1)に変えなければならない 𝐸 1 𝑛 − 1෍ 𝑖=1 𝑛 𝑋_𝑖 − 𝑋ത 2 = 𝜎2 • 次の量を標本分散（不偏分散）という 𝑠2 = 1 𝑛 − 1෍ 𝑖=1 𝑛 𝑋_𝑖 − ത𝑋 2 • 標本数𝑛が小さいときは_{1/𝑛と1/ 𝑛 − 1 の} 大きさは結構違う • 𝑛が大きいときはそれほど違いはない • 医療統計は𝑛が小さい場合が多いなぜ1/(𝑛 − 1)になるかの感覚的な理由は前ページのスライド（補足スライドに数学的な証明を示す）

(7)

分散を計算する関数

• VAR.P (VARP Excel2007以前のバージョン)

母集団（全数調査）分散を計算する関数

分散は英語で variance, 母集団は英語で population

𝜎

2

=

1 𝑁

෍

𝑖=1 𝑁

𝑥

_𝑖

− 𝑚

2

• VAR.S (VAR Excel2007以前のバージョン)

標本（標本調査）分散を計算する関数

標本は英語で sample

𝑠

2

=

1 𝑛 − 1

෍

𝑖=1 𝑛

𝑥

_𝑖

− ҧ𝑥

2 教科書P18に書いてあるExcel関数名は古い2007以前のバージョンの関数名標本調査では .S 付きの関数を使わないと母集団の不偏推定量にならない全数調査では .P 付きの関数を使わないといけない 1 データ数 1 データ数_{− 1}

(8)

標準偏差を計算する関数

• STDEV.P (STDEVP Excel2007以前のバージョン) 母集団（全数調査）標準偏差を計算する関数標準偏差は英語で standard deviation 𝜎 = 𝜎2 ₌ 1 𝑁 ෍ 𝑖=1 𝑁 𝑥_𝑖 − 𝑚 2

• STDEV.S (STDEV Excel2007以前のバージョン) 標本（標本調査）分散を計算する関数 𝑠 = 𝑠2 ₌ 1 𝑛 − 1 ෍ 𝑖=1 𝑛 𝑥_𝑖 − ҧ𝑥 2 教科書P20に書いてあるExcel関数名は古い2007以前のバージョンの関数名全数調査では .P 付きの関数を使わないといけない標本調査では .S 付きの関数を使わないと母集団の不偏推定量にならない

(9)

Excelのバージョンに関する注意

• Excelは発売年でバージョン番号が付けられていて細かな仕様が違います（2003,2007,2010,2013,2016） • 関数に関してはバージョン2007以前と2010以降で大きな仕様変更がありました • 関数の名前の付け方に統一性がなかったものが整理されて古いバージョンに比べて系統的に分かり易くなりました • 2010以降のバージョンでも互換性を保つために2007以前の古い関数名が使える場合があります • 今後古いバージョンの関数は消えていく運命なので使わないようにした方が無難です • 教科書はExcel 2016/2013 対応版と表紙に書いてありますが古い2007以前の関数を使ってます（色々事情があるのでしょう）

(10)

𝑡分布（student’s t-distribution）

• 標本数が少ない時などによく使う（他にも応用例がたくさんある） • 1908年，イギリス，ギネスビール社の研究員のゴセット_{（studentは} ペンネーム）が発見中心極限定理 𝑛が大きいとき，次の統計量

ത

𝑋 − 𝑚

𝜎

𝑛

は標準正規分布に従う 𝑛が小さくても，正規母集団のとき，次の統計量

ത

𝑋 − 𝑚

𝑠

𝑛

は自由度𝑓 = 𝑛 − 1の𝑡分布に従う

(11)

𝑡分布の形

𝑡分布の確率密度関数

• 自由度が変わると形

が変わる

◦ 自由度が小さい時 ▪ 中心の確率低い ▪ 裾の確率が高い ◦ 自由度が大きくなるにしたがって標準正規分布に近づいていく ▪ 理論的には自由度∞ で標準正規分布に一致する ▪ 実用的には自由度30 くらいで殆ど見分けがつかない

(12)

自由度について

• 自由度(degree of freedom)

ある統計量を決めるために必要な確率変数

の数（自由に動かせる確率変数の数）

• 自由度

𝑛 の統計量

𝑋

₁

+ 𝑋

₂

+ ⋯ + 𝑋

_𝑛

• 自由度

𝑛 の統計量

𝑋

₁

− 𝑚

2

+ 𝑋

₂

− 𝑚

2

+ ⋯ + 𝑋

_𝑛

− 𝑚

2

• 自由度

𝑛 − 1 の統計量

𝑋

₁

− ത

𝑋

2

+ 𝑋

₂

− ത

𝑋

2

+ ⋯ + 𝑋

_𝑛

− ത

𝑋

2 以降の説明が分からない時は自由度とは「標本数引く1」だと丸暗記すること

(13)

𝑛 = 2の場合

• 次の統計量の自由度を調べてみる

𝑋

₁

− ത

𝑋

2

+ 𝑋

₂

− ത

𝑋

2

• ത

𝑋 = 𝑋

₁

+ 𝑋

₂

/2を使って式変形

𝑋

₁

− ത

𝑋 = 𝑋

₁

−

𝑋

1

+ 𝑋

2

2 =

2𝑋

₁

− 𝑋

₁

− 𝑋

₂

2 =

𝑋

₁

− 𝑋

₂

2 𝑋

₂

− ത

𝑋 = 𝑋

₂

−

𝑋

1

+ 𝑋

2

2 =

2𝑋

₂

− 𝑋

₁

− 𝑋

₂

2 =

𝑋

₂

− 𝑋

₁

2

•

1 2

𝑋

1

− 𝑋

2

= 𝑌

1

を使うと次の式が確かめられる

𝑋

₁

− ത

𝑋

2

+ 𝑋

₂

− ത

𝑋

2

= 𝑌

₁2

• 自由に動かせる変数は𝑌

₁

の1つであることが確かめら

れた

標本数_{𝑛 = 2の時，確率変数は𝑋}₁_{, 𝑋}₂_{の2個に見えるが} 標本分散𝑠2や標本標準偏差𝑠の計算では𝑌₁_{の1個しかない}

(14)

𝑛 = 3の場合 • ത𝑋 = 𝑋₁ + 𝑋₂ + 𝑋₃ /3を使うと 𝑋₁ − ത𝑋 2 + 𝑋₂ − ത𝑋 2 + 𝑋₃ − ത𝑋 2 = 2 3 𝑋12 + 𝑋22 + 𝑋32 − 𝑋1𝑋2 − 𝑋2𝑋3 − 𝑋3𝑋1 = 𝑌12 + 𝑌22 • 最後の等式で以下の置き換えを行った（代入して展開すれば確かめられる） 𝑌₁ = 1 2 𝑋1 − 𝑋2 , 𝑌2 = 1 6 𝑋1 + 𝑋2 − 2𝑋3 • 自由に動かせる変数は𝑌₁と𝑌₂_{の2つであることが確かめら} れた標本数_{𝑛 = 3の時，確率変数は𝑋}₁_{, 𝑋}₂_{, 𝑋}₃_{の3個に見えるが} 標本分散𝑠2や標本標準偏差𝑠の計算では𝑌₁, 𝑌₂_{の2個しかない}

(15)

一般の

𝑛の場合

• ത

𝑋 = σ

_𝑖=1𝑛

𝑋

_𝑖

/𝑛を使うと次の式が成り立つことが

確認できる

෍

𝑖=1 𝑛

𝑋

_𝑖

− ത

𝑋

2

= ෍

𝑗=1 𝑛−1

𝑌

_𝑗2

• 計算途中で以下の置き換えを行った

𝑌

_𝑗

=

1 𝑗 𝑗 + 1

_𝑘=1

෍

𝑗

𝑋

_𝑘

− 𝑗𝑋

_𝑗

• 𝑌

_𝑗

は

𝑛 − 1 個の変数なので自由度は 𝑛 − 1 であ

る

標本数_{𝑛の時，確率変数は𝑛個に見えるが} 標本分散𝑠2や標本標準偏差𝑠の計算では𝑛 − 1 個しかない 𝑛個に見えるが 𝑛 − 1個の確率変数で書き換え可能

(16)

𝑡分布に関するEXCEL関数

（入力）𝑡, 𝑓 ⇒ 𝑝（出力）

T.DIST 𝑡, 𝑓, TRUE

第1引数：𝑡の値第2引数：自由度𝑓の値第3引数：TRUEなら累積確率を出力 FALSEなら確率密度を出力（入力）𝑝, 𝑓 ⇒ 𝑡（出力）

T.INV 𝑝, 𝑓

第1引数：𝑝の値第2引数：自由度𝑓の値

注意：ドットなしの TINV はExcel ver 2007 以前の古いバージョンの関数です。ここでのドットありの関数とは使い方が全然違います。教科書ではP140などで使ってますが、今後消えていく関数なので使わないようにしましょう。 𝑡 𝑡分布は自由度で形が変わるので自由度の情報も関数に与える必要がある自由度𝑓の 𝑡分布

(17)

(18)

ある地域の成人男性の平均身長を調べるために5人を無作為抽出して標本調査を行ったところ、{167.0, 157.2, 172.4, 182.7, 182.0} cm であった。この地域の成人男性の身長の分布は正規分布に従うとして、この地域の成人男性の身長を95%の信頼度で区間推定せよ。サンプルサイズ𝑛[人]，標本平均 ҧ𝑥[cm]，標本標準偏差𝑠[cm]を整理する。 𝑛 = 5, ҧ𝑥 = 172.26, 𝑠 = 10.705 信頼度95%自由度4の𝑡値はExcel関数T.INV(0.975,4) 又はT.INV(0.025,4) で調べることができて、𝑡値は 2.777 である。信頼度95%の推定区間は次の式になる。 ҧ𝑥 − 2.777 ∙ 𝑠 𝑛 ≤ 𝑚 ≤ ҧ𝑥 + 2.777 ∙ 𝑠 𝑛 誤差部分を計算すると次の値になる。 2.777 ∙ 𝑠 𝑛 = 2.777 ∙ 10.705 5 ≒ 13.29 [点推定]±[誤差]の形式で信頼度95%の推定区間を答えると次のようになる。 𝑚 = 172.26 ± 13.29 信頼度95%の推定区間は次の区間である。 158.97 ≤ 𝑚 ≤ 185.55 −2.777 ≤ ҧ𝑥 − 𝑚_𝑠 𝑛 ≤ 2.777 変形して導出