Classes Yutaka Matsuno's Homepage 20160527

(1)

応用統計第 ₆ 回

記述統計 ₍₅₎ 正規分布

応用情報工学科

准教授松野裕

matsuno.yutaka@nihon-u.ac.jp

2016 ^年 5 ^月 27 ^日

前回の講義と演習について

クラメールの連関係数は₀から₁の値を取る。

• 1をとるときは、男女で全く傾向が異なる場合であり、例えば下図のような場合である。

!" #$ %

& ' (' ('

) (' ' ('

% (' (' *'

図1 クラメールの連関係数が1になる場合

• 0をとるときは、男女で全く傾向が同じ場合であり、例えば下図のような場合である。

!" #$ %

& ' ( )*

+ ' ( )*

% ), - ,*

図2 クラメールの連関係数が0になる場合

問題_4-2で、回帰式がy = 6.25x − 90となったが、これは例えば気温が₁₀度だと、ビール売上本数がマイナスになる。これは、データ数が₃と少ないためである。

1

(2)

1 ^{確率変数と確率分布}

サイコロの目のように、それがとる各値に対しそれぞれ確率が与えられている変数を確率変数_(random

variable)^{という。確率変数は、}X のように大文字を用いて表す。正しいサイコロなら、

P (X = 1) = ¹

6, P (X = 2) = ¹

6, . . . , P (X = 6) = ¹ 6 であるが、一般的には、

P (X = 1) = p1, . . . , P (X = 6) = p6

である。ここで_p₁_{≥ 0, p}₂≥ 0, . . . , p6≥ 0, p1+ p2+ · · · + p6= 1である。一般に可算集合_{x₁_{, x}₂_{, . . . }}の中の値をとる確率変数_Xは離散型 discrete typeといわれ、それぞれの値の確率

P (X = x^k) = f (x^k) (k = 1, 2, . . . )

を_Xの確率分布 probability distribution^という。f ^は、f (x^k) ≥ 0 (k = 1, 2, . . . )^かつ^∑^∞^k=1^{f (x}^k^{) = 1}

の条件を満たす。この_f を離散型の確率分布 p.d. of discrete typeという。確率分布は確率の「重み」の分布の様子を表している。_{f (x}k)^のxkは、単に_xと書くこともある。

10,000^{人が受けた}100点満点のテスト結果があったとする。そのヒストグラムを、階級の幅を変えて作っ

てみる₍図₃、₄、₅₎。階級の幅が小さくなるにつて、相対度数のグラフが曲線に近くなる。階級の幅を無限に

図3 階級の幅10点の場合のヒストグラム

小さくしたとし、その幅を_∆xとする。このとき、_{X = x}であるときの確率を求める。 P (x ≤ X ≤ x + ∆x) ≒ f(x) · ∆x

この式を_{a ≤ x ≤ b}の範囲で積分してみる。

P (a ≤ X ≤ b) =

∫ ^b

a

f (x)dx

この_Xを連続型の continuous type^{確率変数といい、}Xは連続型の確率分布をもつという。ただし、すべての_xに対し、_{f (x) ≥ 0,}

∫_∞

−∞f (x)dx = 1^{である。この}f ^{を確率密度関数}probability density function あるいは単に密度関数という。

問_{a = b}の場合、どうなるか、考えよ。

2

(3)

2 ^正規分布

連続分布で最も基本的な分布は正規分布normal distribution^である。Normalという意味は「ありふれた、普通の」という意味ぐらいである。有名な科学者ガウス(1777-1855)は天文学の観測データを数学的に分析するにあたり、その測定誤差がある基本的な法則に従うことを仮定して、誤差理論を確立した。誤差関数

error functionと呼ばれるもので、正規分布の原型である。興味があったら調べて欲しい。

正規分布は代表的な連続型の確率分布であって、自然界や人間社会の中の数多くの現象に対してあてはまり、統計学の理論上も応用上も非常に重要である。正規分布の確率密度関数は以下で定義される。

f (x) = _√¹ 2πσ^exp{

−(x − µ)²

2σ² }, − ∞ < x < ∞ (∗) exp^{は自然対数}eである。ぱっと見わかりにくいが、基本的には_{g(x) =} ¹

exp(x²)の形をしていることがわか

る。_{g(0) = 1}であり、それが最大値で、_xが左右に行くにしたがって₀に近づく形状をしていることがわか

る。定数 √¹

2πσ ^は、 _∫

∞

−∞

exp{^{−(x − µ)}

2

2σ² ^{}dx =}

√2πσ

から、

∫_∞

−∞f (x)dx = 1^{を満たすためである。}µ, σ²^{はそれぞれ}f (x)^{の平均と分散である。}

このことから、上記_(∗)が確率密度関数である正規分布を、平均_µ、分散_σ²の正規分布といい、_{N (µ, σ}²₎ と表す。正規分布_{N (0, 0.5}²), N (0, 1.0²), N (0, 1.5²)^の例を図6^に示す。

図6 正規分布の例

正規分布の著しい特徴は以下である。

• X^{が正規分布}^{N (µ, σ}²⁾に従っている時、その線形変換を_{Y = aX + b}はN (aµ + b, a²σ²)^に従う。

3

(4)

• ^{標準化変数}Z = (X − µ)/σ ^{は正規分布}^{N (0, 1)}に従う。これを標準正規分布 standard normal distribution^という(一次元データにおける標準得点と対比してみよう₎。a = 1/σ, b = −µ/σ^とおけばよい。このことから、いかなる正規分布の確率計算も標準正規分布に帰着する。標準正規分布については、_(∗)の累積分布関数

Φ(z) =

∫ ^z

−∞

√1 2π^exp(

−x² 2 ^)dx

がどんな教科書の巻末にも数値表として与えられている。例として配布の表がある。演習ではこの表を使うこと。読み方は、まず求めたい確率をP (−∞ < Z < z)^{としたとき、}^z^の小数¹^位までを^z^の縦軸から読み取る。次に小数２位以下の値を横軸からよみとる。例えば、_{z = 1.96}ならば、まず縦軸 z = 1.9^{を選び、横軸}+0.06^を選び、0.975が得られる。すなわち、P (−∞ < Z ≤ 1.96) = 0.975^であることがわかる。主な区間の計算を示す。

P (−k ≤ Z ≤ k) = P (Z ≤ k) − P (Z ≤ −k) = Φ(k) − Φ(−k) = 2Φ(k) − 1 k = 1, 2, . . . ^{としてみる。}

P (−1 ≤ Z ≤ 1) = P (Z ≤ 1) − P (Z ≤ −1) = 0.6827 P (−2 ≤ Z ≤ 2) = P (Z ≤ 2) − P (Z ≤ −2) = 0.9545 P (−3 ≤ Z ≤ 3) = P (Z ≤ 3) − P (Z ≤ −3) = 0.9973 (^ほぼ^1/1000) P (−4 ≤ Z ≤ 4) = P (Z ≤ 4) − P (Z ≤ −4) = 0.9999 (^ほぼ^{1/10, 000)}

−3 ≤ Z ≤ 3^はもとの^X^で言えばµ − 3σ ≤ X ≤ µ + 3σに相当し、常識的に言えばこれで事実上すべてである。そのため、この範囲を特に₃シグマ範囲という。

偏差値を例にとってみる。偏差値得点_Tは平均_50,標準偏差₁₀に調整されている。_100,000人が受けたテストで、偏差値が50 ≤ T ≤ 51の範囲にいる受験生が何人いるか計算しよう。

P (50 ≤ T ≤ 51) = P (0 ≤ (T − 50)/10 ≤ 0.1) = Φ(0.1) − Φ(0) = 0.53983 − 0.5 = 0.03983

つまり₃₉₈₃人がこの範囲に入る（成績の分布が正規分布にしたがっていれば）。ちなみに偏差値₇₀以上の場合、

P (70 ≤ T ) = P (2 ≤ (T − 50)/10) = 1 − Φ(2) = 1 − 0.9772 = 0.0228

つまり₂₂₈₀人がこの範囲に入る。

標準正規分布表を利用することなく、確率や横軸の目盛りを計算するのは、₁₉₉₀年代はじめ、パソコンが普及するまで、個人では大変であった。なのでそれらの分布表は重宝された。しかし現在ではOffice Excel^などで、簡単に分布表に相当する値は求められる。

参考文献

今回の内容は、「マンガで分かる統計学、高橋信著、オーム社」、「統計学入門、東京大学教養学部統計学教室、東京大学出版会」を参考にした。

4

Classes Yutaka Matsuno's Homepage 20160527

応用統計 第 6 回

記述統計 (5) 正規分布