応用統計 第 6 回
記述統計 (5) 正規分布
応用情報工学科
准教授 松野 裕
matsuno.yutaka@nihon-u.ac.jp
2016 年 5 月 27 日
前回の講義と演習について
クラメールの連関係数は0から1の値を取る。
• 1をとるときは、男女で全く傾向が異なる場合であり、例えば下図のような場合である。
!" #$ %
& ' (' ('
) (' ' ('
% (' (' *'
図1 クラメールの連関係数が1になる場合
• 0をとるときは、男女で全く傾向が同じ場合であり、例えば下図のような場合である。
!" #$ %
& ' ( )*
+ ' ( )*
% ), - ,*
図2 クラメールの連関係数が0になる場合
問題4-2で、回帰式がy = 6.25x − 90となったが、これは例えば気温が10度だと、ビール売上本数がマイナ スになる。これは、データ数が3と少ないためである。
1
1 確率変数と確率分布
サイコロの目のように、それがとる各値に対しそれぞれ確率が与えられている変数を確率変数(random
variable)という。確率変数は、X のように大文字を用いて表す。正しいサイコロなら、
P (X = 1) = 1
6, P (X = 2) = 1
6, . . . , P (X = 6) = 1 6 であるが、一般的には、
P (X = 1) = p1, . . . , P (X = 6) = p6
である。ここでp1≥ 0, p2≥ 0, . . . , p6≥ 0, p1+ p2+ · · · + p6= 1である。一般に可算集合{x1, x2, . . . }の 中の値をとる確率変数Xは離散型 discrete typeといわれ、それぞれの値の確率
P (X = xk) = f (xk) (k = 1, 2, . . . )
をXの確率分布 probability distributionという。f は、f (xk) ≥ 0 (k = 1, 2, . . . )かつ∑∞k=1f (xk) = 1
の条件を満たす。このf を離散型の確率分布 p.d. of discrete typeという。確率分布は確率の「重み」の 分布の様子を表している。f (xk)のxkは、単にxと書くこともある。
10,000人が受けた100点満点のテスト結果があったとする。そのヒストグラムを、階級の幅を変えて作っ
てみる(図3、4、5)。階級の幅が小さくなるにつて、相対度数のグラフが曲線に近くなる。階級の幅を無限に
図3 階 級 の 幅10点 の 場 合 の ヒストグラム
図4 階級の幅5点の場合のヒ ストグラム
図5 階級の幅1点の場合のヒ ストグラム
小さくしたとし、その幅を∆xとする。このとき、X = xであるときの確率を求める。 P (x ≤ X ≤ x + ∆x) ≒ f(x) · ∆x
この式をa ≤ x ≤ bの範囲で積分してみる。
P (a ≤ X ≤ b) =
∫ b
a
f (x)dx
このXを連続型の continuous type確率変数といい、Xは連続型の確率分布をもつという。ただし、すべ てのxに対し、f (x) ≥ 0,
∫∞
−∞f (x)dx = 1である。このf を確率密度関数probability density function あるいは単に密度関数という。
問a = bの場合、どうなるか、考えよ。
2
2 正規分布
連続分布で最も基本的な分布は正規分布normal distributionである。Normalという意味は「ありふれ た、普通の」という意味ぐらいである。有名な科学者ガウス(1777-1855)は天文学の観測データを数学的に分 析するにあたり、その測定誤差がある基本的な法則に従うことを仮定して、誤差理論を確立した。誤差関数
error functionと呼ばれるもので、正規分布の原型である。興味があったら調べて欲しい。
正規分布は代表的な連続型の確率分布であって、自然界や人間社会の中の数多くの現象に対してあてはま り、統計学の理論上も応用上も非常に重要である。正規分布の確率密度関数は以下で定義される。
f (x) = √1 2πσexp{
−(x − µ)2
2σ2 }, − ∞ < x < ∞ (∗) expは自然対数eである。ぱっと見わかりにくいが、基本的にはg(x) = 1
exp(x2)の形をしていることがわか
る。g(0) = 1であり、それが最大値で、xが左右に行くにしたがって0に近づく形状をしていることがわか
る。定数 √1
2πσ は、 ∫
∞
−∞
exp{−(x − µ)
2
2σ2 }dx =
√2πσ
から、
∫∞
−∞f (x)dx = 1を満たすためである。µ, σ2はそれぞれf (x)の平均と分散である。
このことから、上記(∗)が確率密度関数である正規分布を、平均µ、分散σ2の正規分布といい、N (µ, σ2) と表す。正規分布N (0, 0.52), N (0, 1.02), N (0, 1.52)の例を図6に示す。
図6 正規分布の例
正規分布の著しい特徴は以下である。
• Xが正規分布N (µ, σ2)に従っている時、その線形変換をY = aX + bはN (aµ + b, a2σ2)に従う。
3
• 標 準 化 変 数Z = (X − µ)/σ は 正 規 分 布N (0, 1)に 従 う 。こ れ を 標 準 正 規 分 布 standard normal distributionという(一次元データにおける標準得点と対比してみよう)。a = 1/σ, b = −µ/σとおけ ばよい。このことから、いかなる正規分布の確率計算も標準正規分布に帰着する。標準正規分布につい ては、(∗)の累積分布関数
Φ(z) =
∫ z
−∞
√1 2πexp(
−x2 2 )dx
がどんな教科書の巻末にも数値表として与えられている。例として配布の表がある。演習ではこの表 を使うこと。読み方は、まず求めたい確率をP (−∞ < Z < z)としたとき、zの小数1位までをzの 縦軸から読み取る。次に小数2位以下の値を横軸からよみとる。例えば、z = 1.96ならば、まず縦軸 z = 1.9を選び、横軸+0.06を選び、0.975が得られる。すなわち、P (−∞ < Z ≤ 1.96) = 0.975であ ることがわかる。主な区間の計算を示す。
P (−k ≤ Z ≤ k) = P (Z ≤ k) − P (Z ≤ −k) = Φ(k) − Φ(−k) = 2Φ(k) − 1 k = 1, 2, . . . としてみる。
P (−1 ≤ Z ≤ 1) = P (Z ≤ 1) − P (Z ≤ −1) = 0.6827 P (−2 ≤ Z ≤ 2) = P (Z ≤ 2) − P (Z ≤ −2) = 0.9545 P (−3 ≤ Z ≤ 3) = P (Z ≤ 3) − P (Z ≤ −3) = 0.9973 (ほぼ1/1000) P (−4 ≤ Z ≤ 4) = P (Z ≤ 4) − P (Z ≤ −4) = 0.9999 (ほぼ1/10, 000)
−3 ≤ Z ≤ 3はもとのXで言えばµ − 3σ ≤ X ≤ µ + 3σに相当し、常識的に言えばこれで事実上すべ てである。そのため、この範囲を特に3シグマ範囲という。
偏差値を例にとってみる。偏差値得点Tは平均50,標準偏差10に調整されている。100,000人が受けたテス トで、偏差値が50 ≤ T ≤ 51の範囲にいる受験生が何人いるか計算しよう。
P (50 ≤ T ≤ 51) = P (0 ≤ (T − 50)/10 ≤ 0.1) = Φ(0.1) − Φ(0) = 0.53983 − 0.5 = 0.03983
つまり3983人がこの範囲に入る(成績の分布が正規分布にしたがっていれば)。ちなみに偏差値70以上の 場合、
P (70 ≤ T ) = P (2 ≤ (T − 50)/10) = 1 − Φ(2) = 1 − 0.9772 = 0.0228
つまり2280人がこの範囲に入る。
標準正規分布表を利用することなく、確率や横軸の目盛りを計算するのは、1990年代はじめ、パソコンが 普及するまで、個人では大変であった。なのでそれらの分布表は重宝された。しかし現在ではOffice Excelな どで、簡単に分布表に相当する値は求められる。
参考文献
今回の内容は、「マンガで分かる統計学、高橋信著、オーム社」、「統計学入門、東京大学教養学部統計学教 室、東京大学出版会」を参考にした。
4