社会調査入門 / 社会調査論 社会調査入門 / 社会調査論
第5章 確率論と統計学の基礎 第 章 確率論 統計学 基礎
立命館大学経済学部 寺 脇 拓
本章の概要
抽出された標本から母集団の特性を「推定」するために は 統計学が必要となる 本章では その統計学とそれ は、統計学が必要となる。本章では、その統計学とそれ を支える確率論の基礎を学ぶ
1)。
2
第5章 確率論と統計学の基礎 社会調査入門
1. 確率 1. 確率
3 1. 確率
第5章 確率論と統計学の基礎 社会調査入門
1 1 確率とは
•
統計的確率(statistical probability)
1.1 確率とは
コインをトスして、机の平らな面に落とす作業を何回も繰り返し、表 が出る相対度数を計算する。
•
このような結果が偶然に支配される実験を試行(trial)という。
0.6
相
•
このような結果が偶然に支配される実験を試行(trial)という。
0.5 相 対 度 数
0.4
0 1000 2000 3000 4000 5000
試行回数
試行回数を大きくするにつれて 相対度数が
0 5に近づいていくこ
試行回数を大きくするにつれて、相対度数が
0.5に近づいていくこ とが分かる。
試行を繰り返して得られる相対度数に極限値が存在するとき、これ を統計的確率という
4
を統計的確率という。
1. 確率
•
古典的確率 典
(classical probability)( p y)
事象Eが起こる
(古典的
)確率は、次の手順で計算されるものとし て定義される。
確率論では 起こりうる結果を事象(
t)という•
確率論では、起こりうる結果を事象(event)という。
1.
それ以上分けることができず、それぞれ等確率で起こり、任意の二 つについて互いに同時に起こらない(排反な)結果をすべてあげる。
2. 1の中で、事象Eに含まれる結果の数を数える。
3. 2で得られた数を、1で得られた起こりうる結果の総数で割る。
コイン・トスの例では その試行によって起こりうる結果は 「表が
コイン トスの例では、その試行によって起こりうる結果は、「表が 出る」、「裏が出る」の二つであり 、そのうち「表が出る」という事 象に含まれる結果は当然一つであることから、「表が出る」確率 は、
1/2/となる。
ただし、この古典的確率は「等確率」を前提に定義されており、一 種の循環論になっている。
主観的確率( bj ti b bilit )
•
主観的確率(subjective probability)
個人の主観的な予測。
例:ブラジルがワ ルドカップで優勝する確率は
40%ぐらい
5
例:ブラジルがワールドカップで優勝する確率は
40%ぐらい。
1. 確率
1 2 確率の公理
•
前項で見たように、確率は様々な意味を持って使われる ため その定義は容易ではない
1.2 確率の公理
ため、その定義は容易ではない。
•
それゆえ、一般に明確な定義を避け、次の公理を満たす ものを「確率」と呼んでいる
ものを「確率」と呼んでいる。
1.
任意の事象Eが起きる確率は、0以上、1以下である。
2
全事象が起きる確率は1である。
2.
全事象が起きる確率は1である。
•
それ以上分けることができない、互いに排反な事象を根元事象とい い、全ての根元事象のどれかが起こる事象のことを全事象という。
サイ ロを 回振る試行では 「1の目が出る 事象 「2の目が出る
•
サイコロを一回振る試行では、「1の目が出る」事象、「2の目が出る」
事象、・・・、「6の目が出る」事象が、それぞれ根元事象となる。そして、
「1から6のいずれかの目が出る」事象が、全事象となる。
また 根元事象の全てを要素として含む集合のことを標本空間という
•
また、根元事象の全てを要素として含む集合のことを標本空間という。
3.
互いに排反な二つの事象
Aと
Bについて、
Aか
Bかのどちらかが 起きる確率は、
Aの起きる確率と
Bの起きる確率の和になる。
6
•
これを排反事象に関する確率の加法性という。
1. 確率
第5章 確率論と統計学の基礎 社会調査入門
■ 事象の数学的表記 象 数 表
•
起こりうる結果の総数が数えられるとき、事象は一般に集 合の形で表される。
例えば、サイコロを一回振る試行で、「1か2の目が出る」事象Aは、
次のように表される。
•
集合
Aと
Bとの和集合
A∪Bは、「事象
A、事象
Bのいずれか が起こる事象」という意味になり、これを和事象とよぶ。
が起こる事象」という意味になり、これを和事象とよぶ。
•
集合AとBとの積集合A∩Bは、「事象A、かつ事象Bが起こる 事象」という意味になり、これを積事象とよぶ。
偶数の目が出る事象を
A、
3以下の目が出る事象を
Bとするとき、事 象A、事象B、そしてAとBの和事象、積事象はそれぞれ、次のよう に表される。
に表される。
7 1. 確率
第5章 確率論と統計学の基礎 社会調査入門
標本空間
UA 5 B
4 2 6
1 3
• A∩B=φ、すなわちAとBとの積集合が空集合のとき、AとB
を排反事象とよぶ。
偶数の目が出る事象をA、奇数の目が出る事象をBとするとき、事 象
Aと
Bは排反事象となる。
•
集合
Aの補集合
ACは 「事象
Aが起きない事象」という意味
•
集合
Aの補集合
ACは、「事象
Aが起きない事象」という意味 になり、これを余事象と呼ぶ。
偶数の目が出る事象を
Aとすると、その余事象
ACは奇数の目が出
8
偶数の目が出る事象を とすると、その余事象 は奇数の目が出 る事象となる(ある事象とその余事象は排反事象になる)。
1. 確率
1 3 確率の性質
•
ある事象に対する余事象が起こる確率は、1からその事象 が起こる確率を引くことによ て求められる
1.3 確率の性質
が起こる確率を引くことによって求められる。
P
は「続くカッコ内の事象が起こる確率」を意味する
P
は「続くカッコ内の事象が起こる確率」を意味する。
•
事象Bが事象Aの部分集合であるとき、Bが起きる確率は、
A
が起きる確率と同じか、それより小さい。 が起きる確率と同じか、それより小さ 。
•
二つの事象AとBについて、次の式が成り立つ。 二つの事象AとBについて、次の式が成り立つ。
これを加法定理という
これを加法定理という。
9 1. 確率
1 4 条件付確率と独立
■ 条件つき確率
1.4 条件付確率と独立
•
事象Aが生じたという条件のもとで事象Bが生じる確率を条 件つき確率
(conditional probability)といい、
P(B|A)で 表す
表す。
•
これは、標本空間が集合Aに制約された中で、事象Bが生 じる確率を意味する。
じる確率を意味する。
標本空間
制約された標本空間
4 2 1
A 5 B
2
6 3
10 1. 確率
第5章 確率論と統計学の基礎 社会調査入門
•
根元事象が等確率で生じるケースでは、条件つき確率は、 根元事象 等確率 るケ 、条件 確率 、
A∩Bに含まれる根元事象の数を、
Aに含まれる根元事象の 数で割ることによって導かれる。
#
は「続くカッコ内の集合に含まれる要素の数」を意味する。
• (5.1)
式の分子分母を標本空間に含まれる根元事象の総
数
#(U)で割ることによって、条件つき確率は次のようにも 表される
表される。
•
さらに、
(5.2)式の簡単な変形により、次の式が得られる。
•
すなわち、「事象
Aと
Bが同時に起きる確率」は、「
Aが起きる 確率」に、「Aが起きたときにBが起きる確率」を乗じることに よ て計算される(乗法定理)
11
よって計算される(乗法定理)。
1. 確率
第5章 確率論と統計学の基礎 社会調査入門
■ 独立
•
条件つき確率と条件つきでない確率とが等しくなるとき、条 件つき確率はその条件に影響されないことになる。
•
このとき、二つの事象は互いに独立(mutually indepe-
ndent)であるという。事象 性 条件 次 う 表 れ
•
事象
Aと
Bの独立性の条件は次のように表される。
•
このとき、次式が成立する。
•
すなわち、事象AとBが互いに独立であるとき、「事象AとB が同時に起きる確率」は、「
Aが起きる確率」と「
Bが起きる 確率」を乗じることによって計算される
確率」を乗じることによって計算される。
•
一方で、この式が成立しないとき、事象AとBは互いに従属
(mutually dependent)であるという。
12
(mutually dependent)
であるという。
1. 確率
•
第
0章の例で、 、
A子さんは、もし関西人の行動が異常でな 、 動 いならば、次のようなクロス集計表がえられるはずだと説 明した。
関西人 非関西人 全体
表0.3 関西人と非関西人の間で連打経験の割合に差がない場合に、理論的に期待 される集計結果
実数 % 実数 % 実数 % ボタンを連打したことがある 11.6 55.2% 4.4 55.2% 16 55.2%
ボタンを連打したことがない 9.4 44.8% 3.6 44.8% 13 44.8%
•
このとき、全体の中で、エレベーターのボタンを連打した経 験がある人 割合(条件 き な 確率)と 関西人 中
合計 21 100.0% 8 100.0% 29 100.0%
験がある人の割合(条件つきでない確率)と、関西人の中 で、エレベーターのボタンを連打した経験がある人の割合
(条件つき確率
)が等しくなっている。
(
条件 き確率
)等 くな る。
•
これはすなわち、エレベーターのボタンを連打することと、
関西人であることとは互いに独立であるということを意味し ている
13
ている。
1. 確率
2. 確率変数と確率分布 2. 確率変数と確率分布
14 2. 確率変数と確率分布
第5章 確率論と統計学の基礎 社会調査入門
2 1 確率変数
•
確率変数(random variable)
2.1 確率変数
実現する値に確率
(あるいは確率密度
)が付されている変数。
ある現象を観測している際に変動する量。
離散確率変数
•
離散確率変数(discrete random variable)
不連続な実数値に確率が付されている変数。
例 サイ ロを 回振 たときに出る目の数
例:サイコロを一回振ったときに出る目の数。
出る目 1 2 3 4 5 6
離散確率変数を
xとし、その
xが出現する確率を
p(x)であらわすとき、
確率 1/6 1/6 1/6 1/6 1/6 1/6
p(x)は確率関数(probability function)と呼ばれる.p( )
•
サイコロの例では、確率関数は次のように表される。
15 2. 確率変数と確率分布
第5章 確率論と統計学の基礎 社会調査入門
確率関数は次の性質をもつ。
1.
2 1/6
2.
xi
は
xの実現値、
xmaxはその
最大値を表している
0 1 2 3 4 5 61/6
最大値を表している。
また次のF(x)をxの分布関数
(distribution function)という.
1
確率関数
確 が
1
4/6 5/6
これはその確率変数がある値
xよ りも小さくなる確率を導く。
分布関数は次の性質をもつ。
2/63/6
分布関数は次の性質をも 。
1.
2. 0 1 2 3 4 5 6
1/6
16 3.
2. 確率変数と確率分布 分布関数
•
連続確率変数 続 変数
(continuous random variable)( )
ある空間において、その中であらゆる実数を取りうる確率変数。
いま、平らに置かれた大きな紙の上に直線を引き、それ上のある 点の
20センチ真上から針を落とす
一点の
20センチ真上から針を落とす。
そして、落ちた針の先端から、その直線までの最短距離を計測し、
その大きさをxで表す。ただし、直線の上方に落ちた場合はプラス、
方 落 た場合 値 計る 下方に落ちた場合はマイナスの値で計る。
この試行を
200回繰り返し、計測結果を、縦軸に相対度数をとった ヒストグラムで表す。 グラ 表す。
20.0%
25.0%
5.0%
10.0%
15.0%
相 対 度 数
0.0%
-12~-10 -10~-8
-8~-6 -6~-4
-4~-2 -2~0
0~2 2~4
4~6 6~8
8~10 10~12
17 2. 確率変数と確率分布 直線までの距離(x)
この回数をさらに多くし、階級の幅をさらに狭くしていくと、このヒス トグ ムは 図 よう 滑らかな曲線 表されるよう なる
10.00%
12.00%
トグラムは、下図のように滑らかな曲線で表されるようになる。
2.00%
4.00%
6.00%
8.00%
相 対 度 数
0.00%
-12 -9.75 -7.5
-5.25 -3 -0.75 1.5
3.75 6
8.25 10.5 直線までの最短距離(x)
この曲線の縦軸で表される値を
(確率
)密度といい、この曲線で図 示されるような関数f(x) を密度関数
(density function)という。
xがaからbの間に含まれる確率
は この密度関数
xがaからbの間に含まれる確率、
は、この密度関数
の下側の面積で表される。
18 2. 確率変数と確率分布
第5章 確率論と統計学の基礎 社会調査入門
すなわち、この確率は次式で表される。
な 連続確率変数 があ 実 値 を 確率
•
なお、連続確率変数においては、xがある実現値aをとる確率は0で ある。
密度関数は次の性質をもつ。
1.
2 2.
離散確率変数と同様に、その確率変数がある値
xよりも小さくなる 確率を導く関数F( )を の分布関数といい それは次式で表され 確率を導く関数F(x)をxの分布関数といい、それは次式で表され る。
密度関数f(x) が前頁のような形で表されるとき、その分布関数は 次のように表される
19
次のように表される。
2. 確率変数と確率分布
第5章 確率論と統計学の基礎 社会調査入門
連続確率変数の分布関数も 離散確率変数と同じ性質をもつ
連続確率変数の分布関数も、離散確率変数と同じ性質をもつ。
1.
、
2.
3.
•
確率関数や密度関数、あるいは分布関数のように、確率 変数の実現値の起こりやすさを示したものを、一般に(確 率)分布(probability distribution)という。
20 2. 確率変数と確率分布
■ 確率分布の特性値
•
その中心位置を示す分布の特性値の一つに平均(mean)
(期待値ともいう
)が、そのばらつきを示す分布の特性値の
つに分散(
i )がある一つに分散(variance)がある。
分散の平方根は標準偏差
(standard deviation)と呼ばれる。
離散確率変数の平均 と分散 は次のように定義される
•
離散確率変数の平均 と分散 は次のように定義される。
•
連続確率変数の平均 と分散 は次のように定義される。
21
2. 確率変数と確率分布
2 2 代表的な確率分布
•
正規分布(normal distribution)
2.2 代表的な確率分布
密度関数
e
は自然対数の底
(2.71828・・・
)、
πは円周率
(3.1415・・・
)である。
正規分布の平均はμ 分散はσ
2である
正規分布の平均はμ,分散はσ
2である.
平均μ、分散σ
2の正規分布は一般にN(μ, σ
2)で表される。
正規分布する確率変数を正規確率変数という。 規分布する確率変数を 規確率変数と う。
正規分布は、平均について対称である。
•
標準正規分布(standard normal distribution)
( )
平均
0,分散
1の正規分布。
標準正規分布はN(0, 1)で表される。
22
標準正規分布する確率変数を標準正規確率変数という。
2. 確率変数と確率分布
第5章 確率論と統計学の基礎 社会調査入門
正規確率変数xを次のように変換したzは、標準正規分布に従う.
この変換を標準化
(standardize)という。
0.4
N(0,1) N(3,1)
0.2 0.3
密 度
0.1 度
N(0,2)
0
-6 -4 -2 0 2 4 6
x
23 2. 確率変数と確率分布
x
第5章 確率論と統計学の基礎 社会調査入門
•
カイ二乗
((自乗
))分布
(chi-square distribution)( q ) z1
、
z2、
…、
zkが互いに独立な
k個の標準正規確率変数であるとき、
以下のwは、自由度kのカイ二乗分布に従う。
自由度kのカイ二乗分布の平均はk,分散は2kになる.
0 6
自由度kのカイ 乗分布の平均はk,分散は2kになる.
カイ二乗分布する確率変数をカイ二乗確率変数という.
0.4 0.5 0.6
自由度1のカイ二乗分布
0.2 密0.3
度 自由度3のカイ二乗分布
0 0.1
24
0 2 4 6 8 10
カイ二乗値
2. 確率変数と確率分布
•
スチューデントの
t分布
(Student’s t distribution)( ) zが標準正規確率変数、wが自由度kのカイ二乗確率変数であると
き、以下の
tは、自由度
kの
t分布に従う。
自由度が大きいとき
t分布は標準正規分布に近似される0 4
自由度が大きいとき、t分布は標準正規分布に近似される。
t
分布は
0について対称である.
標準正規分布
0.3 0.4
自由度5のt分布
0.1 密 0.2
度
自由度10のt分布
0
-4 -3 -2 -1 0 1 2 3 4
25 t値
2. 確率変数と確率分布
•
スネデカーの
F分布
(Snedecor’s F distribution)( ) w1
、w
2がそれぞれ自由度k
1、k
2のカイ二乗確率変数であるとき、以 下の
Fは、自由度
k1、
k2の
F分布 に従う.
0.8
自由度4、4のF分布
0.4 0.6
密
度 自由度8 8のF分布
0.2
度 自由度8、8のF分布
0
0 1 2 3 4 5 6
F値
26 F値
2. 確率変数と確率分布
第5章 確率論と統計学の基礎 社会調査入門
3. 標本分布
3. 標本分布
27 3. 標本分布
第5章 確率論と統計学の基礎 社会調査入門
3 1 標本平均の平均と分散
•
ある袋の中に、「
1」と書かれたボールが
2個、「
2」と書かれ たボールが4個 「3」と書かれたボールが3個 「4」と書か
3.1 標本平均の平均と分散
たボールが4個、「3」と書かれたボールが3個、「4」と書か れたボールが1個入っているとする。
•
このボールに書かれた数字についてのヒストグラムを描く このボ ルに書かれた数字についてのヒストグラムを描く と
(縦軸は相対度数
)、それは次のようになる。
0.4
0.1 0.2 0.3 相 対 度 数
•
この袋の中から無作為にボールを一個取り出すとき その
0
1 2 3 4
ボールの数字
•
この袋の中から無作為にボ ルを 個取り出すとき、その 数字は上記の確率分布に従って選ばれることになる。
•
すなわち、無作為に選ばれるボールに書かれた数字は、
28
上図の確率分布を持つ確率変数ということになる。
3. 標本分布
•
同様に考えれば、母集団から無作為抽出される標本 同様 考えれば、母集団 ら無作為抽出される標本
{x1, x2, …, xn}の各要素は、その母集団の分布に従う、それぞれ互いに独立な確率変数となる。
•
従って、その各要素の平均である標本平均もまた確率変 数となり、その平均と分散について次の定理が存在する。
定理5 1 定理5.1
ある大きさ
nの標本
{x1,x2,…, xn}が、平均
μ、分散
σ2の母集団か ら無作為抽出されるとき、その標本平均の平均はμ,分散はσ
μ 2/nになる。
母集団 標本の各要素 標本平均
平均: μ
(確率変数) (確率変数)
母平均: μ 平均: μ
分布形?
無作為抽出
平均: μ 分散: σ2 分布形?
母平均: μ 母分散: σ2
平均: μ 分散: σ2/n 分布形?
29 3. 標本分布 無作為抽出
3 2 標本平均の分布
•
定理5.1は、標本平均の分布がどのような形になるのかに ついては何も述べていない
3.2 標本平均の分布
ついては何も述べていない。
•
母分布が正規分布であるとき、標本平均も正規分布に従う 定 定理5.2
母集団が平均μ、分散σ
2の正規分布に従うとき
(正規母集団であ るとき
)そこから無作為抽出された大きさ
n標本の標本平均は るとき
)、そこから無作為抽出された大きさ
n標本の標本平均は、
平均は
μ,分散は
σ2/nの正規分布に従う。
母集団 標本の各要素 標本平均
平均: μ
(確率変数) (確率変数)
母平均: μ 平均: μ
無作為抽出
平均: μ 分散: σ2 正規分布 母平均: μ
母分散: σ2 正規分布
平均: μ 分散: σ2/n 正規分布
30 3. 標本分布 無作為抽出
第5章 確率論と統計学の基礎 社会調査入門
•
母集団の分布が分からない場合でも、標本が十分に大き 母集団の分布が分からない場合でも、標本が十分に大き ければ、標本平均は正規分布に従う。
定理5.3(中心極限定理)
平均
μ、分散
σ2の母集団から無作為抽出される大きさ
nの標本の 標本平均を標準化した統計量、
の分布は、
nが大きければ標準正規分布に近似される。
の分布は、
nが大きければ標準正規分布に近似される。
母集団 標本の各要素 標準化された標本平均
平均: μ
(確率変数) (確率変数)
母平均: μ 平均: 0
無作為抽出
平均: μ 分散: σ2 分布形?
母平均: μ 母分散: σ2 分布形?
平均: 0 分散: 1 標準正規分布
31 3. 標本分布 無作為抽出
大きな標本サイズ
第5章 確率論と統計学の基礎 社会調査入門
■ 注
1.
本章は、岩田(1983)第2章、第3章、第4章、森棟(2004)の第2 章、第
3章、第
4章を参考にした。
■ 引用文献
■ 引用文献
岩田暁一
(1983)『経済分析のための統計的方法 第
2版』、東洋 経済。
経済。
森棟公夫(2000)『統計学入門 第2版』、新世社。
32