• 検索結果がありません。

第5章 確率論と統計学の基礎 第 章 確率論 統計学 基礎

N/A
N/A
Protected

Academic year: 2021

シェア "第5章 確率論と統計学の基礎 第 章 確率論 統計学 基礎"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

社会調査入門 / 社会調査論 社会調査入門 / 社会調査論

第5章 確率論と統計学の基礎 第 章 確率論 統計学 基礎

立命館大学経済学部 寺 脇 拓

本章の概要

抽出された標本から母集団の特性を「推定」するために は 統計学が必要となる 本章では その統計学とそれ は、統計学が必要となる。本章では、その統計学とそれ を支える確率論の基礎を学ぶ

1)

2

第5章 確率論と統計学の基礎 社会調査入門

1. 確率 1. 確率

3 1. 確率

第5章 確率論と統計学の基礎 社会調査入門

1 1 確率とは

統計的確率(statistical probability)

1.1 確率とは

‡

コインをトスして、机の平らな面に落とす作業を何回も繰り返し、表 が出る相対度数を計算する。

このような結果が偶然に支配される実験を試行(trial)という。

0.6

このような結果が偶然に支配される実験を試行(trial)という。

0.5

0.4

0 1000 2000 3000 4000 5000

試行回数

‡

試行回数を大きくするにつれて 相対度数が

0 5

に近づいていくこ

‡

試行回数を大きくするにつれて、相対度数が

0.5

に近づいていくこ とが分かる。

‡

試行を繰り返して得られる相対度数に極限値が存在するとき、これ を統計的確率という

4

を統計的確率という。

1. 確率

(2)

古典的確率 典

(classical probability)( p y)

‡

事象Eが起こる

(

古典的

)

確率は、次の手順で計算されるものとし て定義される。

確率論では 起こりうる結果を事象(

t)という

確率論では、起こりうる結果を事象(event)という。

1.

それ以上分けることができず、それぞれ等確率で起こり、任意の二 つについて互いに同時に起こらない(排反な)結果をすべてあげる。

2. 1の中で、事象Eに含まれる結果の数を数える。

3. 2で得られた数を、1で得られた起こりうる結果の総数で割る。

‡

コイン・トスの例では その試行によって起こりうる結果は 「表が

‡

コイン トスの例では、その試行によって起こりうる結果は、「表が 出る」、「裏が出る」の二つであり 、そのうち「表が出る」という事 象に含まれる結果は当然一つであることから、「表が出る」確率 は、

1/2/

となる。

‡

ただし、この古典的確率は「等確率」を前提に定義されており、一 種の循環論になっている。

主観的確率( bj ti b bilit )

主観的確率(subjective probability)

‡

個人の主観的な予測。

‡

例:ブラジルがワ ルドカップで優勝する確率は

40%

ぐらい

5

‡

例:ブラジルがワールドカップで優勝する確率は

40%

ぐらい。

1. 確率

1 2 確率の公理

前項で見たように、確率は様々な意味を持って使われる ため その定義は容易ではない

1.2 確率の公理

ため、その定義は容易ではない。

それゆえ、一般に明確な定義を避け、次の公理を満たす ものを「確率」と呼んでいる

ものを「確率」と呼んでいる。

1.

任意の事象Eが起きる確率は、0以上、1以下である。

2

全事象が起きる確率は1である。

2.

全事象が起きる確率は1である。

それ以上分けることができない、互いに排反な事象を根元事象とい い、全ての根元事象のどれかが起こる事象のことを全事象という。

サイ ロを 回振る試行では 「1の目が出る 事象 「2の目が出る

サイコロを一回振る試行では、「1の目が出る」事象、「2の目が出る」

事象、・・・、「6の目が出る」事象が、それぞれ根元事象となる。そして、

「1から6のいずれかの目が出る」事象が、全事象となる。

また 根元事象の全てを要素として含む集合のことを標本空間という

また、根元事象の全てを要素として含む集合のことを標本空間という。

3.

互いに排反な二つの事象

A

B

について、

A

B

かのどちらかが 起きる確率は、

A

の起きる確率と

B

の起きる確率の和になる。

6

これを排反事象に関する確率の加法性という。

1. 確率

第5章 確率論と統計学の基礎 社会調査入門

■ 事象の数学的表記 象 数 表

起こりうる結果の総数が数えられるとき、事象は一般に集 合の形で表される。

‡

例えば、サイコロを一回振る試行で、「1か2の目が出る」事象Aは、

次のように表される。

集合

A

B

との和集合

AB

は、「事象

A

、事象

B

のいずれか が起こる事象」という意味になり、これを和事象とよぶ。

が起こる事象」という意味になり、これを和事象とよぶ。

集合AとBとの積集合A∩Bは、「事象A、かつ事象Bが起こる 事象」という意味になり、これを積事象とよぶ。

‡

偶数の目が出る事象を

A

3

以下の目が出る事象を

B

とするとき、事 象A、事象B、そしてAとBの和事象、積事象はそれぞれ、次のよう に表される。

に表される。

7 1. 確率

第5章 確率論と統計学の基礎 社会調査入門

標本空間

U

A 5 B

4 2 6

1 3

A∩B=φ、すなわちAとBとの積集合が空集合のとき、AとB

を排反事象とよぶ。

‡

偶数の目が出る事象をA、奇数の目が出る事象をBとするとき、事 象

A

B

は排反事象となる。

集合

A

の補集合

AC

は 「事象

A

が起きない事象」という意味

集合

A

の補集合

AC

は、「事象

A

が起きない事象」という意味 になり、これを余事象と呼ぶ。

‡

偶数の目が出る事象を

A

とすると、その余事象

AC

は奇数の目が出

8

偶数の目が出る事象を とすると、その余事象 は奇数の目が出 る事象となる(ある事象とその余事象は排反事象になる)。

1. 確率

(3)

1 3 確率の性質

ある事象に対する余事象が起こる確率は、1からその事象 が起こる確率を引くことによ て求められる

1.3 確率の性質

が起こる確率を引くことによって求められる。

‡ P

は「続くカッコ内の事象が起こる確率」を意味する

‡ P

は「続くカッコ内の事象が起こる確率」を意味する。

事象Bが事象Aの部分集合であるとき、Bが起きる確率は、

A

が起きる確率と同じか、それより小さい。 が起きる確率と同じか、それより小さ 。

二つの事象AとBについて、次の式が成り立つ。 二つの事象AとBについて、次の式が成り立つ。

‡

これを加法定理という

‡

これを加法定理という。

9 1. 確率

1 4 条件付確率と独立

■ 条件つき確率

1.4 条件付確率と独立

事象Aが生じたという条件のもとで事象Bが生じる確率を条 件つき確率

(conditional probability)

といい、

P(B|A)

で 表す

表す。

これは、標本空間が集合Aに制約された中で、事象Bが生 じる確率を意味する。

じる確率を意味する。

標本空間

制約された標本空間

4 2 1

A 5 B

2

6 3

10 1. 確率

第5章 確率論と統計学の基礎 社会調査入門

根元事象が等確率で生じるケースでは、条件つき確率は、 根元事象 等確率 るケ 、条件 確率 、

A∩B

に含まれる根元事象の数を、

A

に含まれる根元事象の 数で割ることによって導かれる。

‡ #

は「続くカッコ内の集合に含まれる要素の数」を意味する。

• (5.1)

式の分子分母を標本空間に含まれる根元事象の総

#(U)

で割ることによって、条件つき確率は次のようにも 表される

表される。

さらに、

(5.2)

式の簡単な変形により、次の式が得られる。

すなわち、「事象

A

B

が同時に起きる確率」は、「

A

が起きる 確率」に、「Aが起きたときにBが起きる確率」を乗じることに よ て計算される(乗法定理)

11

よって計算される(乗法定理)。

1. 確率

第5章 確率論と統計学の基礎 社会調査入門

■ 独立

条件つき確率と条件つきでない確率とが等しくなるとき、条 件つき確率はその条件に影響されないことになる。

このとき、二つの事象は互いに独立(mutually indepe-

ndent)であるという。

事象 性 条件 次 う 表 れ

事象

A

B

の独立性の条件は次のように表される。

このとき、次式が成立する。

すなわち、事象AとBが互いに独立であるとき、「事象AとB が同時に起きる確率」は、「

A

が起きる確率」と「

B

が起きる 確率」を乗じることによって計算される

確率」を乗じることによって計算される。

一方で、この式が成立しないとき、事象AとBは互いに従属

(mutually dependent)

であるという。

12

(mutually dependent)

であるという。

1. 確率

(4)

0

章の例で、 、

A

子さんは、もし関西人の行動が異常でな 、 動 いならば、次のようなクロス集計表がえられるはずだと説 明した。

関西人 非関西人 全体

表0.3 関西人と非関西人の間で連打経験の割合に差がない場合に、理論的に期待 される集計結果

実数 % 実数 % 実数 % ボタンを連打したことがある 11.6 55.2% 4.4 55.2% 16 55.2%

ボタンを連打したことがない 9.4 44.8% 3.6 44.8% 13 44.8%

このとき、全体の中で、エレベーターのボタンを連打した経 験がある人 割合(条件 き な 確率)と 関西人 中

合計 21 100.0% 8 100.0% 29 100.0%

験がある人の割合(条件つきでない確率)と、関西人の中 で、エレベーターのボタンを連打した経験がある人の割合

(

条件つき確率

)

が等しくなっている。

(

条件 き確率

)

等 くな る。

これはすなわち、エレベーターのボタンを連打することと、

関西人であることとは互いに独立であるということを意味し ている

13

ている。

1. 確率

2. 確率変数と確率分布 2. 確率変数と確率分布

14 2. 確率変数と確率分布

第5章 確率論と統計学の基礎 社会調査入門

2 1 確率変数

確率変数(random variable)

2.1 確率変数

‡

実現する値に確率

(

あるいは確率密度

)

が付されている変数。

‡

ある現象を観測している際に変動する量。

離散確率変数

離散確率変数(discrete random variable)

‡

不連続な実数値に確率が付されている変数。

例 サイ ロを 回振 たときに出る目の数

‡

例:サイコロを一回振ったときに出る目の数。

出る目 1 2 3 4 5 6

‡

離散確率変数を

x

とし、その

x

が出現する確率を

p(x)

であらわすとき、

確率 1/6 1/6 1/6 1/6 1/6 1/6

p(x)は確率関数(probability function)と呼ばれる.p( )

サイコロの例では、確率関数は次のように表される。

15 2. 確率変数と確率分布

第5章 確率論と統計学の基礎 社会調査入門

‡

確率関数は次の性質をもつ。

1.

2 1/6

2.

‡ xi

x

の実現値、

xmax

はその

最大値を表している

0 1 2 3 4 5 6

1/6

最大値を表している。

‡

また次のF(x)をxの分布関数

(distribution function)

という.

1

確率関数

確 が

1

4/6 5/6

‡

これはその確率変数がある値

x

よ りも小さくなる確率を導く。

‡

分布関数は次の性質をもつ。

2/6

3/6

分布関数は次の性質をも 。

1.

2. 0 1 2 3 4 5 6

1/6

16 3.

2. 確率変数と確率分布 分布関数

(5)

連続確率変数 続 変数

(continuous random variable)( )

‡

ある空間において、その中であらゆる実数を取りうる確率変数。

‡

いま、平らに置かれた大きな紙の上に直線を引き、それ上のある 点の

20

センチ真上から針を落とす

一点の

20

センチ真上から針を落とす。

‡

そして、落ちた針の先端から、その直線までの最短距離を計測し、

その大きさをxで表す。ただし、直線の上方に落ちた場合はプラス、

方 落 た場合 値 計る 下方に落ちた場合はマイナスの値で計る。

‡

この試行を

200

回繰り返し、計測結果を、縦軸に相対度数をとった ヒストグラムで表す。 グラ 表す。

20.0%

25.0%

5.0%

10.0%

15.0%

0.0%

-12-10 -10-8

-8-6 -6-4

-4-2 -20

02 24

46 68

810 1012

17 2. 確率変数と確率分布 直線までの距離(x)

‡

この回数をさらに多くし、階級の幅をさらに狭くしていくと、このヒス トグ ムは 図 よう 滑らかな曲線 表されるよう なる

10.00%

12.00%

トグラムは、下図のように滑らかな曲線で表されるようになる。

2.00%

4.00%

6.00%

8.00%

0.00%

-12 -9.75 -7.5

-5.25 -3 -0.75 1.5

3.75 6

8.25 10.5 直線までの最短距離(x)

‡

この曲線の縦軸で表される値を

(

確率

)

密度といい、この曲線で図 示されるような関数f(x) を密度関数

(density function)

という。

‡ xがaからbの間に含まれる確率

は この密度関数

‡ xがaからbの間に含まれる確率、

は、この密度関数

の下側の面積で表される。

18 2. 確率変数と確率分布

第5章 確率論と統計学の基礎 社会調査入門

‡

すなわち、この確率は次式で表される。

な 連続確率変数 があ 実 値 を 確率

なお、連続確率変数においては、xがある実現値aをとる確率は0で ある。

‡

密度関数は次の性質をもつ。

1.

2 2.

‡

離散確率変数と同様に、その確率変数がある値

x

よりも小さくなる 確率を導く関数F( )を の分布関数といい それは次式で表され 確率を導く関数F(x)をxの分布関数といい、それは次式で表され る。

‡

密度関数f(x) が前頁のような形で表されるとき、その分布関数は 次のように表される

19

次のように表される。

2. 確率変数と確率分布

第5章 確率論と統計学の基礎 社会調査入門

‡

連続確率変数の分布関数も 離散確率変数と同じ性質をもつ

‡

連続確率変数の分布関数も、離散確率変数と同じ性質をもつ。

1.

2.

3.

確率関数や密度関数、あるいは分布関数のように、確率 変数の実現値の起こりやすさを示したものを、一般に(確 率)分布(probability distribution)という。

20 2. 確率変数と確率分布

(6)

■ 確率分布の特性値

その中心位置を示す分布の特性値の一つに平均(mean)

(

期待値ともいう

)

が、そのばらつきを示す分布の特性値の

つに分散(

i )がある

一つに分散(variance)がある。

‡

分散の平方根は標準偏差

(standard deviation)

と呼ばれる。

離散確率変数の平均 と分散 は次のように定義される

離散確率変数の平均 と分散 は次のように定義される。

‡

‡

‡

連続確率変数の平均 と分散 は次のように定義される。

‡

‡

21

‡

2. 確率変数と確率分布

2 2 代表的な確率分布

正規分布(normal distribution)

2.2 代表的な確率分布

‡

密度関数

‡ e

は自然対数の底

(2.71828

・・・

)

π

は円周率

(3.1415

・・・

)

である。

‡

正規分布の平均はμ 分散はσ

2

である

‡

正規分布の平均はμ,分散はσ

2

である.

‡

平均μ、分散σ

2

の正規分布は一般にN(μ, σ

2)

で表される。

‡

正規分布する確率変数を正規確率変数という。 規分布する確率変数を 規確率変数と う。

‡

正規分布は、平均について対称である。

標準正規分布(standard normal distribution)

( )

‡

平均

0

,分散

1

の正規分布。

‡

標準正規分布はN(0, 1)で表される。

22

‡

標準正規分布する確率変数を標準正規確率変数という。

2. 確率変数と確率分布

第5章 確率論と統計学の基礎 社会調査入門

‡

正規確率変数xを次のように変換したzは、標準正規分布に従う.

‡

この変換を標準化

(standardize)

という。

0.4

N(0,1) N(3,1)

0.2 0.3

0.1

N(0,2)

0

-6 -4 -2 0 2 4 6

x

23 2. 確率変数と確率分布

x

第5章 確率論と統計学の基礎 社会調査入門

カイ二乗

((

自乗

))

分布

(chi-square distribution)( q )

‡ z1

z2

zk

が互いに独立な

k

個の標準正規確率変数であるとき、

以下のwは、自由度kのカイ二乗分布に従う。

‡

自由度kのカイ二乗分布の平均はk,分散は2kになる.

0 6

‡

自由度kのカイ 乗分布の平均はk,分散は2kになる.

‡

カイ二乗分布する確率変数をカイ二乗確率変数という.

0.4 0.5 0.6

自由度1のカイ二乗分布

0.2 0.3

自由度3のカイ二乗分布

0 0.1

24

0 2 4 6 8 10

カイ二乗値

2. 確率変数と確率分布

(7)

スチューデントの

t

分布

(Student’s t distribution)( )

‡ zが標準正規確率変数、wが自由度kのカイ二乗確率変数であると

き、以下の

t

は、自由度

k

t

分布に従う。

自由度が大きいとき

t分布は標準正規分布に近似される

0 4

‡

自由度が大きいとき、t分布は標準正規分布に近似される。

‡ t

分布は

0

について対称である.

標準正規分布

0.3 0.4

自由度5のt分布

0.1 0.2

自由度10のt分布

0

-4 -3 -2 -1 0 1 2 3 4

25 t値

2. 確率変数と確率分布

スネデカーの

F

分布

(Snedecor’s F distribution)( )

‡ w1

、w

2

がそれぞれ自由度k

1

、k

2

のカイ二乗確率変数であるとき、以 下の

F

は、自由度

k1

k2

F

分布 に従う.

0.8

自由度4、4のF分布

0.4 0.6

度 自由度8 8のF分布

0.2

度 自由度8、8のF分布

0

0 1 2 3 4 5 6

F値

26 F値

2. 確率変数と確率分布

第5章 確率論と統計学の基礎 社会調査入門

3. 標本分布

3. 標本分布

27 3. 標本分布

第5章 確率論と統計学の基礎 社会調査入門

3 1 標本平均の平均と分散

ある袋の中に、「

1

」と書かれたボールが

2

個、「

2

」と書かれ たボールが4個 「3」と書かれたボールが3個 「4」と書か

3.1 標本平均の平均と分散

たボールが4個、「3」と書かれたボールが3個、「4」と書か れたボールが1個入っているとする。

このボールに書かれた数字についてのヒストグラムを描く このボ ルに書かれた数字についてのヒストグラムを描く と

(

縦軸は相対度数

)

、それは次のようになる。

0.4

0.1 0.2 0.3

この袋の中から無作為にボールを一個取り出すとき その

0

1 2 3 4

ボールの数字

この袋の中から無作為にボ ルを 個取り出すとき、その 数字は上記の確率分布に従って選ばれることになる。

すなわち、無作為に選ばれるボールに書かれた数字は、

28

上図の確率分布を持つ確率変数ということになる。

3. 標本分布

(8)

同様に考えれば、母集団から無作為抽出される標本 同様 考えれば、母集団 ら無作為抽出される標本

{x1, x2, …, xn}の各要素は、その母集団の分布に従う、

それぞれ互いに独立な確率変数となる。

従って、その各要素の平均である標本平均もまた確率変 数となり、その平均と分散について次の定理が存在する。

定理5 1 定理5.1

ある大きさ

n

の標本

{x1,x2,…, xn}

が、平均

μ

、分散

σ2

の母集団か ら無作為抽出されるとき、その標本平均の平均はμ,分散はσ

μ 2/n

になる。

母集団 標本の各要素 標本平均

平均: μ

(確率変数) (確率変数)

母平均: μ 平均: μ

分布形?

無作為抽出

平均: μ 分散: σ2 分布形?

母平均: μ 母分散: σ2

平均: μ 分散: σ2/n 分布形?

29 3. 標本分布 無作為抽出

3 2 標本平均の分布

定理5.1は、標本平均の分布がどのような形になるのかに ついては何も述べていない

3.2 標本平均の分布

ついては何も述べていない。

母分布が正規分布であるとき、標本平均も正規分布に従う 定 定理5.2

母集団が平均μ、分散σ

2

の正規分布に従うとき

(

正規母集団であ るとき

)

そこから無作為抽出された大きさ

n

標本の標本平均は るとき

)

、そこから無作為抽出された大きさ

n

標本の標本平均は、

平均は

μ

,分散は

σ2/n

の正規分布に従う。

母集団 標本の各要素 標本平均

平均: μ

(確率変数) (確率変数)

母平均: μ 平均: μ

無作為抽出

平均: μ 分散: σ2 正規分布 母平均: μ

母分散: σ2 正規分布

平均: μ 分散: σ2/n 正規分布

30 3. 標本分布 無作為抽出

第5章 確率論と統計学の基礎 社会調査入門

母集団の分布が分からない場合でも、標本が十分に大き 母集団の分布が分からない場合でも、標本が十分に大き ければ、標本平均は正規分布に従う。

定理5.3(中心極限定理)

平均

μ

、分散

σ2

の母集団から無作為抽出される大きさ

n

の標本の 標本平均を標準化した統計量、

の分布は、

n

が大きければ標準正規分布に近似される。

の分布は、

n

が大きければ標準正規分布に近似される。

母集団 標本の各要素 標準化された標本平均

平均: μ

(確率変数) (確率変数)

母平均: μ 平均: 0

無作為抽出

平均: μ 分散: σ2 分布形?

母平均: μ 母分散: σ2 分布形?

平均: 0 分散: 1 標準正規分布

31 3. 標本分布 無作為抽出

大きな標本サイズ

第5章 確率論と統計学の基礎 社会調査入門

■ 注

1.

本章は、岩田(1983)第2章、第3章、第4章、森棟(2004)の第2 章、第

3

章、第

4

章を参考にした。

■ 引用文献

■ 引用文献

‡

岩田暁一

(1983)

『経済分析のための統計的方法 第

2

版』、東洋 経済。

経済。

‡

森棟公夫(2000)『統計学入門 第2版』、新世社。

32

参照

関連したドキュメント

第1章 総論 第1節 目的 第2節 計画の位置付け.. 第1章

 第2項 動物實験 第4章 総括亜二考按 第5章 結 論

 第1節計測法  第2節 計測成績  第3節 年齢的差異・a就テ  第4節 性的差異二就テ  第5節 小 括 第5章  纏括並二結論

• また, C が二次錐や半正定値行列錐のときは,それぞれ二次錐 相補性問題 (Second-Order Cone Complementarity Problem) ,半正定値 相補性問題 (Semi-definite

これは基礎論的研究に端を発しつつ、計算機科学寄りの論理学の中で発展してきたもので ある。広義の構成主義者は、哲学思想や基礎論的な立場に縛られず、それどころかいわゆ

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

[r]

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.