1.1 統計学とは何ぞや？

(1)

1 1．統計学の基本的な概念

．統計学の基本的な概念

1.1 統計学とは何ぞや？

統計学は沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段

＜例＞100人の日本人について体重を測定した場合

※統計学では平均値のような要約値または代表値のことを統計量と呼ぶ。厳密に言うと、確率的に変動する個々のデータを確率変数と呼び、確率変数xの関数として定義される値z=f(x)を統計量と呼ぶ。

※本書では平均値のように複数のデータを四則演算によって要約した統計量を要約値と呼び、そのような要約をしないポイント的な統計量を代表値と呼ぶことにする。要約値は中心極限定理によって近似的に正規分布するが、代表値は正規分布するとは限らない。

100

個のデータを眺めただけでそこに含まれる情報を読み取るのは困難

100

個のデータのほぼ真ん中を表す要約値として平均値を求める

平均値が

60kg

だった

「

100

人の日本人の体重はだいたい

60kg

ぐらいである」という情報を読み取ることができる

「日本人の体重はだいたい

60kg

ぐらいである」と推測する要約値

(

統計量

)

データ　データデータ　データデータ　データ

実質科学的評価

(2)

医学・薬学分野の研究で用いられるのは推測統計学

・記述統計学

調査対象集団＝母集団のデータを要約し、母集団の情報を数学的に記述することが中心で、

古典統計学とも呼ばれる。

国勢調査で用いられる統計手法が代表例。

・推測統計学または推計学

母集団から無作為抽出した標本集団の要約値から母集団の要約値を確率的に推測し、それによって母集団の様子を数学的に記述することが中心で、近代統計学とも呼ばれる。

科学実験や世論調査で用いられる統計手法が代表例。

医学・薬学分野の研究(臨床試験、臨床研究等)では主として推測統計学が用いられるが、この分野独特の特徴がある。

確率的推測・記述のデータ母集団

多数データの数学的要約・記述

記述統計学

(

古典統計学

)

母集団

(

準母集団

)

標本集団

のデータ

少数データの数学的要約・記述

推測統計学

(

近代統計学

)

無作為抽出

逆規定

(3)

医学・薬学分野の研究は準母集団を対象にする点が特徴

医学・薬学分野の研究では特定の疾患の患者を母集団にすることが多い

患者全体を正確に特定することは事実上不可能

母集団から標本集団を無作為抽出することも不可能

ある医療施設をたまたま受診した患者をとりあえず標本集団にする

標本集団の背景因子

(

集団の特徴を表す項目、性別、年齢等

)

を調査

背景因子から母集団となるべき集団＝準母集団を逆規定

※ 論文の最初に載せる患者背景表は準母集団を規定するためのもの

準母集団と本当の母集団は微妙にずれる

同じような研究を行なっても準母集団がずれると結果もずれる

医学・薬学分野の研究の特徴≒限界

母集団準母集団標本集団

非無作為抽出逆規定

(4)

1.2 データの要約方法

データの要約はグラフ化から

データを要約する時は、まず初めにデータを見やすいようにグラフ化する。それには横軸にデータの値を取り、縦軸にそのデータの数をプロットした度数分布図(frequency distribution)を用いる。

一般的な度数分布図では、データの値をいくつかの区間に区切り、その区間の中に入るデータの数を柱状グラフとしてプロットする。

＜度数分布図を描くメリット＞

・データを感覚的に把握することができる→百聞は一見にしかず！

・データの内容についてある程度の情報を得ることができる

・データの解析方法について有益なヒントが得られる図1.1 度数分布図

度数

体重

(5)

度数分布図を理想化したものが正規分布

度数分布においてデータの数→無限大、区切り幅→無限小とすると、理想的には正規分布

(normal distribution、ガウス分布)になる。

＜正規分布の特徴＞

・平均値を中心にして左右対称

・平均値の度数が最も多く、平均値から離れるほど度数が減るベル型の分布

・数学的な取り扱いが比較的簡単

・現実のデータの度数分布を描くと、多くのものが近似的に正規分布になる

・厳密に言うと、現実には有り得ない理想分布→理想気体のようなもの図1.2 正規分布

度数

μ=60

体重

σ=10

(6)

最初の要約値は度数分布の中心を表す平均値

度数分布を眺めながら、データ内容を把握するのに適した要約値を検討する。最初の要約値として、普通は度数分布の中心を表す値である平均値(mean)を求める。

平均値：m=¯x=x₁+⋯+x_i+⋯+x_n

n =

1

n

∑

i=1 n

x_i=

∑

^x

n

x

i：i番目のデータ

＜平均値の特徴＞

・分布の重心を表す→全てのデータを均等に反映する

・正規分布では分布の中心を表す

次の要約値はデータのバラツキ具合を表す標準偏差

次の要約値として、普通は度数分布の幅つまりデータのバラツキ具合を表す値である標準偏差(SD:Standard Deviation)を求める。

偏差(バラツキの定義)：d_i=x_i−m

平方和：SS=S_{x x}=

∑

i=1 n

d_i²=

∑

⁽^x_i^−m)²

分散：V=SS

n =

∑

^d_i²

n =

∑

⁽^x_i^−m)²

n

標準偏差：s=SD=

√

^V⁼

√

^SSⁿ ⁼

√ ^∑

ⁿ^dⁱ²⁼

√ ^∑

⁽^xⁿⁱ^−m)²

正規分布は例数、平均値、標準偏差によって分布の形が完全に決まる。そして現実のデータの度数分布は近似的に正規分布になる。そのため普通は例数、平均値、標準偏差によってデータを要約し、データに含まれる情報を把握する。

(7)

＜標準偏差の特徴＞

・データ

1

個あたりのバラツキ具合を表す

・正規分布では平均値から分布の変曲点までの距離になる(図

1.2

参照)

・正規分布では平均値±標準偏差の間に全データの約

68%が含まれる

・正規分布では平均値±2×標準偏差の間に全データの約

95%が含まれる

推測統計学では標本集団の要約値から母集団の要約値を推測することが重要

推測統計学の目的は標本集団の要約値を求めることではなく、標本集団の要約値から母集団の要約値つまり母数(parameter)を推測すること。

常識的には、次のようにして近似的に推測できると考えられる。

母平均(母集団の平均値)：μ≒m：標本平均(標本集団の平均値) 母分散(母集団の分散)：σ²≒V：標本分散(標本集団の分散)

母標準偏差(母集団の標準偏差)：σ≒SD：標本標準偏差(標本集団の標準偏差)

※母数はギリシャ文字で表す習慣がある。

※しかし母分散はVに相当するギリシャ文字がないためσ²で表す。

ところが実際には、母分散と母標準偏差は次の式の方が近似が良い。

確率的推測・記述のデータ母集団

多数データの数学的要約・記述

記述統計学

(

古典統計学

)

(

準母集団母集団

)

標本集団

のデータ

少数データの数学的要約・記述

推測統計学

(

近代統計学

)

無作為抽出

逆規定

(8)

母分散：σ²≒ SS

n−1=V^*：不偏分散(偏らない分散)

母標準偏差：σ≒

√

^V^*^=SD^*：不偏標準偏差(偏らない標準偏差)

平均値の定義式から、平均値と

n

個のデータの間には

1

次従属関係がある。この関係から、平均値を固定した時、n個のデータの中で自由に変動できるデータの個数つまり独立変数の数は

(n-1)個になり、これが自由度になる。

バラツキを生み出すのは独立変数だから、バラツキの合計つまり平方和

SS

を自由度(n-1)で割り、1自由度あたりのバラツキにした方が近似が良い。

概念的には、次のように理解するとわかりやすい……かも。

推測統計学では、特に指定しない限り

V

は不偏分散を表し、SDは不偏標準偏差を表す。そしてこれは標本集団のバラツキ具合の要約値ではなく、母集団のバラツキ具合の要約値の推測値を意味する。

※正確には、母数は要約値というよりも母集団の性質を左右する定数のことであり、母数によって確率変数の挙動が決定される。

※厳密に言うと、不偏分散の平方根は不偏標準偏差にならない。しかし不偏標準偏差を正確に計算するのは非常に面倒なので、普通は不偏分散の平方根で母標準偏差を近似的に推測する。

母集団の分布は左右に広く広がっている

分布の左右の端の部分は度数が少ないため標本集団に抽出される可能性が低い

そのため標本集団の分布は左右の端が少し切れている

母集団の標準偏差を推測する時は

標本集団の標準偏差よりも少し大きな値にした方が近似が良い

平方和

SS

を

n

で割る代わりに

(n-1)

で割った値を不偏標準偏差にする

(9)

標準誤差は母平均値の推測誤差を表す推測統計学独特の要約値

標準偏差と標準誤差(SE:Standard Error)の混同は、統計学

3

大間違いの

1

つ。

＜標準誤差の求め方＞

(1) 母集団から n

例の標本集団を無作為抽出する。

(2) 標本平均を求め、それを m

1として標本平均の度数分布図にプロットする。

(3) n

例の標本集団を母集団に戻す。

(4) 母集団からまた n

(5) 標本平均を求め、それを m

2として標本平均の度数分布図にプロットする。

(6) (1)から(3)を無限回繰り返す。

(7) すると図 1.3

のような標本平均の度数分布図ができあがる。

図

1.3

の標本平均の度数分布について次のことが成り立つ。

・母集団のデータがどんな分布をしていても、この度数分布は漸近的に(nが多いほど) 正規分布に近似する。→中心極限定理 ( 推測統計学の基本定理 )

・標本平均の平均値は母平均と一致する。

μ= ¯m

標本平均の分布度数

m

₂

=55 m

SD

_m

= σ

√ ⁿ ⁼ ^SE

m=μ¯

m

₁

=60 μ

例数≒∞

σ SD

≒

母集団のデータの分布

図1.3 母集団の分布と標本平均の分布 n例を無作為抽出して

標本平均mを無限回求める

x

(10)

μ：母平均　　m：標本平均の平均値

・標本平均の標準偏差は次のような値になる。→標準誤差 SD_m= σ

√

ⁿ^≒

SD

√

ⁿ⁼^SE

SD

m：標本平均の標準偏差　　σ：母標準偏差

n：標本集団の例数　　SD：不偏標準偏差　　SE：標準誤差

標準偏差がデータのバラツキ具合を表す要約値であるのに対して、標準誤差は標本平均のバラツキ具合を表す要約値。これは、母平均を標本平均によって推測する時の推測誤差の大きさを表す推測統計学独特の値である。

＜標準誤差と標準偏差の使い分け＞

・図

1.4

のように、母平均の変化とその推測誤差範囲を表したい時は標準誤差

・図

1.5

のように、データのバラツキ具合を表したい時は標準偏差

※一般には要約値つまり統計量の標準偏差を標準誤差と呼ぶ。しかし普通は平均値について議論することが多いので、単に「SE」と書けば「平均値の標準誤差」つまり「SEM(Standard Error of Mean)」を指す。

図1.4 体重の推移

週 mean±SE 80

60

40

20

0 2 4

図1.5 錠剤の重量

B錠 mean±SD

A錠重量

μ=m±SE

：「

μ

を

m

で推測すると

SE

程度の推測誤差がある」という意味

m±SD

：「データには

m

を中心にして

SD

程度のバラツキがある」という意味

(11)

1.3 推定の考え方

推定は定量試験、検定は定性試験

推測統計学は推定(estimate)と検定(test)の

2

本柱で成り立っていて、定量試験である推定の方が重要。しかし実際の研究現場では、推定よりも検定の方が頻繁に利用されている。

これは、推定は記述式の回答が得られるのに対して、検定は○ 式の回答が得られることに大☓ きな原因があると思われる。→記述式試験よりも○☓式試験の方が採点が楽！

点推定はピンポイントの推測、区間推定は幅を持たせた推測

(1) 点推定

母平均：μ≒m：標本平均

母標準偏差：σ≒SD=

√

^V⁼

√

ⁿ⁻¹^SS ^：不^{偏標準偏差}

点推定(point estimation)は母平均を標本平均で、母標準偏差を不偏標準偏差で推測するピンポイント推測。

統計学的推論

推定母数を推測

↓

pH

計に相当

定量試験

検定定性試験母数が基準値と等しいかどうかを○ 式で推測☓

↓

リトマス試験紙に相当

(12)

(2) 区間推定

区間推定(interval estimation)は、ある程度の幅を持たせて母数を推測する。

＜母平均の区間推定法＞

μ

L～μU：95%信頼区間または信頼限界(母平均が

95%の確率で含まれる区間) μ

L：95%信頼区間下限　　　　μU：95%信頼区間上限　　　　95%：信頼係数

※厳密に言うと、SEに掛ける係数2は自由度(n-1)と信頼係数によって値が少し変わる。この係数をt値と図1.6 区間推定の模式図

σ SD≒

μ

n ∞≒

n例を無作為抽出して標本平均を無限回求める

母集団の分布

標本平均の分布と信頼区間 m

m_U

μ_L t(n-1,α)・

SE

1-α

t(n-1,α)・ SE μ_U m_L

SE=SD

√

ⁿ

m=μ̄

標本平均の分布は近似的に正規分布になり

標本平均の平均が母平均

μ

に、標本平均の標準偏差が標準誤差

SE

になる

μ±2×SE

の範囲に標本平均の約

95%

が含まれる

ある標本平均

m

が

μ±2×SE

の範囲に含まれる確率は約

95%

逆に

m±2×SE

の範囲に

μ

が含まれる確率も約

95%

μ=m±2×SE→μ

_L

=m-2×SE

、

μ

_U

=m+2×SE

(13)

いい、自由度(n-1)、信頼係数100(1-α)%の時のt値を「t(n-1,α)」と書く。

μ=m±t(n−1,α)⋅SE → μ_L=m−t(n−1,α)⋅SE ,μ_U=m+t(n−1,α)⋅SE t(60,0.05)=2 , t(60,0.01)=2.66, t(∞,

0.05)=1.96

等

標準誤差

SE

は不偏標準偏差

SD

を√nで割った値だから、例数が多くなるほど小さくなる。したがって信頼区間を狭くして母平均の値を精度良く推測するためには、データ数を多くするのが一番効率的。→下手な鉄砲も数射ちゃ当たる！

推定は、漁師(Fisher!)が水面に映った魚(Poisson!)の影

m

を見て、魚

μ

を捕まえるようなもの。

点推定は銛で一突きの方法であり、区間推定は幅のある投網を打つことに相当する。銛は手軽に扱えるが、魚に当たる確率は低い。投網を打つには技術を要するが、魚を捕まえる確率は高くなる。

そこで普通は点推定で母数を推定しておき、重要な時だけ区間推定を行うのが一般的。標準偏差は点推定だけ行うのが普通。

(14)

1.4 有意性検定の考え方

検定は定性試験だから、定量試験である推定結果から判定可能

検定は○ 式の定性試験だから、最初に問題を設定する。例えば体重の医学的な正常値を☓

50kg

とすると、

この

50kg

は検定の基準値

μ

0であり、この値は医学的に意義のある値を設定する。例えば医学的な正常値、治療前の平均値等。

この問題を検討するために、日本人全体から無作為に

100

名の標本集団を抽出して体重を測定したところ、平均値が

60kg、標準偏差(不偏標準偏差)が 10kg

だったとすると、

95%信頼区間：μ=60±

2× 10

√ ¹⁰⁰

^=60±

^{2→μ=58∼62}

この推定結果から、日本人の平均体重＝母平均

μ

は

95%の確率で 58～62kg

の間にある、つまり

μ

は

95%以上の確率で 50kg

ではないと言える。したがって、

図1.7 信頼区間と有意性検定

m=60

SD=10

μ

0

=50 μ

L

μ

U

母集団の推測分布

標本集団の度数分布

95%信頼区間

問題：日本人の平均体重は

50kg

か？

(15)

という結論が

95%以上の確率で正しく、間違っている危険性は 5%以下である。

この状態のことを「有意水準(significance level)5%で有意」または「危険率(critical rate)5%

で有意」と表現する。

例えば

95%信頼区間が 49～71kg

だったとすると、μはひょっとすると

50kg

かもしれず、95%以上の確率で

50kg

ではないと言い切れない。したがって、

この状態のことを「有意水準

5%で

有意ではない」と表現する。この結論は、

とは違うことに注意！

例えば

95%信頼区間が 49～51kg

だったら、この結論を採用しても良い。

※「保留」というと、何となく非科学的な感じがするかもしれないが、不確かなデータから得られた結果を解釈する時は確定的なことを断言する方がかえって非科学的になる。得られたデータから結論できる限界を明確にすることが「科学的」。

統計学的結論：日本人の平均体重は

50kg

ではない→問題の答えは☓

50kg

ではないと断定できない→問題の答えは保留

50kg

である→問題の答えは○

(16)

推定を利用した検定を母集団側から見て手順化したものが有意性検定

母集団は永遠に不明のため、標本集団のデータから母数を推測し、それによって推定や検定の原理を考える方が研究者にとってはわかりやすい。

しかし母集団は変動せず標本集団のデータが変動するため、母集団を基準にして推定や検定の原理を考える方が数学者にとってはわかりやすい。

＜有意性検定(test of significance)の手順＞

(1) 問題を設定する。

(2) 帰無仮説(null hypothesis)と対立仮説(alternative hypothesis)を設定する。

図1.8 有意性検定の模式図 σ SD≒

μ=μ₀

n ∞≒ SE_t=1

母集団の分布

標本平均の分布と信頼区間

t分布

m=μ₀ 0

標本平均を t値に変換する

p/2

m t_o

H₀：μ=μ₀

m_U

m_L -t(n-1,α) t(n-1,α)

α/2 α/2

SE=SD

√

n

t=m−

μ

₀ SE

μ_L μ_U

t(n-1,α)・SE

50kg

か？→

μ=μ

₀

=50?

帰無仮説

H

₀：日本人の平均体重は

50kg

である→

μ=μ

₀または

δ=μ-μ

₀

=0

対立仮説

H

₁：日本人の平均体重は

50kg

ではない→

μ≠μ

₀または

δ=μ-μ

₀

≠0

(17)

(3) 有意水準＝危険率 α(α

エラー)を決める。

(4) 母集団から n

(5) 標本集団のデータを測定して要約値を求める。

(6) 帰無仮説が正しいと仮定した時の母集団を想定し、その母集団から n

例の標本集団を無作為

抽出して標本平均を求め、それを無限回繰り返した時の標本平均の分布を描く。

(7) その標本平均の分布で、母平均を中心にして標本平均の(1-α)が含まれる範囲を求める。

この時、範囲から外れる左右の端の

α/2

の部分を棄却域という。

(8) 実際の標本平均 m

が棄却域に入っているかどうかを調べる。

○方法

1：m

と棄却域の上限または下限を比較する。

図

1.8

より、この方法は母平均の

95%信頼区間 58～62

に基準値

50

が入るかどうかを調べることと同じであることがわかる。

有意水準を

5%

にする→

α=0.05

、信頼係数

(1-α)=0.95

日本人全体から

100

名の人を無作為抽出→標本集団

100

名の体重を測定→標本平均

m=60

、不偏標準偏差

SD=10

図

1.8

の母集団の分布と標本平均の分布→

μ=μ

₀

=50

、

σ SD=10

≒ 、

SE=1

図

1.8

の標本平均の分布で標本平均の

95%

が含まれる範囲

2×SE=2

より、下限

m

_L

=48

、上限

m

_U

=52

∴ 下側棄却域：

48

以下、上側棄却域：

52

以上

(

図

1.8

の標本平均の分布の薄い灰色部分

)

95%

が含まれる範囲の幅は

95%

信頼区間と同じ

(

推定の原理

)

信頼区間は

60±2×SE

より、下限

μ

_L

=58

、上限

μ

_U

=62

60

は上側棄却域の下限

52

よりも大きいから棄却域に入っている

(18)

○方法

2：(m-μ

0

)を SE

単位で測った値

t

o

=(m-μ

0

)/SE

が、(mU

-μ

0

)を SE

単位で測った値(m-μ0

)/SE

よりも大きいかどうか調べる。

標本平均から

μ

0を引き、それを

SE

で割った値を

t

とすると、tは図

1.8

の一番右側のような

t

分布になる。この

t

分布で(mL

-μ

0

)/SE=-t(n-1,α)、(m

U

-μ

0

)/SE=t(n-1,α)。これは信頼区間を求める時に SE

に掛ける係数

t(n-1,α) 2

≒ である。

※データから平均値を引いて標準偏差で割ると、データの分布の平均値が0に、標準偏差が1になる。これをデータの標準化という。

※t値は(m-μ0)というシグナルをSEというノイズで割ったS/N比と解釈することも可能。

○方法

3：図 1.8

の

t

分布において、toから右側の濃い灰色の部分の面積(確率)＝p/2を計算し(t 値の

p

値変換)、それが

α/2

よりも小さいかどうか調べる。

実際には、toから右側の分布の面積を

2

倍した値を有意確率

p

値といい、この値が

α

(9) m

が棄却域に入っている時、帰無仮説が正しい確率は

α

以下になり、対立仮説が正しい確率

は(1-α)以上になる。

そこで有意水準

α

で有意として、対立仮説を統計学的結論として採用する。

(10) m

が棄却域に入っていない時は帰無仮説が正しい確率が

α

よりも大きくなる。

そこで有意水準

α

で有意ではないとして、統計学的結論を保留する。

(11) 統計学的結論を科学的に評価して、実質科学的結論を下す。

○有意の時…母集団の平均体重の推測値

60kg

は基準値

50kg

に比べて

10kg

重い。

これは医学的に見ると意義のある差である。

t

_o

=(m-μ

₀

)/SE=(60-50)/1=10>2

で

2

よりも大きいから棄却域に入っている

t

_o

=10

から右側の分布の面積

×2=p=10

^-16

<0.05

だから棄却域に入っている

有意水準

5%

で有意→統計学的結論：日本人の平均体重は

50kg

ではない

有意水準

5%

で有意ではない→統計学的結論：保留

(19)

○有意ではない時…母集団の平均体重の推測値

60kg

は基準値

50kg

に比べて

10kg

重い。

これは医学的に見ると意義のある差だが、推測値の信頼性が低いため確実なことは言えない。

医学的結論：日本人の平均体重は

50kg

ではなく、それよりも重い

50kg

よりも重い可能性があるがデータの信頼性が低いので結論は保留する

(20)

「有意差あり」は「実質科学的に差がある」という意味ではない

・有意…「数学的に意味が有る」つまり「統計学的結論の信頼性が高い」

・有意ではない…「数学的に意味が無い」つまり「統計学的結論の信頼性が低い」

はっきり言えば「統計学的結論を保留する」

・有意水準＝(1－信頼係数)＝危険率…間違っている危険性がこの値以下の統計学的結論だけを採用することを表す、統計学的結論の合格水準

「有意差あり＝実質科学的に有意義な差がある」や「有意差なし＝実質科学的に有意義な差はない＝等しい」という解釈は大いなる誤解。このような誤解症状は「有意症(significantosis)」とか「有意症症候群(significant syndrome)」と呼ばれる難治性疾患の一種であり、各種学会や厚生労働省等で大流行している。

この疾患の予防策の第一歩は、「有意差あり」や「有意差なし」という誤解されやすい用語を使わず、「差は有意である」や「差は有意ではない」という用語を使うことである。

図1.10 実質科学的に意味があっても有意ではない差

m=60

SD=20

↓ SE=5.2

μ0=50 n=15

95%信頼区間 48.9～71.1

図1.9 有意でも実質科学的には無意味な差

m=50.01

SD=10

↓ SE=0.005

μ0=50

95%信頼区間 50.001～50.019 n=4000000

(21)

統計学の役目はデータの要約と要約値の数学的な信頼性を評価すること

統計学の役目はデータを要約して、要約値が数学的にどの程度信頼できるかを確率的に評価し、それらの情報を実質科学的に評価してもらうために研究者に提供することである。

その要約値が実質科学的に有意義かどうかを評価するのは、あくまでもその分野の研究者の役目である。→統計学の守備範囲と実質科学の守備範囲を混同しないこと！

要約値

(

統計量

)

標本集団の

データ

実質科学的評価要約値の

統計学的結論

保留実質科学的

結論検定

再実験

有意である

有　　意　　で　　は　　な　　い　　

統計学の守備範囲実質科学の守備範囲

(22)

1.5 統計的仮説検定の考え方

統計的仮説検定は検出差を設定して有意ではない時も結論を採用する

有意性検定は検定結果が有意の時だけ結論を採用し、有意ではない時は結論を保留する。この曖昧さを改善するために開発された手法が統計的仮説検定(statistical hypothesis testing)。

例えば第

3

節の有意性検定と同じ問題を設定し、日本人全体から

100

名の標本集団を抽出して体重を測定したところ、平均値が

51kg、標準偏差(不偏標準偏差)が 10kg

だったとすると、

95%信頼区間：μ=51±2×

10 √ 100

=51±2→μ=49∼53

95%信頼区間に基準値 50kg

が含まれているため有意水準

5%で有意ではない

ここで体重の医学的な許容範囲または誤差範囲を±5kg以内とする、つまり±5kgよりも小さい体重の変動は医学的に意義がなく、無視できるとすると、45～55kg以内の体重は実質的に

50kg

と変わらないことになる。

49～53kg

という信頼区間はこの許容範囲にすっぽりと入っているから、次のような結論が

95%

以上の確率で正しいことになる。

50kg

か？

50kg

ではないと断定できないため結論保留図1.11 信頼区間と統計的仮説検定

m μ

₀

=50

μ

_L

μ

_U

95%信頼区間にμ₀が含まれない

↓

有意水準5%で有意→μ≠μ₀=50

μ

₀

+δ=55 δ=5

95%信頼区間にμ₀が含まれる

↓

有意水準5%で有意ではない→μ<μ₀+δ*=55

μ m

L

μ

U

μ

₀

-δ*=45

(23)

この結論は、

とは違うが、医学的には実質的に同じ意味になる。

±5kg

は医学的な許容範囲であり、(最小)検出差(scientific significant difference)と呼ばれる。

統計的仮説検定は検出差つまり実質科学的な許容範囲または誤差範囲と、信頼区間つまり数学的な誤差範囲を利用して、検定結果が有意ではない時も結論を採用することができる。

45kg

よりも重く

55kg

よりも軽い

＝日本人の平均体重は実質的に

50kg

と等しい→問題の答えは△

50kg

である→問題の答えは○

(24)

推定と検出差を利用した検定を母集団側から見て手順化したものが統計的仮説検定

＜統計的仮説検定の手順＞

(1) 問題を設定する。

(2) 帰無仮説と対立仮説と検出差を設定する。

図1.12 統計的仮説検定の模式図

SE

μ₀

t(n-1,2β)・SE

m_U p/2

α/2

β m H₀：μ=μ₀

H₁：μ=μ₀－δ*

μ₀+δ*

SE t(n-1,α)・SE m_U

H1：μ=μ0+δ*

μ₀－δ*

SE

mL

m_L α/2

β δ* δ*

μL μU

50kg

か？→

μ=μ

₀

=50?

帰無仮説

H

50kg

である→

μ=μ

₀または

δ=μ-μ

₀

=0

(25)

※有意性検定の対立仮説「日本人の平均体重は50kgではない」は帰無仮説の否定であり、具体的な仮説ではない。それに対して上記の対立仮説は具体的な仮説である点に注意。

(3) 有意水準 α(α

エラー)と検出力＝1－β(βエラー)を決める。

(4) 母集団から n

(5) 標本集団のデータを測定して要約値を求める。

(6) 帰無仮説が正しいと仮定した時の母集団と、対立仮説が正しいと仮定した時の母集団を想定

し、その母集団から

n

例の標本集団を無作為抽出して標本平均を求め、それを無限回繰り返した時の標本平均の分布を描く。

(7) 帰無仮説が正しいと仮定した時の標本平均の分布で、分布の左右の端にそれぞれ α/2

の面

積の棄却域を設定する。

この時、図

1.12

の左側の標本平均の分布で、mL

=48kg

以上の範囲の面積(確率)は

β

になり、

有意水準を

5%

にする→

α=0.05

、信頼係数

(1-α)=0.95

検出力を

80%

にする→

(1-β)=0.8

、

β=0.2

対立仮説

H

45kg

または

55kg

である

→μ=μ

₀

±δ*=μ

₀

±5

または

δ=μ-μ

₀

=±δ*=±5

日本人全体から

100

名の人を無作為抽出→標本集団

100

名の体重を測定→標本平均

m=51

、不偏標準偏差

SD=10

図

1.12

の

3

種類の標本平均の分布→

μ

₀

=50

、

μ

₀

-δ*=45

、

μ

₀

+δ*=55

、

SE=1

図

1.12

の標本平均の分布で標本平均の

95%

が含まれる範囲

2×SE=2

より、下限

m

_L

=48

、上限

m

_U

=52

∴ 下側棄却域：

48

以下、上側棄却域：

52

以上

(

図

1.12

の中央の標本平均の分布の薄い灰色部分

)

(26)

右側の標本平均の分布で、mU

=52kg

以下の範囲の面積も

β

になる。これら

2

つの範囲は対立仮説の棄却域に相当する。

※対立仮説の棄却域は左右の標本平均の分布の片側にしかなく、その面積はβ/2ではなくβになる。これはμ=μ0－δ*とμ=μ0+δ*はどちらか一方しか起こらないため、βを2つに分ける必要がないからである。

(8) 実際の標本平均値 m

が棄却域に入っているかどうかを調べる。

○方法

1：m

と棄却域の上限または下限を比較する。

○方法

2：μ

0と

m

の距離(m-μ0

)が(m

U

-μ

0

)よりも大きいかどうか調べる。

○方法

3：t

分布において、toから右側の確率＝p/2を計算して

2

倍し、それが

α

(9) m

が棄却域に入っている時は有意水準

α

で有意として、帰無仮説を否定した仮説を統計学的

結論として採用する。

これは対立仮説「日本人の平均体重は

45kg

または

55kg

である」の採用ではない点に注意！

(10) m

が棄却域に入っていない時は有意水準

α

で有意ではないとして、対立仮説を否定した結

論を統計学的結論として採用する。

(11) 統計学的結論を科学的に評価して、実質科学的結論を下す。

95%

信頼区間は

51±2×SE

より、下限

μ

_L

=49

、上限

μ

_U

=53

51

は上側棄却域の下限

52

よりも小さいから棄却域に入っていない

51-50=1

は

52-50=2

よりも小さいから棄却域に入っていない

t

_o

=1

から右側の分布の面積

×2=p=0.3198>0.05

だから棄却域に入っていない

有意水準

5%

で有意→統計学的結論：日本人の平均体重は

50kg

ではない

有意水準

5%

で有意ではない

→統計学的結論：日本人の平均体重は

45kg

よりも重く

55kg

よりも軽い

(27)

○有意の時…母集団の平均体重の推測値

51kg

は基準値

50kg

に比べて

1kg

重い。

これは医学的に見ると意義のない差である。

○有意ではない時…母集団の平均体重は

45kg

よりも大きく

55kg

よりも小さい。

これは医学的に見ると実質的に

50kg

と等しい。

統計的仮説検定には2種類のエラーがある

統計的結論

有意：μ≠μ0 有意ではない：|μ－μ0

|<δ*

真実

H

0：μ=μ0

α 1－α

H

1：μ=μ0

±δ* 1－β β

・α：αエラーまたは第

1

種のエラーまたはアワテの言い過ぎ

帰無仮説

μ=μ

0が正しい時に、アワテて

μ≠μ

0と言い過ぎてしまう確率。偽陽性率。

・β：βエラーまたは第

2

種のエラーまたはボンヤリの見逃し

対立仮説

μ=μ

0

±δ*が正しい時に、ボンヤリしていて|μ－μ

0

|<δ*と見逃してしまう確率。偽

陰性率。

・1－β：検出力

対立仮説

μ=μ

0

±δ*が正しい時に、μ≠μ

0と違いを検出する確率。感度。

普通は

α=0.05、β=0.2

つまり有意水準を

5%、検出力を 80%程度にする。しかし α

エラーと

β

エラーは同等なので、本当は

α=β

にするのが合理的である。

50kg

ではないが、実質的には

50kg

と変わらない

医学的結論：日本人の平均体重は実質的に

50kg

と等しい

(28)

検定には片側検定と両側検定がある

次のような限定した問題の場合、対立仮説が単純になり、帰無仮説が正しいと仮定した時の標本平均の分布と、対立仮説が正しいと仮定した時の標本平均の分布は図

1.13

のようになる。

50kg

よりも重いか？→

μ>μ

₀

=50?

帰無仮説

H

50kg

である→

μ=μ

₀または

δ=μ-μ

₀

=0

対立仮説

H

55kg

である

→μ=μ

₀

+δ*=μ

₀

+5

または

δ=μ-μ

₀

=+δ*=+5

図1.13 統計的仮説検定の模式図(片側検定)

SE

μ₀

t(n-1,2β)・SE

m_U p

α

β m H0：μ=μ0

μ₀+δ*

SE t(n-1,2α)・SE m_U

H₁：μ=μ₀+δ*

δ*

μ_L μ_U

(29)

図

1.13

のように帰無仮説が正しいと仮定した時の標本平均の分布の片側だけに棄却域を設定する検定を片側検定(one-taild test)といい、図

1.12

のように分布の両側に棄却域を設定する検定を両側検定(two-taild test)という。

＜片側検定の特徴＞

・有意水準

α

を分布の片側だけに割り振るため、棄却域の下限値

m

Uが両側検定の

m

Uよりも少し小さくなる。

・統計学の教科書などに載っている

t

分布表は普通は両側検定用なので、片側検定の時は

t(φ,2α)を用いる必要がある。

・検定の基本は片側検定であり、問題に合わせて適切な検定統計量を選択すれば全ての検定は片側検定として実施可能。

※区間推定にも片側信頼区間と両側信頼区間がある。片側信頼区間は下限を--∞にして上限をμUするか、下限をμLにして上限を∞にする。しかし片側信頼区間は不自然で使いづらいので、普通は両側信頼区間を用いる。

F検定はt検定の両側検定と同等の片側検定

この問題を検定したい時、t値を平方した

F

値を検定統計量にすれば、t検定の両側検定と同図1.14 標本平均の分布とF分布

σ SD≒

μ=μ₀ n ∞≒

母集団の分布標本平均の分布 F分布

m=μ₀ 0

標本平均を F値に変換する

p m F

p/2 SE=SD

√

ⁿ

F=( m− μ

₀

SE )

2

50kg

か？→

μ=μ

₀

=50?

(30)

等の検定を片側検定として行うことが可能。

このように

F

値を利用した検定のことを

F

検定という。F検定は分散分析でも用いられる。

両側検定は標本平均の分布の両側に棄却域を設定する検定であり、母平均が基準値と異なっているかどうか、つまり母平均が基準値よりも小さいか、それとも基準値よりも大きいかという

2

種類の仮説を検定するものではないので注意！

検定の基本は片側検定なので、「母平均が基準値よりも大きいか？」という問題を検定したい時は片側の

t

検定を用い、「母平均が基準値と異なっているか？」という問題を検定したい時は片側の

F

検定を用いるのがお薦め。

(31)

統計的仮説検定は事前に試験の必要例数を計算しなければらない

図

1.12

より、統計的仮説検定では

δ*={t(n-1,α)+t(n-1,2β)}・SE

という関係がある。この式と

SE=σ/√n

から、標本集団の例数を理論的に求めることが可能。

それを必要例数の計算式といい、この式を利用して試験計画の段階で必要例数を求める。

n=

[

^{t^(∞^,^α)+t^(∞^,

²

^{β)}⋅ σ}_δ^*

]

²

σ：母集団の標準偏差推測値。予備試験や先行研究の結果から推測。

σ

は事前の推測値のため、実際に標本集団のデータから推測した母標準偏差推測値とは異なる時がある。

そこで試験終了後、実際の例数と母標準偏差推測値から実際の検出差

δ

を計算し、それが事前に設定した検出差

δ*以下であるかどうかを検討する。これを検出力分析(power analysis)とい

う。

δ={t(n−1,α)+t(n−1,2β)}⋅SE SE=SD

√

ⁿ

簡単に言えば、これは統計的仮説検定は信頼区間つまり数学的な誤差範囲を、検出差つまり実質科学的な誤差範囲以下にしなければならない、という意味である。

信頼区間の幅は

SE

に比例し、SEは√nに反比例して小さくなるため、信頼区間を検出差以下にするのに必要な例数、つまり標本集団の例数を理論的に求めることが可能になる。

(32)

検定結果だけから実質科学的な判断をするのは危険！

検定結果推定結果実質科学的な判断

(1)

有意ではない

μ μ

≒ 0 母平均は基準値とほぼ等しい

(2)

有意ではない

μ=μ

0～μ0

+δ*

この結果だけでは判断できない

検出力をもっと高くする必要がある(例数を増やす)

(3)

有意

μ

0

<μ<μ

0

+δ*

母平均は基準値と実質的に変わらない

(4)

有意

μ μ

≒ 0

+δ*

母平均は基準値と実質的に変わらない可能性が高い

(5)

有意

μ μ

≒ 0

+δ*

母平均は基準値よりも大きい可能性が高い

(6)

有意

μ

0

+δ*<μ

母平均は基準値よりも大きい

図

1.15

と上表から、実質科学的な判断は定性試験である検定結果よりも、定量試験である推定結果に基づいた方が良いことと、検定結果だけから実質科学的な判断をするのは危険であることがわかる。

※このことから検定廃止論を主張する統計学派が存在する。実際、生物学的同等性試験では推定結果を重視し、検定結果は参考程度である。

図1.15 検定結果と信頼区間

m μ

₀

μ

L

μ

U

(1)

μ

₀

+δ*

δ*

(2) (3)

(4) (5)

(6)

μ

₀

-δ*

(33)

第第

1 1

章　章　演習問題演習問題

第1問　次の文章について正しいものには○を、間違っているものには☓を付けよ。

(1) 推測統計学は近代統計学と呼ばれることもある。(　　)

(2) 標準偏差はデータのバラツキ具合を表し、標準誤差と呼ばれることもある。(　　) (3) 検定は厳密な結論が得られるため、検定を行えば推定を行う必要はない。(　　) (4) 検定の有意水準は試験計画段階で決めておく必要がある。(　　)

(5) 「有意差あり」とは「医学的に有意義な差がある」という意味である。(　　)

第2問　次の文章の括弧の中に、下記の罫線枠の中から適当な語句を選んで入れよ。

推測統計学は標本集団の要約値から( 1 　　　　)の要約値つまり母数を確率的に推測するが、その推測方法には( 2 　　　　　　)と( 3 　　　　　　)の

2

種類がある。( 2 　　　　　　) は母数がどのくらいの値なのかを推測する手法であり、( 4 　　　　　　)に相当する。それに対して( 3 　　　　　　)は母数が実質科学的に有意義な基準値と等しいかどうかを○ 式で推測す☓ る手法であり、( 5 　　　　　　)に相当する。

母集団　標本集団　武装集団　推定　検定　不安定　定量試験　定性試験　共通

1

次試験

第3問　次の文章の括弧の中に適当な語句を入れよ。

統計的仮説検定では「母平均と基準値が等しい」という( 1 　　　　　　)が正しいにもかかわらず、あわてて「母平均と基準値は異なる」と言い過ぎてしまう確率

α

のことを

α

エラーまたは

( 2 　　　　　　)または( 3 　　　　　　)といい、これは診断学における( 4 　　　　　　)に相

当する。それに対して「母平均は基準値に( 5 　　　　　　)をプラスまたはマイナスした値と等しい」という( 6 　　　　　　)が正しいにもかからわず、ぼんやりして「母平均は基準値±( 5 　　　

(34)

)の範囲内である」と差を見逃してしまう確率 β

のことを

β

エラーまたは( 7 　　　　　　)といい、

これは診断学における( 8 　　　　　　)に相当する。そして(1-β)のことを( 9 　　　　　　)といい、診断学における( 10 　　　　　　)に相当する。

第4問　次の条件で行う試験について必要例数を求めよ。またその試験の結果について検出力分析を行い、試験の検出力が事前の条件を満足しているかどうかを検討せよ。

○試験内容：ある疾患について評価項目の平均値を基準値と比較する試験(1群試験)

○試験条件：有意水準

5％、検出力 80％、評価項目の検出差 2、母標準偏差推測値 5

○試験結果：例数

61

例、評価項目の不偏標準偏差

6

※t(∞,0.05)=1.96, t(∞,0.4)=0.842, t(60,0.05)=2, t(60,0.4)=0.848

第5問　有意性検定と統計的仮説検定の違いを説明し、両者の長所と短所について論ぜよ。

1.1 統計学とは何ぞや？

1

1．統計学の基本的な概念