1
1.統計学の基本的な概念
.統計学の基本的な概念1.1 統計学とは何ぞや?
統計学は沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段
<例>100人の日本人について体重を測定した場合
※統計学では平均値のような要約値または代表値のことを統計量と呼ぶ。厳密に言うと、確率的に変動 する個々のデータを確率変数と呼び、確率変数xの関数として定義される値z=f(x)を統計量と呼ぶ。
※本書では平均値のように複数のデータを四則演算によって要約した統計量を要約値と呼び、そのよ うな要約をしないポイント的な統計量を代表値と呼ぶことにする。要約値は中心極限定理によって近 似的に正規分布するが、代表値は正規分布するとは限らない。
100
個のデータを眺めただけでそこに含まれる情報を読み取るのは困難100
個のデータのほぼ真ん中を表す要約値として平均値を求める平均値が
60kg
だった「
100
人の日本人の体重はだいたい60kg
ぐらいである」という情報を読み取ることができる「日本人の体重はだいたい
60kg
ぐらいである」と推測する 要約値(
統計量)
データ データ データ データ データ データ
実質科学的評価
医学・薬学分野の研究で用いられるのは推測統計学
・記述統計学
調査対象集団=母集団のデータを要約し、母集団の情報を数学的に記述することが中心で、
古典統計学とも呼ばれる。
国勢調査で用いられる統計手法が代表例。
・推測統計学または推計学
母集団から無作為抽出した標本集団の要約値から母集団の要約値を確率的に推測し、それ によって母集団の様子を数学的に記述することが中心で、近代統計学とも呼ばれる。
科学実験や世論調査で用いられる統計手法が代表例。
医学・薬学分野の研究(臨床試験、臨床研究等)では主として推測統計学が用いられるが、こ の分野独特の特徴がある。
確率的推測・記述 のデータ母集団
多数データの 数学的要約・記述
記述統計学
(
古典統計学)
母集団
(
準母集団)
標本集団のデータ
少数データの 数学的要約・記述
推測統計学
(
近代統計学)
無作為抽出逆規定
医学・薬学分野の研究は準母集団を対象にする点が特徴
医学・薬学分野の研究では特定の疾患の患者を母集団にすることが多い
患者全体を正確に特定することは事実上不可能
母集団から標本集団を無作為抽出することも不可能
ある医療施設をたまたま受診した患者をとりあえず標本集団にする
標本集団の背景因子
(
集団の特徴を表す項目、性別、年齢等)
を調査背景因子から母集団となるべき集団=準母集団を逆規定
※ 論文の最初に載せる患者背景表は準母集団を規定するためのもの
準母集団と本当の母集団は微妙にずれる
同じような研究を行なっても準母集団がずれると結果もずれる
医学・薬学分野の研究の特徴≒限界
母集団 準母集団 標本集団
非無作為抽出 逆規定
1.2 データの要約方法
データの要約はグラフ化から
データを要約する時は、まず初めにデータを見やすいようにグラフ化する。それには横軸にデー タの値を取り、縦軸にそのデータの数をプロットした度数分布図(frequency distribution)を用い る。
一般的な度数分布図では、データの値をいくつかの区間に区切り、その区間の中に入るデータ の数を柱状グラフとしてプロットする。
<度数分布図を描くメリット>
・データを感覚的に把握することができる→百聞は一見にしかず!
・データの内容についてある程度の情報を得ることができる
・データの解析方法について有益なヒントが得られる 図1.1 度数分布図
度数
体重
度数分布図を理想化したものが正規分布
度数分布においてデータの数→無限大、区切り幅→無限小とすると、理想的には正規分布
(normal distribution、ガウス分布)になる。
<正規分布の特徴>
・平均値を中心にして左右対称
・平均値の度数が最も多く、平均値から離れるほど度数が減るベル型の分布
・数学的な取り扱いが比較的簡単
・現実のデータの度数分布を描くと、多くのものが近似的に正規分布になる
・厳密に言うと、現実には有り得ない理想分布→理想気体のようなもの 図1.2 正規分布
度数
μ=60
体重σ=10
最初の要約値は度数分布の中心を表す平均値
度数分布を眺めながら、データ内容を把握するのに適した要約値を検討する。最初の要約値と して、普通は度数分布の中心を表す値である平均値(mean)を求める。
平均値:m=¯x=x1+⋯+xi+⋯+xn
n =
1
n
∑
i=1 n
xi=
∑
xn
x
i:i番目のデータ<平均値の特徴>
・分布の重心を表す→全てのデータを均等に反映する
・正規分布では分布の中心を表す
次の要約値はデータのバラツキ具合を表す標準偏差
次の要約値として、普通は度数分布の幅つまりデータのバラツキ具合を表す値である標準偏 差(SD:Standard Deviation)を求める。
偏差(バラツキの定義):di=xi−m
平方和:SS=Sx x=
∑
i=1 n
di2=
∑
(xi−m)2分散:V=SS
n =
∑
di2n =
∑
(xi−m)2n
標準偏差:s=SD=
√
V=√
SSn =√ ∑ndi2=√ ∑(xni−m)2
正規分布は例数、平均値、標準偏差によって分布の形が完全に決まる。そして現実のデータの 度数分布は近似的に正規分布になる。そのため普通は例数、平均値、標準偏差によってデータを 要約し、データに含まれる情報を把握する。
<標準偏差の特徴>
・データ
1
個あたりのバラツキ具合を表す・正規分布では平均値から分布の変曲点までの距離になる(図
1.2
参照)・正規分布では平均値±標準偏差の間に全データの約
68%が含まれる
・正規分布では平均値±2×標準偏差の間に全データの約
95%が含まれる
推測統計学では標本集団の要約値から母集団の要約値を推測することが重要
推測統計学の目的は標本集団の要約値を求めることではなく、標本集団の要約値から母集団 の要約値つまり母数(parameter)を推測すること。
常識的には、次のようにして近似的に推測できると考えられる。
母平均(母集団の平均値):μ≒m:標本平均(標本集団の平均値) 母分散(母集団の分散):σ2≒V:標本分散(標本集団の分散)
母標準偏差(母集団の標準偏差):σ≒SD:標本標準偏差(標本集団の標準偏差)
※母数はギリシャ文字で表す習慣がある。
※しかし母分散はVに相当するギリシャ文字がないためσ2で表す。
ところが実際には、母分散と母標準偏差は次の式の方が近似が良い。
確率的推測・記述 のデータ母集団
多数データの 数学的要約・記述
記述統計学
(
古典統計学)
(
準母集団母集団)
標本集団のデータ
少数データの 数学的要約・記述
推測統計学
(
近代統計学)
無作為抽出逆規定
母分散:σ2≒ SS
n−1=V*:不偏分散(偏らない分散)
母標準偏差:σ≒
√
V*=SD*:不偏標準偏差(偏らない標準偏差)平均値の定義式から、平均値と
n
個のデータの間には1
次従属関係がある。この関係から、平 均値を固定した時、n個のデータの中で自由に変動できるデータの個数つまり独立変数の数は(n-1)個になり、これが自由度になる。
バラツキを生み出すのは独立変数だから、バラツキの合計つまり平方和
SS
を自由度(n-1)で割 り、1自由度あたりのバラツキにした方が近似が良い。概念的には、次のように理解するとわかりやすい……かも。
推測統計学では、特に指定しない限り
V
は不偏分散を表し、SDは不偏標準偏差を表す。そし てこれは標本集団のバラツキ具合の要約値ではなく、母集団のバラツキ具合の要約値の推測 値を意味する。※正確には、母数は要約値というよりも母集団の性質を左右する定数のことであり、母数によって確率変 数の挙動が決定される。
※厳密に言うと、不偏分散の平方根は不偏標準偏差にならない。しかし不偏標準偏差を正確に計算する のは非常に面倒なので、普通は不偏分散の平方根で母標準偏差を近似的に推測する。
母集団の分布は左右に広く広がっている
分布の左右の端の部分は度数が少ないため標本集団に抽出される可能性が低い
そのため標本集団の分布は左右の端が少し切れている
母集団の標準偏差を推測する時は
標本集団の標準偏差よりも少し大きな値にした方が近似が良い
平方和
SS
をn
で割る代わりに(n-1)
で割った値を不偏標準偏差にする標準誤差は母平均値の推測誤差を表す推測統計学独特の要約値
標準偏差と標準誤差(SE:Standard Error)の混同は、統計学
3
大間違いの1
つ。<標準誤差の求め方>
(1) 母集団から n
例の標本集団を無作為抽出する。(2) 標本平均を求め、それを m
1として標本平均の度数分布図にプロットする。(3) n
例の標本集団を母集団に戻す。(4) 母集団からまた n
例の標本集団を無作為抽出する。(5) 標本平均を求め、それを m
2として標本平均の度数分布図にプロットする。(6) (1)から(3)を無限回繰り返す。
(7) すると図 1.3
のような標本平均の度数分布図ができあがる。図
1.3
の標本平均の度数分布について次のことが成り立つ。・母集団のデータがどんな分布をしていても、この度数分布は漸近的に(nが多いほど) 正規分布に近似する。→中心極限定理 ( 推測統計学の基本定理 )
・標本平均の平均値は母平均と一致する。
μ= ¯m
標本平均の分布 度数
m
2=55 m
SD
m= σ
√ n = SE
m=μ¯
m
1=60 μ
例数≒∞
σ SD
≒母集団のデータの分布
図1.3 母集団の分布と標本平均の分布 n例を無作為抽出して
標本平均mを 無限回求める
x
μ:母平均 m:標本平均の平均値
・標本平均の標準偏差は次のような値になる。→標準誤差 SDm= σ
√
n≒SD
√
n=SESD
m:標本平均の標準偏差 σ:母標準偏差n:標本集団の例数 SD:不偏標準偏差 SE:標準誤差
標準偏差がデータのバラツキ具合を表す要約値であるのに対して、標準誤差は標本平均のバ ラツキ具合を表す要約値。これは、母平均を標本平均によって推測する時の推測誤差の大きさ を表す推測統計学独特の値である。
<標準誤差と標準偏差の使い分け>
・図
1.4
のように、母平均の変化とその推測誤差範囲を表したい時は標準誤差・図
1.5
のように、データのバラツキ具合を表したい時は標準偏差※一般には要約値つまり統計量の標準偏差を標準誤差と呼ぶ。しかし普通は平均値について議論するこ とが多いので、単に「SE」と書けば「平均値の標準誤差」つまり「SEM(Standard Error of Mean)」を指す。
図1.4 体重の推移
週 mean±SE 80
60
40
20
0 2 4
図1.5 錠剤の重量
B錠 mean±SD
A錠 重量
μ=m±SE
:「μ
をm
で推測するとSE
程度の推測誤差がある」という意味m±SD
:「データにはm
を中心にしてSD
程度のバラツキがある」という意味1.3 推定の 考え方
推定は定量試験、検定は定性試験
推測統計学は推定(estimate)と検定(test)の
2
本柱で成り立っていて、定量試験である推定の 方が重要。しかし実際の研究現場では、推定よりも検定の方が頻繁に利用されている。これは、推定は記述式の回答が得られるのに対して、検定は○ 式の回答が得られることに大☓ きな原因があると思われる。→記述式試験よりも○☓式試験の方が採点が楽!
点推定はピンポイントの推測、区間推定は幅を持たせた推測
(1) 点推定
母 平 均:μ≒m:標 本 平 均
母標準偏差:σ≒SD=
√
V=√
n−1SS :不偏標準偏差点推定(point estimation)は母平均を標本平均で、母標準偏差を不偏標準偏差で推測するピ ンポイント推測。
統計学的推論
推定 母数を推測
↓
pH
計に相当定量試験
検定 定性試験 母数が基準値と等しいか どうかを○ 式で推測☓
↓
リトマス試験紙に相当
(2) 区間推定
区間推定(interval estimation)は、ある程度の幅を持たせて母数を推測する。
<母平均の区間推定法>
μ
L~μU:95%信頼区間または信頼限界(母平均が95%の確率で含まれる区間) μ
L:95%信頼区間下限 μU:95%信頼区間上限 95%:信頼係数※厳密に言うと、SEに掛ける係数2は自由度(n-1)と信頼係数によって値が少し変わる。この係数をt値と 図1.6 区間推定の模式図
σ SD≒
μ
n ∞≒
n例を無作為抽出して 標本平均を無限回求める
母集団の分布
標本平均の分布と信頼区間 m
mU
μL t(n-1,α)・
SE
1-α
t(n-1,α)・ SE μU mL
SE=SD
√
nm=μ̄
標本平均の分布は近似的に正規分布になり
標本平均の平均が母平均
μ
に、標本平均の標準偏差が標準誤差SE
になるμ±2×SE
の範囲に標本平均の約95%
が含まれるある標本平均
m
がμ±2×SE
の範囲に含まれる確率は約95%
逆に
m±2×SE
の範囲にμ
が含まれる確率も約95%
μ=m±2×SE→μ
L=m-2×SE
、μ
U=m+2×SE
いい、自由度(n-1)、信頼係数100(1-α)%の時のt値を「t(n-1,α)」と書く。
μ=m±t(n−1,α)⋅SE → μL=m−t(n−1,α)⋅SE ,μU=m+t(n−1,α)⋅SE t(60,0.05)=2 , t(60,0.01)=2.66, t(∞,
0.05)=1.96
等標準誤差
SE
は不偏標準偏差SD
を√nで割った値だから、例数が多くなるほど小さくなる。し たがって信頼区間を狭くして母平均の値を精度良く推測するためには、データ数を多くするのが 一番効率的。→下手な鉄砲も数 射ちゃ 当たる!推定は、漁師(Fisher!)が水面に映った魚(Poisson!)の影
m
を見て、魚μ
を捕まえるようなもの。点推定は銛で一突きの方法であり、区間推定は幅のある投網を打つことに相当する。銛は手軽 に扱えるが、魚に当たる確率は低い。投網を打つには技術を要するが、魚を捕まえる確率は高くな る。
そこで普通は点推定で母数を推定しておき、重要な時だけ区間推定を行うのが一般的。標準 偏差は点推定だけ行うのが普通。
1.4 有意性検定の考え方
検定は定性試験だから、定量試験である推定結果から判定可能
検定は○ 式の定性試験だから、最初に問題を設定する。例えば体重の医学的な正常値を☓
50kg
とすると、この
50kg
は検定の基準値μ
0であり、この値は医学的に意義のある値を設定する。例えば医学 的な正常値、治療前の平均値等。この問題を検討するために、日本人全体から無作為に
100
名の標本集団を抽出して体重を測 定したところ、平均値が60kg、標準偏差(不偏標準偏差)が 10kg
だったとすると、95%信頼区間:μ=60±
2× 10
√ 100
=60±2→μ=58∼62
この推定結果から、日本人の平均体重=母平均
μ
は95%の確率で 58~62kg
の間にある、つま りμ
は95%以上の確率で 50kg
ではないと言える。したがって、図1.7 信頼区間と有意性検定
m=60
SD=10
μ
0=50 μ
L
μ
U
母集団の推測分布
標本集団の 度数分布
95%信頼区間
問題:日本人の平均体重は
50kg
か?という結論が
95%以上の確率で正しく、間違っている危険性は 5%以下である。
この状態のことを「有意水準(significance level)5%で有意」または「危険率(critical rate)5%
で有意」と表現する。
例えば
95%信頼区間が 49~71kg
だったとすると、μはひょっとすると50kg
かもしれず、95%以 上の確率で50kg
ではないと言い切れない。したがって、この状態のことを「有意水準
5%で
有意ではない」と表現する。この結論は、とは違うことに注意!
例えば
95%信頼区間が 49~51kg
だったら、この結論を採用しても良い。※「保留」というと、何となく非科学的な感じがするかもしれないが、不確かなデータから得られた結果を 解釈する時は確定的なことを断言する方がかえって非科学的になる。得られたデータから結論できる限 界を明確にすることが「科学的」。
統計学的結論:日本人の平均体重は
50kg
ではない→問題の答えは☓統計学的結論:日本人の平均体重は
50kg
ではないと断定できない→問題の答えは保留統計学的結論:日本人の平均体重は
50kg
である→問題の答えは○推定を利用した検定を母集団側から見て手順化したものが有意性検定
母集団は永遠に不明のため、標本集団のデータから母数を推測し、それによって推定や検定 の原理を考える方が研究者にとってはわかりやすい。
しかし母集団は変動せず標本集団のデータが変動するため、母集団を基準にして推定や検定 の原理を考える方が数学者にとってはわかりやすい。
<有意性検定(test of significance)の手順>
(1) 問題を設定する。
(2) 帰無仮説(null hypothesis)と対立仮説(alternative hypothesis)を設定する。
図1.8 有意性検定の模式図 σ SD≒
μ=μ0
n ∞≒ SEt=1
n例を無作為抽出して 標本平均を無限回求める
母集団の分布
標本平均の分布と信頼区間
t分布
m=μ0 0
標本平均を t値に変換する
p/2
m to
H0:μ=μ0
mU
mL -t(n-1,α) t(n-1,α)
α/2 α/2
α/2 α/2
SE=SD
√
nt=m−
μ
0 SEμL μU
t(n-1,α)・SE
問題:日本人の平均体重は
50kg
か?→μ=μ
0=50?
帰無仮説
H
0:日本人の平均体重は50kg
である→μ=μ
0またはδ=μ-μ
0=0
対立仮説
H
1:日本人の平均体重は50kg
ではない→μ≠μ
0またはδ=μ-μ
0≠0
(3) 有意水準=危険率 α(α
エラー)を決める。(4) 母集団から n
例の標本集団を無作為抽出する。(5) 標本集団のデータを測定して要約値を求める。
(6) 帰無仮説が正しいと仮定した時の母集団を想定し、その母集団から n
例の標本集団を無作為抽出して標本平均を求め、それを無限回繰り返した時の標本平均の分布を描く。
(7) その標本平均の分布で、母平均を中心にして標本平均の(1-α)が含まれる範囲を求める。
この時、範囲から外れる左右の端の
α/2
の部分を棄却域という。(8) 実際の標本平均 m
が棄却域に入っているかどうかを調べる。○方法
1:m
と棄却域の上限または下限を比較する。図
1.8
より、この方法は母平均の95%信頼区間 58~62
に基準値50
が入るかどうかを調べるこ とと同じであることがわかる。有意水準を
5%
にする→α=0.05
、信頼係数(1-α)=0.95
日本人全体から
100
名の人を無作為抽出→標本集団100
名の体重を測定→標本平均m=60
、不偏標準偏差SD=10
図
1.8
の母集団の分布と標本平均の分布→μ=μ
0=50
、σ SD=10
≒ 、SE=1
図
1.8
の標本平均の分布で標本平均の95%
が含まれる範囲2×SE=2
より、下限m
L=48
、上限m
U=52
∴ 下側棄却域:
48
以下、上側棄却域:52
以上(
図1.8
の標本平均の分布の薄い灰色部分)
95%
が含まれる範囲の幅は95%
信頼区間と同じ(
推定の原理)
信頼区間は60±2×SE
より、下限μ
L=58
、上限μ
U=62
60
は上側棄却域の下限52
よりも大きいから棄却域に入っている○方法
2:(m-μ
0)を SE
単位で測った値t
o=(m-μ
0)/SE
が、(mU-μ
0)を SE
単位で測った値(m-μ0)/SE
よりも大きいかどうか調べる。標本平均から
μ
0を引き、それをSE
で割った値をt
とすると、tは図1.8
の一番右側のようなt
分 布になる。このt
分布で(mL-μ
0)/SE=-t(n-1,α)、(m
U-μ
0)/SE=t(n-1,α)。これは信頼区間を求める時に SE
に掛ける係数t(n-1,α) 2
≒ である。※データから平均値を引いて標準偏差で割ると、データの分布の平均値が0に、標準偏差が1になる。こ れをデータの標準化という。
※t値は(m-μ0)というシグナルをSEというノイズで割ったS/N比と解釈することも可能。
○方法
3:図 1.8
のt
分布において、toから右側の濃い灰色の部分の面積(確率)=p/2を計算し(t 値のp
値変換)、それがα/2
よりも小さいかどうか調べる。実際には、toから右側の分布の面積を
2
倍した値を有意確率p
値といい、この値がα
よりも小 さいかどうか調べる。(9) m
が棄却域に入っている時、帰無仮説が正しい確率はα
以下になり、対立仮説が正しい確率は(1-α)以上になる。
そこで有意水準
α
で有意として、対立仮説を統計学的結論として採用する。(10) m
が棄却域に入っていない時は帰無仮説が正しい確率がα
よりも大きくなる。そこで有意水準
α
で有意ではないとして、統計学的結論を保留する。(11) 統計学的結論を科学的に評価して、実質科学的結論を下す。
○有意の時…母集団の平均体重の推測値
60kg
は基準値50kg
に比べて10kg
重い。これは医学的に見ると意義のある差である。
t
o=(m-μ
0)/SE=(60-50)/1=10>2
で2
よりも大きいから棄却域に入っているt
o=10
から右側の分布の面積×2=p=10
-16<0.05
だから棄却域に入っている有意水準
5%
で有意→統計学的結論:日本人の平均体重は50kg
ではない有意水準
5%
で有意ではない→統計学的結論:保留○有意ではない時…母集団の平均体重の推測値
60kg
は基準値50kg
に比べて10kg
重い。これは医学的に見ると意義のある差だが、推測値の信頼性が低いため確実なことは言えない。
医学的結論:日本人の平均体重は
50kg
ではなく、それよりも重い医学的結論:日本人の平均体重は
50kg
よりも重い可能性があるが データの信頼性が低いので結論は保留する「有意差あり」は「実質科学的に差がある」という意味ではない
・有意…「数学的に意味が有る」つまり「統計学的結論の信頼性が高い」
・有意ではない…「数学的に意味が無い」つまり「統計学的結論の信頼性が低い」
はっきり言えば「統計学的結論を保留する」
・有意水準=(1-信頼係数)=危険率…間違っている危険性がこの値以下の統計学的結論だけを 採用することを表す、統計学的結論の合格水準
「有意差あり=実質科学的に有意義な差がある」や「有意差なし=実質科学的に有意義な差 はない=等しい」という解釈は大いなる誤解。このような誤解症状は「有意症(significantosis)」と か「有意症症候群(significant syndrome)」と呼ばれる難治性疾患の一種であり、各種学会や厚 生労働省等で大流行している。
この疾患の予防策の第一歩は、「有意差あり」や「有意差なし」という誤解されやすい用語を 使わず、「差は有意である」や「差は有意ではない」という用語を使うことである。
図1.10 実質科学的に意味があっても 有意ではない差
m=60
SD=20
↓ SE=5.2
μ0=50 n=15
95%信頼区間 48.9~71.1
図1.9 有意でも実質科学的には 無意味な差
m=50.01
SD=10
↓ SE=0.005
μ0=50
95%信頼区間 50.001~50.019 n=4000000
統計学の役目はデータの要約と要約値の数学的な信頼性を評価すること
統計学の役目はデータを要約して、要約値が数学的にどの程度信頼できるかを確率的に評価 し、それらの情報を実質科学的に評価してもらうために研究者に提供することである。
その要約値が実質科学的に有意義かどうかを評価するのは、あくまでもその分野の研究者の 役目である。→統計学の守備範囲と実質科学の守備範囲を混同しないこと!
要約値
(
統計量)
標本集団のデータ
実質科学的評価要約値の
統計学的結論
保留 実質科学的
結論 検定
再実験
有意である
有 意 で は な い
統計学の守備範囲 実質科学の守備範囲
1.5 統計的仮説検定の考え方
統計的仮説検定は検出差を設定して有意ではない時も結論を採用する
有意性検定は検定結果が有意の時だけ結論を採用し、有意ではない時は結論を保留する。こ の曖昧さを改善するために開発された手法が統計的仮説検定(statistical hypothesis testing)。
例えば第
3
節の有意性検定と同じ問題を設定し、日本人全体から100
名の標本集団を抽出し て体重を測定したところ、平均値が51kg、標準偏差(不偏標準偏差)が 10kg
だったとすると、95%信頼区間:μ=51±2×
10
√ 100
=51±2→μ=49∼5395%信頼区間に基準値 50kg
が含まれているため有意水準5%で有意ではない
ここで体重の医学的な許容範囲または誤差範囲を±5kg以内とする、つまり±5kgよりも小さい 体重の変動は医学的に意義がなく、無視できるとすると、45~55kg以内の体重は実質的に
50kg
と変わらないことになる。49~53kg
という信頼区間はこの許容範囲にすっぽりと入っているから、次のような結論が95%
以上の確率で正しいことになる。
問題:日本人の平均体重は
50kg
か?統計学的結論:日本人の平均体重は
50kg
ではないと断定できないため結論保留 図1.11 信頼区間と統計的仮説検定m μ
0=50
μ
Lμ
U95%信頼区間にμ0が含まれない
↓
有意水準5%で有意→μ≠μ0=50
μ
0+δ*=55 δ*=5
95%信頼区間にμ0が含まれる
↓
有意水準5%で有意ではない→μ<μ0+δ*=55
μ m
L
μ
U
μ
0-δ*=45
この結論は、
とは違うが、医学的には実質的に同じ意味になる。
±5kg
は医学的な許容範囲であり、(最小)検出差(scientific significant difference)と呼ばれる。統計的仮説検定は検出差つまり実質科学的な許容範囲または誤差範囲と、信頼区間つまり数学 的な誤差範囲を利用して、検定結果が有意ではない時も結論を採用することができる。
統計学的結論:日本人の平均体重は
45kg
よりも重く55kg
よりも軽い=日本人の平均体重は実質的に
50kg
と等しい→問題の答えは△統計学的結論:日本人の平均体重は
50kg
である→問題の答えは○推定と検出差を利用した検定を母集団側から見て手順化したものが統計的仮説検定
<統計的仮説検定の手順>
(1) 問題を設定する。
(2) 帰無仮説と対立仮説と検出差を設定する。
図1.12 統計的仮説検定の模式図
SE
μ0
t(n-1,2β)・SE
mU p/2
α/2
β m H0:μ=μ0
H1:μ=μ0-δ*
μ0+δ*
SE t(n-1,α)・SE mU
H1:μ=μ0+δ*
μ0-δ*
SE
mL
mL α/2
β δ* δ*
μL μU
問題:日本人の平均体重は
50kg
か?→μ=μ
0=50?
帰無仮説
H
0:日本人の平均体重は50kg
である→μ=μ
0またはδ=μ-μ
0=0
※有意性検定の対立仮説「日本人の平均体重は50kgではない」は帰無仮説の否定であり、具体的な仮 説ではない。それに対して上記の対立仮説は具体的な仮説である点に注意。
(3) 有意水準 α(α
エラー)と検出力=1-β(βエラー)を決める。(4) 母集団から n
例の標本集団を無作為抽出する。(5) 標本集団のデータを測定して要約値を求める。
(6) 帰無仮説が正しいと仮定した時の母集団と、対立仮説が正しいと仮定した時の母集団を想定
し、その母集団からn
例の標本集団を無作為抽出して標本平均を求め、それを無限回繰り返した 時の標本平均の分布を描く。(7) 帰無仮説が正しいと仮定した時の標本平均の分布で、分布の左右の端にそれぞれ α/2
の面積の棄却域を設定する。
この時、図
1.12
の左側の標本平均の分布で、mL=48kg
以上の範囲の面積(確率)はβ
になり、有意水準を
5%
にする→α=0.05
、信頼係数(1-α)=0.95
検出力を80%
にする→(1-β)=0.8
、β=0.2
対立仮説
H
1:日本人の平均体重は45kg
または55kg
である→μ=μ
0±δ*=μ
0±5
またはδ=μ-μ
0=±δ*=±5
日本人全体から
100
名の人を無作為抽出→標本集団100
名の体重を測定→標本平均m=51
、不偏標準偏差SD=10
図
1.12
の3
種類の標本平均の分布→μ
0=50
、μ
0-δ*=45
、μ
0+δ*=55
、SE=1
図
1.12
の標本平均の分布で標本平均の95%
が含まれる範囲2×SE=2
より、下限m
L=48
、上限m
U=52
∴ 下側棄却域:
48
以下、上側棄却域:52
以上(
図1.12
の中央の標本平均の分布の薄い灰色部分)
右側の標本平均の分布で、mU
=52kg
以下の範囲の面積もβ
になる。これら2
つの範囲は対立仮 説の棄却域に相当する。※対立仮説の棄却域は左右の標本平均の分布の片側にしかなく、その面積はβ/2ではなくβになる。これ はμ=μ0-δ*とμ=μ0+δ*はどちらか一方しか起こらないため、βを2つに分ける必要がないからである。
(8) 実際の標本平均値 m
が棄却域に入っているかどうかを調べる。○方法
1:m
と棄却域の上限または下限を比較する。○方法
2:μ
0とm
の距離(m-μ0)が(m
U-μ
0)よりも大きいかどうか調べる。
○方法
3:t
分布において、toから右側の確率=p/2を計算して2
倍し、それがα
よりも小さいかどう か調べる。(9) m
が棄却域に入っている時は有意水準α
で有意として、帰無仮説を否定した仮説を統計学的結論として採用する。
これは対立仮説「日本人の平均体重は
45kg
または55kg
である」の採用ではない点に注意!(10) m
が棄却域に入っていない時は有意水準α
で有意ではないとして、対立仮説を否定した結論を統計学的結論として採用する。
(11) 統計学的結論を科学的に評価して、実質科学的結論を下す。
95%
信頼区間は51±2×SE
より、下限μ
L=49
、上限μ
U=53
51
は上側棄却域の下限52
よりも小さいから棄却域に入っていない51-50=1
は52-50=2
よりも小さいから棄却域に入っていないt
o=1
から右側の分布の面積×2=p=0.3198>0.05
だから棄却域に入っていない有意水準
5%
で有意→統計学的結論:日本人の平均体重は50kg
ではない有意水準
5%
で有意ではない→統計学的結論:日本人の平均体重は
45kg
よりも重く55kg
よりも軽い○有意の時…母集団の平均体重の推測値
51kg
は基準値50kg
に比べて1kg
重い。これは医学的に見ると意義のない差である。
○有意ではない時…母集団の平均体重は
45kg
よりも大きく55kg
よりも小さい。これは医学的に見ると実質的に
50kg
と等しい。統計的仮説検定には2種類のエラーがある
統計的結論
有意:μ≠μ0 有意ではない:|μ-μ0
|<δ*
真実
H
0:μ=μ0α 1-α
H
1:μ=μ0±δ* 1-β β
・α:αエラーまたは第
1
種のエラーまたはアワテの言い過ぎ帰無仮説
μ=μ
0が正しい時に、アワテてμ≠μ
0と言い過ぎてしまう確率。偽陽性率。・β:βエラーまたは第
2
種のエラーまたはボンヤリの見逃し対立仮説
μ=μ
0±δ*が正しい時に、ボンヤリしていて|μ-μ
0|<δ*と見逃してしまう確率。偽
陰性率。・1-β:検出力
対立仮説
μ=μ
0±δ*が正しい時に、μ≠μ
0と違いを検出する確率。感度。普通は
α=0.05、β=0.2
つまり有意水準を5%、検出力を 80%程度にする。しかし α
エラーとβ
エ ラーは同等なので、本当はα=β
にするのが合理的である。医学的結論:日本人の平均体重は
50kg
ではないが、実質的には50kg
と変わらない医学的結論:日本人の平均体重は実質的に
50kg
と等しい検定には片側検定と両側検定がある
次のような限定した問題の場合、対立仮説が単純になり、帰無仮説が正しいと仮定した時の 標本平均の分布と、対立仮説が正しいと仮定した時の標本平均の分布は図
1.13
のようになる。問題:日本人の平均体重は
50kg
よりも重いか?→μ>μ
0=50?
帰無仮説
H
0:日本人の平均体重は50kg
である→μ=μ
0またはδ=μ-μ
0=0
対立仮説
H
1:日本人の平均体重は55kg
である→μ=μ
0+δ*=μ
0+5
またはδ=μ-μ
0=+δ*=+5
図1.13 統計的仮説検定の模式図(片側検定)
SE
μ0
t(n-1,2β)・SE
mU p
α
β m H0:μ=μ0
μ0+δ*
SE t(n-1,2α)・SE mU
H1:μ=μ0+δ*
δ*
μL μU
図
1.13
のように帰無仮説が正しいと仮定した時の標本平均の分布の片側だけに棄却域を設 定する検定を片側検定(one-taild test)といい、図1.12
のように分布の両側に棄却域を設定する 検定を両側検定(two-taild test)という。<片側検定の特徴>
・有意水準
α
を分布の片側だけに割り振るため、棄却域の下限値m
Uが両側検定のm
Uよりも少し小さくなる。・統計学の教科書などに載っている
t
分布表は普通は両側検定用なので、片側検定 の時はt(φ,2α)を用いる必要がある。
・検定の基本は片側検定であり、問題に合わせて適切な検定統計量を選択すれば全 ての検定は片側検定として実施可能。
※区間推定にも片側信頼区間と両側信頼区間がある。片側信頼区間は下限を--∞にして上限をμUする か、下限をμLにして上限を∞にする。しかし片側信頼区間は不自然で使いづらいので、普通は両側信 頼区間を用いる。
F検定はt検定の両側検定と同等の片側検定
この問題を検定したい時、t値を平方した
F
値を検定統計量にすれば、t検定の両側検定と同 図1.14 標本平均の分布とF分布σ SD≒
μ=μ0 n ∞≒
n例を無作為抽出して 標本平均を無限回求める
母集団の分布 標本平均の分布 F分布
m=μ0 0
標本平均を F値に変換する
p m F
p/2 SE=SD
√
nF=( m− μ
0SE )
2
問題:日本人の平均体重は
50kg
か?→μ=μ
0=50?
等の検定を片側検定として行うことが可能。
このように
F
値を利用した検定のことをF
検定という。F検定は分散分析でも用いられる。両側検定は標本平均の分布の両側に棄却域を設定する検定であり、母平均が基準値と異 なっているかどうか、つまり母平均が基準値よりも小さいか、それとも基準値よりも大きいかと いう
2
種類の仮説を検定するものではないので注意!検定の基本は片側検定なので、「母平均が基準値よりも大きいか?」という問題を検定したい 時は片側の
t
検定を用い、「母平均が基準値と異なっているか?」という問題を検定したい時は片 側のF
検定を用いるのがお薦め。統計的仮説検定は事前に試験の必要例数を計算しなければらない
図
1.12
より、統計的仮説検定ではδ*={t(n-1,α)+t(n-1,2β)}・SE
という関係がある。この式とSE=σ/√n
から、標本集団の例数を理論的に求めることが可能。それを必要例数の計算式といい、この式を利用して試験計画の段階で必要例数を求める。
n=
[
{t(∞,α)+t(∞,2
β)}⋅ σδ*]
2σ:母集団の標準偏差推測値。予備試験や先行研究の結果から推測。
σ
は事前の推測値のため、実際に標本集団のデータから推測した母標準偏差推測値とは異な る時がある。そこで試験終了後、実際の例数と母標準偏差推測値から実際の検出差
δ
を計算し、それが事 前に設定した検出差δ*以下であるかどうかを検討する。これを検出力分析(power analysis)とい
う。δ={t(n−1,α)+t(n−1,2β)}⋅SE SE=SD
√
n簡単に言えば、これは統計的仮説検定は信頼区間つまり数学的な誤差範囲を、検出差つま り実質科学的な誤差範囲以下にしなければならない、という意味である。
信頼区間の幅は
SE
に比例し、SEは√nに反比例して小さくなるため、信頼区間を検出差以下 にするのに必要な例数、つまり標本集団の例数を理論的に求めることが可能になる。検定結果だけから実質科学的な判断をするのは危険!
検定結果 推定結果 実質科学的な判断
(1)
有意ではないμ μ
≒ 0 母平均は基準値とほぼ等しい(2)
有意ではないμ=μ
0~μ0+δ*
この結果だけでは判断できない検出力をもっと高くする必要がある(例数を増やす)
(3)
有意μ
0<μ<μ
0+δ*
母平均は基準値と実質的に変わらない(4)
有意μ μ
≒ 0+δ*
母平均は基準値と実質的に変わらない可能性が高い(5)
有意μ μ
≒ 0+δ*
母平均は基準値よりも大きい可能性が高い(6)
有意μ
0+δ*<μ
母平均は基準値よりも大きい図
1.15
と上表から、実質科学的な判断は定性試験である検定結果よりも、定量試験である推 定結果に基づいた方が良いことと、検定結果だけから実質科学的な判断をするのは危険であ ることがわかる。※このことから検定廃止論を主張する統計学派が存在する。実際、生物学的同等性試験では推定結果を 重視し、検定結果は参考程度である。
図1.15 検定結果と信頼区間
m μ
0μ
Lμ
U
(1)
μ
0+δ*
δ*
(2) (3)
(4) (5)
(6)
μ
0-δ*
第第
1 1
章 章 演習問題演習問題第1問 次の文章について正しいものには○を、間違っているものには☓を付けよ。
(1) 推測統計学は近代統計学と呼ばれることもある。( )
(2) 標準偏差はデータのバラツキ具合を表し、標準誤差と呼ばれることもある。( ) (3) 検定は厳密な結論が得られるため、検定を行えば推定を行う必要はない。( ) (4) 検定の有意水準は試験計画段階で決めておく必要がある。( )
(5) 「有意差あり」とは「医学的に有意義な差がある」という意味である。( )
第2問 次の文章の括弧の中に、下記の罫線枠の中から適当な語句を選んで入れよ。
推測統計学は標本集団の要約値から( 1 )の要約値つまり母数を確率的に推測する が、その推測方法には( 2 )と( 3 )の
2
種類がある。( 2 ) は母数がどのくらいの値なのかを推測する手法であり、( 4 )に相当する。それに対し て( 3 )は母数が実質科学的に有意義な基準値と等しいかどうかを○ 式で推測す☓ る手法であり、( 5 )に相当する。母集団 標本集団 武装集団 推定 検定 不安定 定量試験 定性試験 共通
1
次試 験第3問 次の文章の括弧の中に適当な語句を入れよ。
統計的仮説検定では「母平均と基準値が等しい」という( 1 )が正しいにもかか わらず、あわてて「母平均と基準値は異なる」と言い過ぎてしまう確率
α
のことをα
エラーまたは( 2 )または( 3 )といい、これは診断学における( 4 )に相
当する。それに対して「母平均は基準値に( 5 )をプラスまたはマイナスした値と等し い」という( 6 )が正しいにもかからわず、ぼんやりして「母平均は基準値±( 5)の範囲内である」と差を見逃してしまう確率 β
のことをβ
エラーまたは( 7 )といい、これは診断学における( 8 )に相当する。そして(1-β)のことを( 9 )とい い、診断学における( 10 )に相当する。
第4問 次の条件で行う試験について必要例数を求めよ。またその試験の結果について 検出力分析を行い、試験の検出力が事前の条件を満足しているかどうかを検討せよ。
○試験内容:ある疾患について評価項目の平均値を基準値と比較する試験(1群試験)
○試験条件:有意水準
5%、検出力 80%、評価項目の検出差 2、母標準偏差推測値 5
○試験結果:例数
61
例、評価項目の不偏標準偏差6
※t(∞,0.05)=1.96, t(∞,0.4)=0.842, t(60,0.05)=2, t(60,0.4)=0.848
第5問 有意性検定と統計的仮説検定の違いを説明し、両者の長所と短所について論ぜ よ。