医学薬学分野の研究で用いられるのは推測統計学母集団のデータ多数データの数学的要約記述記述統計学 ( 古典統計学 ) 母集団 ( 準母集団 ) 無作為抽出標本集団のデータ少数データの数学的要約記述推測統計学 ( 近代統計学 ) 逆規定確率的推測記述記述統計学調査対象集団 =

(1)

1

1 ．統計学の基本的な概念

．統計学の基本的な概念

1.1 統計学とは何ぞや？

統計学は沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段＜例＞100 人の日本人について体重を測定した場合 ※統計学では平均値のような要約値または代表値のことを統計量と呼ぶ。厳密に言うと、確率的に変動する個々のデータを確率変数と呼び、確率変数x の関数として定義される値 z=f(x)を統計量と呼ぶ。 ※本書では平均値のように複数のデータを四則演算によって要約した統計量を要約値と呼び、そのような要約をしないポイント的な統計量を代表値と呼ぶことにする。要約値は中心極限定理によって近似的に正規分布するが、代表値は正規分布するとは限らない。 100 個のデータを眺めただけでそこに含まれる情報を読み取るのは困難 100 個のデータのほぼ真ん中を表す要約値として平均値を求める平均値が60kg だった「100 人の日本人の体重はだいたい 60kg ぐらいである」という情報を読み取ることができる「日本人の体重はだいたい60kg ぐらいである」と推測する要約値( 統計量 ) データ　データデータ　データデータ　データ実質科学的評価

(2)

医学・薬学分野の研究で用いられるのは推測統計学・記述統計学調査対象集団＝母集団のデータを要約し、母集団の情報を数学的に記述することが中心で、古典統計学とも呼ばれる。国勢調査で用いられる統計手法が代表例。・推測統計学または推計学母集団から無作為抽出した標本集団の要約値から母集団の要約値を確率的に推測し、それによって母集団の様子を数学的に記述することが中心で、近代統計学とも呼ばれる。科学実験や世論調査で用いられる統計手法が代表例。医学・薬学分野の研究(臨床試験、臨床研究等)では主として推測統計学が用いられるが、この分野独特の特徴がある。確率的推測・記述母集団のデータ多数データの数学的要約・記述記述統計学 ( 古典統計学 ) 母集団 ( 準母集団 ) 標本集団のデータ少数データの数学的要約・記述推測統計学 ( 近代統計学 ) 無作為抽出逆規定

(3)

医学・薬学分野の研究は準母集団を対象にする点が特徴医学・薬学分野の研究では特定の疾患の患者を母集団にすることが多い患者全体を正確に特定することは事実上不可能母集団から標本集団を無作為抽出することも不可能ある医療施設をたまたま受診した患者をとりあえず標本集団にする標本集団の背景因子( 集団の特徴を表す項目、性別、年齢等 ) を調査背景因子から母集団となるべき集団＝準母集団を逆規定 ※ 論文の最初に載せる患者背景表は準母集団を規定するためのもの準母集団と本当の母集団は微妙にずれる同じような研究を行なっても準母集団がずれると結果もずれる医学・薬学分野の研究の特徴≒限界

母集団

標本集団

準母集団

非無作為抽出逆規定

(4)

1.2 データの要約方法

データの要約はグラフ化からデータを要約する時は、まず初めにデータを見やすいようにグラフ化する。それには横軸にデータの値を取り、縦軸にそのデータの数をプロットした度数分布図(frequency distribution)を用い る。一般的な度数分布図では、データの値をいくつかの区間に区切り、その区間の中に入るデータの数を柱状グラフとしてプロットする。＜度数分布図を描くメリット＞・データを感覚的に把握することができる→百聞は一見にしかず！・データの内容についてある程度の情報を得ることができる・データの解析方法について有益なヒントが得られる図 1.1 度数分布図度数体重

(5)

度数分布図を理想化したものが正規分布度数分布においてデータの数→無限大、区切り幅→無限小とすると、理想的には正規分布 (normal distribution、ガウス分布)になる。 ＜正規分布の特徴＞・平均値を中心にして左右対称・平均値の度数が最も多く、平均値から離れるほど度数が減るベル型の分布・数学的な取り扱いが比較的簡単・現実のデータの度数分布を描くと、多くのものが近似的に正規分布になる・厳密に言うと、現実には有り得ない理想分布→理想気体のようなもの図 1.2 正規分布度数体重 μ=60 σ=10

(6)

最初の要約値は度数分布の中心を表す平均値度数分布を眺めながら、データ内容を把握するのに適した要約値を検討する。最初の要約値として、普通は度数分布の中心を表す値である平均値(mean)を求める。 平均値：m=¯x=x1+⋯+xi+⋯+xn n = 1 n_i=1

∑

n x_i=

∑

x n xi：i 番目のデータ＜平均値の特徴＞・分布の重心を表す→全てのデータを均等に反映する・正規分布では分布の中心を表す次の要約値はデータのバラツキ具合を表す標準偏差次の要約値として、普通は度数分布の幅つまりデータのバラツキ具合を表す値である標準偏差(SD:Standard Deviation)を求める。 偏差(バラツキの定義)：d_i=x_i−m 平方和：SS =S_{x x}=

∑

i=1 n d_i2=

∑

(x_i−m)2 分散：V =SS n =

∑

d_i2 n =

∑

(x_i−m)2 n 標準偏差：s=SD=

√

V =

√

SS n =

√

∑

d_i2 n =

√

∑

(x_i−m)2 n 正規分布は例数、平均値、標準偏差によって分布の形が完全に決まる。そして現実のデータの度数分布は近似的に正規分布になる。そのため普通は例数、平均値、標準偏差によってデータを要約し、データに含まれる情報を把握する。

(7)

＜標準偏差の特徴＞・データ1 個あたりのバラツキ具合を表す・正規分布では平均値から分布の変曲点までの距離になる(図 1.2 参照) ・正規分布では平均値±標準偏差の間に全データの約 68%が含まれる・正規分布では平均値±2×標準偏差の間に全データの約 95%が含まれる推測統計学では標本集団の要約値から母集団の要約値を推測することが重要推測統計学の目的は標本集団の要約値を求めることではなく、標本集団の要約値から母集団の要約値つまり母数(parameter)を推測すること。 常識的には、次のようにして近似的に推測できると考えられる。 母平均(母集団の平均値)：μ≒m：標本平均(標本集団の平均値) 母分散(母集団の分散)：σ2≒V ：標本分散(標本集団の分散) 母標準偏差(母集団の標準偏差)：σ ≒SD：標本標準偏差(標本集団の標準偏差) ※母数はギリシャ文字で表す習慣がある。 ※しかし母分散はV に相当するギリシャ文字がないため σ2_で表す。ところが実際には、母分散と母標準偏差は次の式の方が近似が良い。確率的推測・記述母集団のデータ多数データの数学的要約・記述記述統計学 ( 古典統計学 ) 母集団 ( 準母集団 ) 標本集団のデータ少数データの数学的要約・記述推測統計学 ( 近代統計学 ) 無作為抽出逆規定

(8)

母分散： σ2≒ SS n−1=V *_{：不偏分散(偏らない分散)} 母標準偏差： σ ≒

√

V*=SD*：不偏標準偏差(偏らない標準偏差) 平均値の定義式から、平均値とn 個のデータの間には 1 次従属関係がある。この関係から、平 均値を固定した時、n 個のデータの中で自由に変動できるデータの個数つまり独立変数の数は (n-1)個になり、これが自由度になる。バラツキを生み出すのは独立変数だから、バラツキの合計つまり平方和SS を自由度(n-1)で割り、1 自由度あたりのバラツキにした方が近似が良い。概念的には、次のように理解するとわかりやすい……かも。推測統計学では、特に指定しない限りV は不偏分散を表し、SD は不偏標準偏差を表す。そしてこれは標本集団のバラツキ具合の要約値ではなく、母集団のバラツキ具合の要約値の推測値を意味する。 ※正確には、母数は要約値というよりも母集団の性質を左右する定数のことであり、母数によって確率変数の挙動が決定される。 ※厳密に言うと、不偏分散の平方根は不偏標準偏差にならない。しかし不偏標準偏差を正確に計算するのは非常に面倒なので、普通は不偏分散の平方根で母標準偏差を近似的に推測する。母集団の分布は左右に広く広がっている分布の左右の端の部分は度数が少ないため標本集団に抽出される可能性が低いそのため標本集団の分布は左右の端が少し切れている母集団の標準偏差を推測する時は標本集団の標準偏差よりも少し大きな値にした方が近似が良い平方和SS を n で割る代わりに (n-1) で割った値を不偏標準偏差にする

(9)

標準誤差は母平均値の推測誤差を表す推測統計学独特の要約値標準偏差と標準誤差(SE:Standard Error)の混同は、統計学 3 大間違いの 1 つ。＜標準誤差の求め方＞ (1) 母集団から n 例の標本集団を無作為抽出する。 (2) 標本平均を求め、それを m1として標本平均の度数分布図にプロットする。 (3) n 例の標本集団を母集団に戻す。 (4) 母集団からまた n 例の標本集団を無作為抽出する。 (5) 標本平均を求め、それを m2として標本平均の度数分布図にプロットする。 (6) (1)から(3)を無限回繰り返す。 (7) すると図 1.3 のような標本平均の度数分布図ができあがる。図1.3 の標本平均の度数分布について次のことが成り立つ。・母集団のデータがどんな分布をしていても、この度数分布は漸近的に(n が多いほど) 正規分布に近似する。→中心極限定理( 推測統計学の基本定理) ・標本平均の平均値は母平均と一致する。 μ= ¯m 標本平均の分布度数 m m₂=55

SD

_m

= σ

√

n

=

SE

¯ m=μ m₁=60 μ 例数≒∞ σ SD≒ 母集団のデータの分布図 1.3 母集団の分布と標本平均の分布 n 例を無作為抽出して標本平均m を無限回求める x

(10)

μ：母平均　　m：標本平均の平均値・標本平均の標準偏差は次のような値になる。→標準誤差 SD_m= σ

√

n≒ SD

√

n=SE SDm：標本平均の標準偏差　　σ：母標準偏差 n：標本集団の例数　　SD：不偏標準偏差　　SE：標準誤差標準偏差がデータのバラツキ具合を表す要約値であるのに対して、標準誤差は標本平均のバラツキ具合を表す要約値。これは、母平均を標本平均によって推測する時の推測誤差の大きさを表す推測統計学独特の値である。＜標準誤差と標準偏差の使い分け＞・図1.4 のように、母平均の変化とその推測誤差範囲を表したい時は標準誤差・図1.5 のように、データのバラツキ具合を表したい時は標準偏差 ※一般には要約値つまり統計量の標準偏差を標準誤差と呼ぶ。しかし普通は平均値について議論することが多いので、単に「SE」と書けば「平均値の標準誤差」つまり「SEM(Standard Error of Mean)」を指す。

図 1.4 体重の推移週 mean±SE 80 60 40 20 0 2 4 図 1.5 錠剤の重量 B 錠 mean±SD A 錠重量 μ=m±SE ：「 μ を m で推測すると SE 程度の推測誤差がある」という意味 m±SD ：「データには m を中心にして SD 程度のバラツキがある」という意味

(11)

1.3 推定の考え方

推定は定量試験、検定は定性試験推測統計学は推定(estimate)と検定(test)の 2 本柱で成り立っていて、定量試験である推定の 方が重要。しかし実際の研究現場では、推定よりも検定の方が頻繁に利用されている。これは、推定は記述式の回答が得られるのに対して、検定は○ 式の回答が得られることに大☓ きな原因があると思われる。→記述式試験よりも○☓式試験の方が採点が楽！点推定はピンポイントの推測、区間推定は幅を持たせた推測 (1) 点推定 母平均：μ≒m：標本平均 母標準偏差： σ ≒SD=

√

V =

√

SS n−1：不偏標準偏差点推定(point estimation)は母平均を標本平均で、母標準偏差を不偏標準偏差で推測するピ ンポイント推測。統計学的推論推定 _{母数を推測} ↓ pH 計に相当定量試験検定定性試験母数が基準値と等しいか_{どうかを○ 式で推測}_☓ ↓ リトマス試験紙に相当

(12)

(2) 区間推定区間推定(interval estimation)は、ある程度の幅を持たせて母数を推測する。 ＜母平均の区間推定法＞ μL～μU：95%信頼区間または信頼限界(母平均が 95%の確率で含まれる区間) μL：95%信頼区間下限　　　　μU：95%信頼区間上限　　　　95%：信頼係数 ※厳密に言うと、SE に掛ける係数 2 は自由度(n-1)と信頼係数によって値が少し変わる。この係数を t 値と図 1.6 区間推定の模式図 σ SD≒ μ n ∞≒ n 例を無作為抽出して標本平均を無限回求める母集団の分布標本平均の分布と信頼区間 m m_U μ_L t(n-1,α) ・ SE 1-α t(n-1,α) ・ SE μ_U m_L SE=SD

√

n ̄ m=μ 標本平均の分布は近似的に正規分布になり標本平均の平均が母平均μ に、標本平均の標準偏差が標準誤差 SE になる μ±2×SE の範囲に標本平均の約 95% が含まれるある標本平均m が μ±2×SE の範囲に含まれる確率は約 95% 逆にm±2×SE の範囲に μ が含まれる確率も約 95%

(13)

いい、自由度(n-1)、信頼係数 100(1-α)%の時の t 値を「t(n-1,α)」と書く。

μ=m±t (n−1, α)⋅SE → μ_L=m−t (n−1, α)⋅SE ,μ_U=m+t(n−1, α)⋅SE t (60,0.05)=2 , t (60,0.01)=2.66 , t(∞ ,0.05)=1.96 等 標準誤差SE は不偏標準偏差 SD を√n で割った値だから、例数が多くなるほど小さくなる。したがって信頼区間を狭くして母平均の値を精度良く推測するためには、データ数を多くするのが一番効率的。→下手な鉄砲も数射ちゃ当たる！推定は、漁師(Fisher!)が水面に映った魚(Poisson!)の影 m を見て、魚 μ を捕まえるようなもの。点推定は銛で一突きの方法であり、区間推定は幅のある投網を打つことに相当する。銛は手軽に扱えるが、魚に当たる確率は低い。投網を打つには技術を要するが、魚を捕まえる確率は高くなる。そこで普通は点推定で母数を推定しておき、重要な時だけ区間推定を行うのが一般的。標準偏差は点推定だけ行うのが普通。

(14)

1.4 有意性検定の考え方

検定は定性試験だから、定量試験である推定結果から判定可能検定は○ 式の定性試験だから、最初に問題を設定する。例えば体重の医学的な正常値を☓ 50kg とすると、この50kg は検定の基準値 μ0であり、この値は医学的に意義のある値を設定する。例えば医学的な正常値、治療前の平均値等。この問題を検討するために、日本人全体から無作為に100 名の標本集団を抽出して体重を測定したところ、平均値が60kg、標準偏差(不偏標準偏差)が 10kg だったとすると、 95%信頼区間：μ=60±2× 10

√

100=60±2→μ=58∼62 この推定結果から、日本人の平均体重＝母平均μ は 95%の確率で 58～62kg の間にある、つまりμ は 95%以上の確率で 50kg ではないと言える。したがって、図 1.7 信頼区間と有意性検定 m=60 SD=10 μ 0=50 μ L μU 母集団の推測分布標本集団の度数分布 95% 信頼区間問題：日本人の平均体重は50kg か？

(15)

という結論が95%以上の確率で正しく、間違っている危険性は 5%以下である。

この状態のことを「有意水準(significance level)5%で有意」または「危険率(critical rate)5%

で有意」と表現する。例えば95%信頼区間が 49～71kg だったとすると、μ はひょっとすると 50kg かもしれず、95%以上の確率で50kg ではないと言い切れない。したがって、この状態のことを「有意水準5%で有意ではない」と表現する。この結論は、 とは違うことに注意！例えば95%信頼区間が 49～51kg だったら、この結論を採用しても良い。 ※「保留」というと、何となく非科学的な感じがするかもしれないが、不確かなデータから得られた結果を解釈する時は確定的なことを断言する方がかえって非科学的になる。得られたデータから結論できる限界を明確にすることが「科学的」。統計学的結論：日本人の平均体重は50kg ではない→問題の答えは☓ 統計学的結論：日本人の平均体重は50kg ではないと断定できない→問題の答えは保留統計学的結論：日本人の平均体重は50kg である→問題の答えは○

(16)

推定を利用した検定を母集団側から見て手順化したものが有意性検定母集団は永遠に不明のため、標本集団のデータから母数を推測し、それによって推定や検定の原理を考える方が研究者にとってはわかりやすい。しかし母集団は変動せず標本集団のデータが変動するため、母集団を基準にして推定や検定の原理を考える方が数学者にとってはわかりやすい。＜有意性検定(test of significance)の手順＞ (1) 問題を設定する。

(2) 帰無仮説(null hypothesis)と対立仮説(alternative hypothesis)を設定する。図 1.8 有意性検定の模式図 σ SD≒ μ=μ₀ n ∞≒ _SE t=1 n 例を無作為抽出して標本平均を無限回求める母集団の分布標本平均の分布と信頼区間 t 分布 m=μ₀ 0 標本平均を t 値に変換する p/2 m to H₀：μ=μ₀ m_U m_L _-t(n-1,α) _t(n-1,α) α/2 α/2 α/2 _α/2 SE=SD

√

n t=m−μ0 SE μ_L μ_U t(n-1,α) ・ SE 問題：日本人の平均体重は50kg か？→ μ=μ₀=50? 帰無仮説H₀：日本人の平均体重は50kg である→ μ=μ₀またはδ=μ-μ₀=0 対立仮説H₁：日本人の平均体重は50kg ではない→ μ≠μ₀またはδ=μ-μ₀≠0

(17)

(3) 有意水準＝危険率 α(α エラー)を決める。 (4) 母集団から n 例の標本集団を無作為抽出する。 (5) 標本集団のデータを測定して要約値を求める。 (6) 帰無仮説が正しいと仮定した時の母集団を想定し、その母集団から n 例の標本集団を無作為抽出して標本平均を求め、それを無限回繰り返した時の標本平均の分布を描く。 (7) その標本平均の分布で、母平均を中心にして標本平均の(1-α)が含まれる範囲を求める。この時、範囲から外れる左右の端のα/2 の部分を棄却域という。 (8) 実際の標本平均 m が棄却域に入っているかどうかを調べる。 ○方法1：m と棄却域の上限または下限を比較する。図1.8 より、この方法は母平均の 95%信頼区間 58～62 に基準値 50 が入るかどうかを調べることと同じであることがわかる。有意水準を5% にする→ α=0.05 、信頼係数 (1-α)=0.95 日本人全体から100 名の人を無作為抽出→標本集団 100 名の体重を測定→標本平均 m=60 、不偏標準偏差 SD=10 図1.8 の母集団の分布と標本平均の分布→ μ=μ₀=50 、 σ SD=10≒ 、SE=1 図1.8 の標本平均の分布で標本平均の 95% が含まれる範囲 2×SE=2 より、下限 m_L=48 、上限 m_U=52 ∴ 下側棄却域：48 以下、上側棄却域： 52 以上 ( 図 1.8 の標本平均の分布の薄い灰色部分 ) 95% が含まれる範囲の幅は 95% 信頼区間と同じ ( 推定の原理 ) 信頼区間は60±2×SE より、下限 μ_L=58 、上限 μ_U=62 60 は上側棄却域の下限 52 よりも大きいから棄却域に入っている

(18)

○方法2：(m-μ0)を SE 単位で測った値 to=(m-μ0)/SE が、(mU -μ0)を SE 単位で測った値(m-μ0)/SE よりも大きいかどうか調べる。標本平均からμ0を引き、それをSE で割った値を t とすると、t は図 1.8 の一番右側のような t 分布になる。このt 分布で(mL -μ0)/SE=-t(n-1,α)、(mU -μ0)/SE=t(n-1,α)。これは信頼区間を求める時に SE に掛ける係数 t(n-1,α) 2≒ である。 ※データから平均値を引いて標準偏差で割ると、データの分布の平均値が0 に、標準偏差が 1 になる。これをデータの標準化という。 ※t 値は(m-μ0)というシグナルを SE というノイズで割った S/N 比と解釈することも可能。 ○方法3：図 1.8 の t 分布において、toから右側の濃い灰色の部分の面積(確率)＝p/2 を計算し(t 値のp 値変換)、それが α/2 よりも小さいかどうか調べる。実際には、toから右側の分布の面積を2 倍した値を有意確率 p 値といい、この値が α よりも小 さいかどうか調べる。 (9) m が棄却域に入っている時、帰無仮説が正しい確率は α 以下になり、対立仮説が正しい確率は(1-α)以上になる。そこで有意水準α で有意として、対立仮説を統計学的結論として採用する。 (10) m が棄却域に入っていない時は帰無仮説が正しい確率が α よりも大きくなる。そこで有意水準α で有意ではないとして、統計学的結論を保留する。 (11) 統計学的結論を科学的に評価して、実質科学的結論を下す。 ○有意の時…母集団の平均体重の推測値60kg は基準値 50kg に比べて 10kg 重い。これは医学的に見ると意義のある差である。 t_o=(m-μ₀)/SE=(60-50)/1=10>2 で 2 よりも大きいから棄却域に入っている t_o=10 から右側の分布の面積 ×2=p=10-16_{<0.05 だから棄却域に入っている} 有意水準5% で有意→統計学的結論：日本人の平均体重は 50kg ではない有意水準5% で有意ではない→統計学的結論：保留

(19)

○有意ではない時…母集団の平均体重の推測値60kg は基準値 50kg に比べて 10kg 重い。これは医学的に見ると意義のある差だが、推測値の信頼性が低いため確実なことは言えない。

医学的結論：日本人の平均体重は50kg ではなく、それよりも重い

医学的結論：日本人の平均体重は50kg よりも重い可能性があるがデータの信頼性が低いので結論は保留する

(20)

「有意差あり」は「実質科学的に差がある」という意味ではない・有意…「数学的に意味が有る」つまり「統計学的結論の信頼性が高い」・有意ではない…「数学的に意味が無い」つまり「統計学的結論の信頼性が低い」はっきり言えば「統計学的結論を保留する」・有意水準＝(1－信頼係数)＝危険率…間違っている危険性がこの値以下の統計学的結論だけを採用することを表す、統計学的結論の合格水準「有意差あり＝実質科学的に有意義な差がある」や「有意差なし＝実質科学的に有意義な差はない＝等しい」という解釈は大いなる誤解。このような誤解症状は「有意症(significantosis)」と か「有意症症候群(significant syndrome)」と呼ばれる難治性疾患の一種であり、各種学会や厚 生労働省等で大流行している。この疾患の予防策の第一歩は、「有意差あり」や「有意差なし」という誤解されやすい用語を使わず、「差は有意である」や「差は有意ではない」という用語を使うことである。図 1.10 実質科学的に意味があっても有意ではない差 m=60 SD=20 ↓ SE=5.2 μ0=50 n=15 95% 信頼区間 48.9 ～ 71.1 図 1.9 有意でも実質科学的には無意味な差 m=50.01 SD=10 ↓ SE=0.005 μ0=50 95% 信頼区間 50.001 ～ 50.019 n=4000000

(21)

統計学の役目はデータの要約と要約値の数学的な信頼性を評価すること統計学の役目はデータを要約して、要約値が数学的にどの程度信頼できるかを確率的に評価し、それらの情報を実質科学的に評価してもらうために研究者に提供することである。その要約値が実質科学的に有意義かどうかを評価するのは、あくまでもその分野の研究者の役目である。→統計学の守備範囲と実質科学の守備範囲を混同しないこと！要約値 ( 統計量 ) 標本集団のデータ要約値の実質科学的評価統計学的結論保留実質科学的結論検定再実験有意である有　　意　　で　　は　　な　　い　　統計学の守備範囲実質科学の守備範囲

(22)

1.5 統計的仮説検定の考え方

統計的仮説検定は検出差を設定して有意ではない時も結論を採用する

有意性検定は検定結果が有意の時だけ結論を採用し、有意ではない時は結論を保留する。この曖昧さを改善するために開発された手法が統計的仮説検定(statistical hypothesis testing)。

例えば第3 節の有意性検定と同じ問題を設定し、日本人全体から 100 名の標本集団を抽出して体重を測定したところ、平均値が51kg、標準偏差(不偏標準偏差)が 10kg だったとすると、 95%信頼区間：μ=51±2× 10

√

100=51±2→μ=49∼53 95%信頼区間に基準値 50kg が含まれているため有意水準 5%で有意ではないここで体重の医学的な許容範囲または誤差範囲を±5kg 以内とする、つまり±5kg よりも小さい体重の変動は医学的に意義がなく、無視できるとすると、45～55kg 以内の体重は実質的に 50kg と変わらないことになる。 49～53kg という信頼区間はこの許容範囲にすっぽりと入っているから、次のような結論が 95% 以上の確率で正しいことになる。問題：日本人の平均体重は50kg か？統計学的結論：日本人の平均体重は50kg ではないと断定できないため結論保留図 1.11 信頼区間と統計的仮説検定 m μ₀=50 μ_L μ_U 95% 信頼区間に μ₀が含まれない ↓ 有意水準5% で有意→ μ≠μ₀=50 μ₀+δ*=55 δ*=5 95% 信頼区間に μ₀が含まれる ↓ 有意水準5% で有意ではない→ μ<μ₀+δ*=55 m μ L μU μ₀-δ*=45

(23)

この結論は、

とは違うが、医学的には実質的に同じ意味になる。

±5kg は医学的な許容範囲であり、(最小)検出差(scientific significant difference)と呼ばれる。 統計的仮説検定は検出差つまり実質科学的な許容範囲または誤差範囲と、信頼区間つまり数学的な誤差範囲を利用して、検定結果が有意ではない時も結論を採用することができる。

統計学的結論：日本人の平均体重は45kg よりも重く 55kg よりも軽い＝日本人の平均体重は実質的に50kg と等しい→問題の答えは△

(24)

推定と検出差を利用した検定を母集団側から見て手順化したものが統計的仮説検定＜統計的仮説検定の手順＞ (1) 問題を設定する。 (2) 帰無仮説と対立仮説と検出差を設定する。図 1.12 統計的仮説検定の模式図 SE μ0 t(n-1,2β) ・ SE mU p/2 α/2 β m H0：μ=μ0 H1：μ=μ0－δ* μ0+δ* SE t(n-1,α) ・ SE mU H1：μ=μ0+δ* μ0－δ* SE mL mL α/2 β δ* δ* μL μU 問題：日本人の平均体重は50kg か？→ μ=μ₀=50? 帰無仮説H₀：日本人の平均体重は50kg である→ μ=μ₀またはδ=μ-μ₀=0

(25)

※有意性検定の対立仮説「日本人の平均体重は50kg ではない」は帰無仮説の否定であり、具体的な仮説ではない。それに対して上記の対立仮説は具体的な仮説である点に注意。 (3) 有意水準 α(α エラー)と検出力＝1－β(β エラー)を決める。 (4) 母集団から n 例の標本集団を無作為抽出する。 (5) 標本集団のデータを測定して要約値を求める。 (6) 帰無仮説が正しいと仮定した時の母集団と、対立仮説が正しいと仮定した時の母集団を想定し、その母集団からn 例の標本集団を無作為抽出して標本平均を求め、それを無限回繰り返した時の標本平均の分布を描く。 (7) 帰無仮説が正しいと仮定した時の標本平均の分布で、分布の左右の端にそれぞれ α/2 の面積の棄却域を設定する。この時、図1.12 の左側の標本平均の分布で、mL=48kg 以上の範囲の面積(確率)は β になり、有意水準を5% にする→ α=0.05 、信頼係数 (1-α)=0.95 検出力を80% にする→ (1-β)=0.8 、 β=0.2 対立仮説H₁：日本人の平均体重は45kg または 55kg である →μ=μ₀±δ*=μ₀±5 または δ=μ-μ₀=±δ*=±5 日本人全体から100 名の人を無作為抽出→標本集団 100 名の体重を測定→標本平均 m=51 、不偏標準偏差 SD=10 図1.12 の 3 種類の標本平均の分布→ μ₀=50 、 μ₀-δ*=45 、 μ₀+δ*=55 、 SE=1 図1.12 の標本平均の分布で標本平均の 95% が含まれる範囲 2×SE=2 より、下限 m_L=48 、上限 m_U=52 ∴ 下側棄却域：48 以下、上側棄却域： 52 以上 ( 図 1.12 の中央の標本平均の分布の薄い灰色部分 )

(26)

右側の標本平均の分布で、mU=52kg 以下の範囲の面積も β になる。これら 2 つの範囲は対立仮説の棄却域に相当する。 ※対立仮説の棄却域は左右の標本平均の分布の片側にしかなく、その面積はβ/2 ではなく β になる。これはμ=μ0－δ*と μ=μ0+δ*はどちらか一方しか起こらないため、β を 2 つに分ける必要がないからである。 (8) 実際の標本平均値 m が棄却域に入っているかどうかを調べる。 ○方法1：m と棄却域の上限または下限を比較する。 ○方法2：μ0とm の距離(m-μ0)が(mU -μ0)よりも大きいかどうか調べる。 ○方法3：t 分布において、toから右側の確率＝p/2 を計算して 2 倍し、それが α よりも小さいかどうか調べる。 (9) m が棄却域に入っている時は有意水準 α で有意として、帰無仮説を否定した仮説を統計学的結論として採用する。これは対立仮説「日本人の平均体重は45kg または 55kg である」の採用ではない点に注意！ (10) m が棄却域に入っていない時は有意水準 α で有意ではないとして、対立仮説を否定した結論を統計学的結論として採用する。 (11) 統計学的結論を科学的に評価して、実質科学的結論を下す。 95% 信頼区間は 51±2×SE より、下限 μ_L=49 、上限 μ_U=53 51 は上側棄却域の下限 52 よりも小さいから棄却域に入っていない 51-50=1 は 52-50=2 よりも小さいから棄却域に入っていない t_o=1 から右側の分布の面積 ×2=p=0.3198>0.05 だから棄却域に入っていない有意水準5% で有意→統計学的結論：日本人の平均体重は 50kg ではない有意水準5% で有意ではない → 統計学的結論：日本人の平均体重は45kg よりも重く 55kg よりも軽い

(27)

○有意の時…母集団の平均体重の推測値51kg は基準値 50kg に比べて 1kg 重い。これは医学的に見ると意義のない差である。 ○有意ではない時…母集団の平均体重は45kg よりも大きく 55kg よりも小さい。これは医学的に見ると実質的に50kg と等しい。統計的仮説検定には2 種類のエラーがある 統計的結論有意：μ≠μ0 有意ではない：|μ－μ0|<δ* 真実 H0：μ=μ0 α 1－α H1：μ=μ0±δ* 1－β β ・α：α エラーまたは第 1 種のエラーまたはアワテの言い過ぎ帰無仮説μ=μ0が正しい時に、アワテてμ≠μ0と言い過ぎてしまう確率。偽陽性率。・β：β エラーまたは第 2 種のエラーまたはボンヤリの見逃し対立仮説μ=μ0±δ*が正しい時に、ボンヤリしていて|μ－μ0|<δ*と見逃してしまう確率。偽陰性率。・1－β：検出力対立仮説μ=μ0±δ*が正しい時に、μ≠μ0と違いを検出する確率。感度。普通はα=0.05、β=0.2 つまり有意水準を 5%、検出力を 80%程度にする。しかし α エラーと β エラーは同等なので、本当はα=β にするのが合理的である。医学的結論：日本人の平均体重は50kg ではないが、実質的には 50kg と変わらない医学的結論：日本人の平均体重は実質的に50kg と等しい

(28)

検定には片側検定と両側検定がある次のような限定した問題の場合、対立仮説が単純になり、帰無仮説が正しいと仮定した時の標本平均の分布と、対立仮説が正しいと仮定した時の標本平均の分布は図1.13 のようになる。問題：日本人の平均体重は50kg よりも重いか？→ μ>μ₀=50? 帰無仮説H₀：日本人の平均体重は50kg である→ μ=μ₀またはδ=μ-μ₀=0 対立仮説H₁：日本人の平均体重は55kg である →μ=μ₀+δ*=μ₀+5 または δ=μ-μ₀=+δ*=+5 図 1.13 統計的仮説検定の模式図 ( 片側検定 ) SE μ0 t(n-1,2β) ・ SE mU p α β m H0：μ=μ0 μ0+δ* SE t(n-1,2α) ・ SE mU H1：μ=μ0+δ* δ* μL μU

(29)

図1.13 のように帰無仮説が正しいと仮定した時の標本平均の分布の片側だけに棄却域を設定する検定を片側検定(one-taild test)といい、図 1.12 のように分布の両側に棄却域を設定する 検定を両側検定(two-taild test)という。 ＜片側検定の特徴＞・有意水準α を分布の片側だけに割り振るため、棄却域の下限値 mUが両側検定の mUよりも少し小さくなる。・統計学の教科書などに載っているt 分布表は普通は両側検定用なので、片側検定の時はt(φ,2α)を用いる必要がある。・検定の基本は片側検定であり、問題に合わせて適切な検定統計量を選択すれば全ての検定は片側検定として実施可能。 ※区間推定にも片側信頼区間と両側信頼区間がある。片側信頼区間は下限を--∞にして上限を μUするか、下限をμLにして上限を∞にする。しかし片側信頼区間は不自然で使いづらいので、普通は両側信頼区間を用いる。 F 検定は t 検定の両側検定と同等の片側検定 この問題を検定したい時、t 値を平方した F 値を検定統計量にすれば、t 検定の両側検定と同図 1.14 標本平均の分布と F 分布 σ SD≒ μ=μ₀ n ∞≒ n 例を無作為抽出して標本平均を無限回求める母集団の分布標本平均の分布 F 分布 m=μ₀ ₀ 標本平均を F 値に変換する p F m p/2 SE= SD

√

n

F=(

m−μ

0

SE

)

2 問題：日本人の平均体重は50kg か？→ μ=μ₀=50?

(30)

等の検定を片側検定として行うことが可能。このようにF 値を利用した検定のことを F 検定という。F 検定は分散分析でも用いられる。 両側検定は標本平均の分布の両側に棄却域を設定する検定であり、母平均が基準値と異なっているかどうか、つまり母平均が基準値よりも小さいか、それとも基準値よりも大きいかという2 種類の仮説を検定するものではないので注意！ 検定の基本は片側検定なので、「母平均が基準値よりも大きいか？」という問題を検定したい時は片側のt 検定を用い、「母平均が基準値と異なっているか？」という問題を検定したい時は片側のF 検定を用いるのがお薦め。

(31)

統計的仮説検定は事前に試験の必要例数を計算しなければらない図1.12 より、統計的仮説検定では δ*={t(n-1,α)+t(n-1,2β)}・SE という関係がある。この式と SE=σ/√n から、標本集団の例数を理論的に求めることが可能。それを必要例数の計算式といい、この式を利用して試験計画の段階で必要例数を求める。 n=

[

{t(∞ , α)+t (∞ , 2 β)}⋅σ δ*

]

2 σ：母集団の標準偏差推測値。予備試験や先行研究の結果から推測。 σ は事前の推測値のため、実際に標本集団のデータから推測した母標準偏差推測値とは異なる時がある。そこで試験終了後、実際の例数と母標準偏差推測値から実際の検出差δ を計算し、それが事前に設定した検出差δ*以下であるかどうかを検討する。これを検出力分析(power analysis)とい う。 δ={t(n−1, α)+t(n−1,2β)}⋅SE SE=SD

√

n 簡単に言えば、これは統計的仮説検定は信頼区間つまり数学的な誤差範囲を、検出差つまり実質科学的な誤差範囲以下にしなければならない、という意味である。信頼区間の幅はSE に比例し、SE は√n に反比例して小さくなるため、信頼区間を検出差以下にするのに必要な例数、つまり標本集団の例数を理論的に求めることが可能になる。

(32)

検定結果だけから実質科学的な判断をするのは危険！検定結果推定結果実質科学的な判断 (1) 有意ではない μ μ≒ 0 母平均は基準値とほぼ等しい (2) 有意ではない μ=μ0～μ0+δ* この結果だけでは判断できない検出力をもっと高くする必要がある(例数を増やす) (3) 有意 μ0<μ<μ0+δ* 母平均は基準値と実質的に変わらない (4) 有意 μ μ≒ 0+δ* 母平均は基準値と実質的に変わらない可能性が高い (5) 有意 μ μ≒ 0+δ* 母平均は基準値よりも大きい可能性が高い (6) 有意 μ0+δ*<μ 母平均は基準値よりも大きい図1.15 と上表から、実質科学的な判断は定性試験である検定結果よりも、定量試験である推定結果に基づいた方が良いことと、検定結果だけから実質科学的な判断をするのは危険であることがわかる。 ※このことから検定廃止論を主張する統計学派が存在する。実際、生物学的同等性試験では推定結果を重視し、検定結果は参考程度である。図 1.15 検定結果と信頼区間 m μ₀ μ L μU (1) μ₀+δ* δ* (2) (3) (4) (5) (6) μ₀-δ*

(33)

第

1

1 章　

章　

演習問題

第1 問　次の文章について正しいものには○を、間違っているものにはを付けよ。☓ (1) 推測統計学は近代統計学と呼ばれることもある。(　　) (2) 標準偏差はデータのバラツキ具合を表し、標準誤差と呼ばれることもある。(　　) (3) 検定は厳密な結論が得られるため、検定を行えば推定を行う必要はない。(　　) (4) 検定の有意水準は試験計画段階で決めておく必要がある。(　　) (5) 「有意差あり」とは「医学的に有意義な差がある」という意味である。(　　) 第2 問　次の文章の括弧の中に、下記の罫線枠の中から適当な語句を選んで入れよ。 推測統計学は標本集団の要約値から( 1 　　　　)の要約値つまり母数を確率的に推測するが、その推測方法には( 2 　　　　　　)と( 3 　　　　　　)の 2 種類がある。( 2 　　　　　　) は母数がどのくらいの値なのかを推測する手法であり、( 4 　　　　　　)に相当する。それに対して( 3 　　　　　　)は母数が実質科学的に有意義な基準値と等しいかどうかを○ 式で推測す☓ る手法であり、( 5 　　　　　　)に相当する。母集団　標本集団　武装集団　推定　検定　不安定　定量試験　定性試験　共通1 次試験第3 問　次の文章の括弧の中に適当な語句を入れよ。 統計的仮説検定では「母平均と基準値が等しい」という( 1 　　　　　　)が正しいにもかかわらず、あわてて「母平均と基準値は異なる」と言い過ぎてしまう確率α のことを α エラーまたは ( 2 　　　　　　)または( 3 　　　　　　)といい、これは診断学における( 4 　　　　　　)に相当する。それに対して「母平均は基準値に( 5 　　　　　　)をプラスまたはマイナスした値と等しい」という( 6 　　　　　　)が正しいにもかからわず、ぼんやりして「母平均は基準値±( 5 　　　

(34)

)の範囲内である」と差を見逃してしまう確率 β のことを β エラーまたは( 7 　　　　　　)といい、これは診断学における( 8 　　　　　　)に相当する。そして(1-β)のことを( 9 　　　　　　)といい、診断学における( 10 　　　　　　)に相当する。第4 問　次の条件で行う試験について必要例数を求めよ。またその試験の結果について 検出力分析を行い、試験の検出力が事前の条件を満足しているかどうかを検討せよ。 ○試験内容：ある疾患について評価項目の平均値を基準値と比較する試験(1 群試験) ○試験条件：有意水準5％、検出力 80％、評価項目の検出差 2、母標準偏差推測値 5 ○試験結果：例数61 例、評価項目の不偏標準偏差 6 ※t(∞,0.05)=1.96, t(∞,0.4)=0.842, t(60,0.05)=2, t(60,0.4)=0.848 第5 問　有意性検定と統計的仮説検定の違いを説明し、両者の長所と短所について論ぜ よ。