4.1 1・2標本の計量データ(計量尺度のデータ)

(1)

4 4．

．統計手法の各論統計手法の各論

4.1 1・2 標本の計量データ(計量尺度のデータ)

対応のないt検定は2群の平均値の差が0かどうかを検定する

(1) 対応のない 2 標本の計量データ

データが計量尺度で対応のない2標本つまり2群の時は2標本t検定(two sample t-test)または対応のないt検定と呼ばれる検定と、それに伴う推定を適用する。

対応のないt検定は2群の平均値の差と、2群の標準偏差から推測した平均値の差の標準誤差を用いて平均値の差が0かどうかを検定する。これは一方の群の平均値を基準値として、他方の群の平均値がその基準値と等しいかどうかを検定することに相当する。

※一般に、検定統計量としてt分布を利用する検定のことを「t検定」と呼ぶ。t分布を利用する検定には平均値以外の統計量の検定もあるので、平均値に関する検定のことを正式には「平均値の検定」と呼ぶ。

しかし実際の研究現場では平均値の検定のことをt検定と呼ぶ習慣があるので、ここでは平均値の検定のことをt検定と呼ぶことにする。

＜問題＞

＜仮説設定＞

実測値の平均値を評価指標にし、正常人の平均値を基準値にして、検出差を±10つまり10未満のASTの差は医学的に誤差範囲とすると、

＜標本集団のデータ＞

有意水準5%、信頼係数95%、検出力80%として試験の必要例数を求めると各群17例、2群合正常人と慢性肝炎患者のASTの値に違いがあるか？

帰無仮説 H₀：2群のAST平均値は等しい

対立仮説 H₁：2群のAST平均値の差は10である

(2)

計で34例になる。しかし説明のためにこの必要例数は無視して、正常人10例と慢性肝炎患者10 例を選択し、ASTを測定したところ次表のようになったとする。

＜表4.1 正常群と慢性肝炎群のAST＞

No. 1 2 3 4 5 6 7 8 9 10

正常群 47 45 37 32 55 44 38 31 42 29 慢性肝炎群 56 60 49 47 65 46 35 55 41 46

＜推定結果と検定結果＞

=== 2群の平均値の比較 === [DANS V7.1]

データ名:表4.1

群項目(要因A):群 (0:正常 1:慢性肝炎) 集計項目 :AST

群 :群別基礎統計量

--- 0 :例数=10 平均値=40 標準偏差=8.15135 標準誤差=2.57768 1 :例数=10 平均値=50 標準偏差=9.03081 標準誤差=2.85579 --- 全体 :例数=20 平均値=45 標準偏差=9.81942 標準誤差=2.19569

・等分散性の両側F検定:F=1.22742 第1自由度=9 第2自由度=9 p=0.765154

・対応のないt検定(2標本t検定、「→」の付いた方を採用して下さい) →等分散t検定(=分散分析) :t値=2.59938 自由度=18 p=0.0181231*

→平均値の差の95%信頼区間=10±8.08241(1.91759-18.0824)

不等分散t検定(Welchの検定):t値=2.59938 自由度=17 p=0.0187042*

平均値の差の95%信頼区間=10±8.11662(1.88338-18.1166)

2 0 4 0 6 0 8 0

図 4.1 正常群と慢性肝炎群の平均値 ± 標準誤差

慢性肝炎群

AST

正常群

2 0 4 0 6 0 8 0

図 4.2 正常群と慢性肝炎群の箱ヒゲプロット

慢性肝炎群

AST

正常群

(3)

・等分散t検定…2群の標準偏差がほぼ等しい時のt検定。

・不等分散t検定またはウェルチ(Welch)の検定…2群の標準偏差が極端に異なっている時のt 検定。平均値の差の標準誤差を推測する計算式が等分散t検定とは少し異なる。

・等分散性の両側F検定…2群の分散(標準偏差の平方)の比が1かどうか、つまり2群の標準偏差が等しいかどうかの検定。

この検定結果が有意でなければ等分散t検定を用い、有意ならば不等分散t検定を用いることが多い。しかしF検定を行わずに、どんな場合でも等分散性t検定を用いて良いと主張する人もいれば、どんな場合でも不等分散t検定を用いるべきだと主張する人もいる。

実際問題として等分散t検定と不等分散t検定の結果が大きく異なることはないので、どちらの手法を用いてもかまわない。より一般性があるのは等分散t検定。

・箱ヒゲプロット…図4.4のようなプロット。データの分布状態を表す時によく用いられる。

中央の箱の下限が25%点、箱の中の横線が中央値(50%点)、「*」印が平均値、箱の上限が

75%点、上下のヒゲが箱の長さの1.5倍以内の点までの距離を表す。記述統計学的プロット。

箱ヒゲプロットを描き、データが正規分布から大きくずれている時はノンパラメトリックなウィルコクソンの2標本検定を適用することがある。

しかし第3章第1節で説明したように、データの分布状態だけで検定手法を選択するのは間違い。しかもウィルコクソンの2標本検定は2群の順位平均値を比較する手法なので、実測値のグラフではなく、第2章第4節の図2.2のような順位のグラフを描き、2群の順位平均値をプロットするのが本来である。

＜統計学的結論＞

＜医学的結論＞

・10 という平均値の差は医学的に見て意義があるか？

2 群の AST 平均値は異なる

その平均値の差は 10 であり、幅を取れば 2 ～ 18 の間である

(4)

・10 という平均値の差は慢性肝炎によるものか？

・この結果をそのまま慢性肝炎患者全体と正常人全体に当てはめて良いか？

これらの疑問点について十分に検討し、全ての疑問に対して肯定的なら、

※通常の臨床試験では、標本集団は母集団つまり慢性肝炎患者全体から無作為抽出されていない。したがってこの医学的結論があてはまるのは、標本集団と同じような背景因子を持つ準母集団だけである。

慢性肝炎患者のASTは正常人に比べて高い

(5)

対応のあるt検定は変化量の平均値が0かどうかを検定する1標本t検定

(2) 1標本の計量データ

データが計量尺度で標本の数が1つの時に、平均値について色々と検討するには1標本t検定(one sample t-test)とそれに伴う推定を適用する。→第1章第3節～第5節参照

(3) 対応のある2標本の計量データ

データが計量尺度で対応のある2標本の時、普通は差や比を求めて1標本にして取り扱う。ここではより一般的な差つまり変化量を求めることにする。一般に実測値の代わりに変化量をデータにし、検定の基準値を0にした1標本t検定のことを対応のあるt検定と呼ぶ。

＜問題＞

＜仮説設定＞

変化量の平均値を薬効の評価指標にし、その基準値を0、検出差を±10つまり10未満の AST(GOT)の変化は医学的に誤差範囲とすると、

有意水準5%、信頼係数95%、検出力80%として試験の必要例数を求めると11例になる。しかし説明のためにこの必要例数は無視して、慢性肝炎患者10例に薬剤Aを投与し、投与前後の ASTを測定したところ次表のようになったとする。

薬剤Aに慢性肝炎の肝機能改善効果があるか？

すなわち慢性肝炎患者に薬剤Aを投与するとASTが低下するか？

帰無仮説 H₀：薬剤投与前後のAST変化量の平均値は0である

対立仮説 H₁：薬剤投与前後のAST変化量の平均値は-10または+10である

(6)

＜表4.2 慢性肝炎患者の薬剤投与前後のAST＞

No. 1 2 3 4 5 6 7 8 9 10

投与前 56 60 49 47 65 46 35 55 41 46 投与後 47 45 37 32 55 44 38 31 42 29 変化量 -9 -15 -12 -15 -10 -2 +3 -2 +1 -17

=== 2時期の平均値の比較 === [DANS V7.1]

データ名:表4.2 項目 1:AST 投与前項目 2:AST 投与後

○対応のあるデータと対応のあるt検定(1標本t検定、one sample t-test)

--- 投与後:例数=10 平均値=40 標準偏差=8.15135 標準誤差=2.57768 投与前:例数=10 平均値=50 標準偏差=9.03081 標準誤差=2.85579 --- 変化量:例数=10 平均値=-10 標準偏差=8.52447 標準誤差=2.69568 変化量平均値の95%信頼区間=-10±6.09804(-16.098--3.90196)

t=-3.70965 自由度=9 有意確率p=0.00484764**

---

・図4.3のような実測値の変化を表すグラフでは変化量の標準誤差の情報が得られないため、推定結果や検定結果を反映させることはできない。

・推定結果と検定結果を反映させるには、変化量の平均値と標準誤差をプロットした図4.4のようなグラフを併用する必要がある。

3 0 4 0 5 0 6 0

図 4.3 投与前後の実測値の変化

投与前

AST

投与後 mean±SE

− 2 0

− 1 0 0 1 0

図 4.4 投与前後の変化量

投与前

AST

投与後 mean±SE

(7)

このグラフは第2章第4節の図2.3の1標本t検定の模式図において、実測値の代わりに変化量を用い、基準値を0にしたものと本質的には同じものである。

・図4.4で投与後の変化量平均値の95%信頼区間、つまりmean±2×SEの範囲に0が含まれなければ有意水準5%で有意である。

mean±SEではなく変化量平均値と95%信頼区間を描けば、検定結果をより正確に反映させる

ことができる。しかし有意水準が5%以外の時もあるため、普通はmean±SEを描く。

・-10 という変化量は医学的に見て意義があるか？

・-10 という変化量は純粋に薬剤A の効果だけによるものか？

・この結果をそのまま慢性肝炎患者全体に当てはめて良いか？

薬剤A投与前後のAST変化量平均値は0ではないその変化量平均値は-10であり、幅を取れば-16～-4の間である

慢性肝炎患者に薬剤Aを投与するとASTは低下する

すなわち薬剤Aには慢性肝炎患者の肝機能を改善する効果がある

(8)

4.2 1・2

標本の順序データ(順序尺度のデータ)

ウィルコクソンの順位和検定は2群の順位平均の差が0かどうかを検定する

(1) 対応のない2標本の順序データ

データが順序尺度で対応のない2標本つまり2群の時は、ウィルコクソンの順位和検定(ウィルコクソンの2標本検定、Wilcoxon's rank sum test)またはマン・ホイットニィのU検定(Mann- Whitney's U-test)と呼ばれる検定と、それに伴う推定を適用する。この検定は2標本t検定と同じ原理で、2群の順位平均値の差が0かどうかを検定する。

＜問題＞

例として、対応のない2標本の計量データで用いた表4.1のASTのデータを10刻みでグレード付けして、重症度に相当する順序データにして考える。

＜仮説設定＞

グレードの順位平均値を評価指標にし、正常人の順位平均値を基準値にする。検出差としては 2群のグレード分布が何%ずれているか、つまり2群の順位平均値の差の割合を設定する。その値

に50%を足すと、2群のデータの大小を総当りで比べた時の一方の群の勝率になる。勝率の方が

感覚的にわかりやすいので、ここでは勝率を用いる。

有意水準5%、信頼係数95%、検出力80%として試験の必要例数を求めると262例になる。しかし説明のためにこの必要例数は無視し、表4.1を10刻みでグレード化したデータを用いる。

正常人と慢性肝炎患者のASTグレードに違いがあるか？

帰無仮説 H₀：2群のASTグレードの勝率は等しい(順位平均値は等しい)

対立仮説 H₁：慢性肝炎群のASTグレードの勝率は40%または60%である

(9)

＜表4.3 正常群と慢性肝炎群のASTグレード＞

No. 1 2 3 4 5 6 7 8 9 10

正常群 4 4 3 3 5 4 3 3 4 2

慢性肝炎群 5 6 4 4 6 4 3 5 4 4

＜検定結果＞

=== 順序データの群間比較 === [DANS V7.1]

データ名:表 4.3

群項目(縦) :群 (0:正常 1:慢性肝炎) 順序項目(横):AST グレード

縦＼横 2( % ) 3( % ) 4( % ) 5( % ) 6( % ) 合計( % ) 順位平均 --- 0 1( 10.0) 4( 40.0) 4( 40.0) 1( 10.0) 0( 0.0) 10(100.0) 7.8 1 0( 0.0) 1( 10.0) 5( 50.0) 2( 20.0) 2( 20.0) 10(100.0) 13.2 --- 合計 1( 5.0) 5( 25.0) 9( 45.0) 3( 15.0) 2( 10.0) 20(100.0) 10.5

・Wilcoxon の順位和検定(2 標本検定、Mann-Whitney の U 検定) 正規分布 z=-2.16228 有意確率 p=0.0305968*

・順位平均の差の 95%信頼区間(confidence interval) 1:13.2-0:7.8=5.4±4.89475(0.505251-10.2947)

・1 の U 値の 95%信頼区間(confidence interval)

U(%)=77(77%)±24.4737(52.5263(52.5263%)-101.474(101.474%))

・ウィルコクソンの順位和検定の手順

2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 0

− 6

− 4

− 2 0 2 4 6

図4.5-2 勝率(U値の割合) 慢性肝炎群(77%)

0 50 100(%)

AST 正常群

(23%)

図 4.5-1 グレードの順位分布

度数

慢性肝炎群順位平均値 =13.2

順位平均値 =7.8正常群

(10)

例数で割って順位平均値を求める→2群の順位平均値の差とその標準誤差を求める→2標本t 検定と同じ原理で2群の順位平均値の差を検定する→検定結果が有意なら2群の順位平均値が異なる。

この時、2群の順位平均値の差を合計例数で割って100をかけると、2群の順位分布が何%ずれているかを表す値になる。それに50%を足した値は2群のデータの大小を総当りで比較した時の一方の群の勝率になり、それがU値の%の値になる。U値は勝ち数に相当する。

・順位平均値の分布は離散分布になるが、中心極限定理により漸近的に正規分布に近似する。そしてその標準誤差は例数だけで決まる。

※図4.6では母集団の順序分布を一様分布(全てのデータが同じ数だけ存在する)で描いてある。実際のデータがこのような分布になることは稀だが、データが同位(同じ順位のデータ)のない理想的な順序データの場合はこのような分布になる。このような一様分布でも、順位平均値は正規分布に近似するところが中心極限定理のミソ。

・2 群のグレードデータの大小を比較した時、慢性肝炎群の勝率が77%であるというこ 2群のASTグレードの勝率は異なる(順位平均値は異なる)

慢性肝炎群の勝率は77%であり、幅を取れば53~100%の間である

0

図 4.6 順序データの分布と順位平均値の分布

n例を2群無作為抽出して群1の順位平均値を

無限回求める

母集団の順序データの分布群1の順位平均値の分布近似正規分布

(11)

とは医学的に見て意義があるか？

・勝率 50%からの増加分 27%は慢性肝炎によるものか？

・この結果をそのまま慢性肝炎患者全体と正常人全体に当てはめて良いか？

慢性肝炎患者のASTグレードは正常人に比べて高い

(12)

ウィルコクソンの符号付き順位検定は順序データの変化が0かどうかを検定する

(2) 1標本の順序データ

データが順序尺度で標本の数が1つの時に、順位平均値について色々と検討するにはウィルコクソンの1標本検定(ウィルコクソンの符号付き順位検定、Wilcoxon's signed rank test)を適用する。しかし1標本の順序データを検定することは実際の研究現場ではほとんどなく、次の対応のある2標本の順序データにウィルコクソンの符号付き順位検定を適用することが多い。

(3) 対応のある2標本の順序データ

データが順序尺度で対応のある2標本の時、順位の差を求めて1標本にして取り扱う。順序尺度のデータは四則演算ができないため、本来は順位の差を求めることはできない。しかし実際の研究現場では、近似的に順位の差を求めることができると考えてウィルコクソンの符号付き順位検定を適用することが多い。

＜問題＞

例として、対応のある2標本の計量データで用いた表4.2のASTのデータを10刻みでグレード付けして、重症度に相当する順序データにして考える。

＜仮説設定＞

グレード変化量の符号付き順位分布の中心つまり符号付き順位平均値を薬効の評価指標にし、

その基準値を0とする。検出差としては、符号付き順位平均値が全例数に対して何%ずれているかを設定する。

慢性肝炎患者に薬剤Aを投与するとASTのグレードが低下するか？

帰無仮説 H₀：ASTグレード変化量の符号付き順位平均値は0である

対立仮説 H₁：ASTグレード変化量の符号付き順位平均値は-10%または+10%ずれている

(13)

有意水準5%、信頼係数95%、検出力 80%として試験の必要例数を求めると 262 例になる。しかし説明のためにこの必要例数は無視し、表 4.2 を 10刻みでグレード化したデータを用いる。

＜表4.4 慢性肝炎患者の薬剤投与前後のASTグレード＞

No. 1 2 3 4 5 6 7 8 9 10

投与前 5 6 4 4 6 4 3 5 4 4

投与後 4 4 3 3 5 4 3 3 4 2

変化量 -1 -2 -1 -1 -1 0 0 -2 0 -2

＜検定結果＞

=== 順序データの群内比較 === [DANS V7.1]

データ名:表4.4

集計項目 :ASTグレード　投与後 -比較項目:ASTグレード　投与前

差の絶対値　 1( % ) 2( % ) 合計( % ) --- 差：正の群　 0( 0.0) 0( 0.0) 0(100.0) 差：負の群　 4( 57.1) 3( 42.9) 7(100.0) --- 合計 4( 57.1) 3( 42.9) 7(100.0)

・Wilcoxonの符号付き順位検定(Wilcoxonの1標本検定) 正規分布z=-2.42791 有意確率p=0.0151862*

・符号付き順位和の 95%信頼区間(confidence interval) 0-28=-28±22.6034(-50.6034--5.39659)

符号付き順位平均=-4±3.22906(-7.22906--0.770942)

合計に対する割合(%)=-57.1429±46.1294(-103.272--11.0135)

1 2 3 4 5 6 7 8

0 1 2 3 4 5 6

1 2 3 4 5 6 7 8

0 1 2 3 4 5 6

図 4.7 AST グレードの度数分布

投与前投与後

(14)

順序データの差を正群と負群に分ける(差が0のものは除く)→差の絶対値に順位を付ける→

正群と負群別に順位を合計して順位和を求め、正群の順位和から負群の順位和を引いて符号付き順位和を求める→符号付き順位和を例数で割って符号付き順位平均値にし、その標準誤差を求める→1標本t検定と同じ原理で符号付き順位平均値が0かどうかを検定する→検定結果が有意なら符号付き順位分布が正または負の方向にずれている→順序データは前後で変化している。

符号付き順位平均値は、符号付き順位分布が原点から何例分ずれているかを表す値になる。

それをさらに例数で割って100をかけると、符号付き順位分布が原点から何%ずれているかを表す値になる。

− 7 − 6 − 5 − 4 − 3 − 2 − 1 0 1

1 2 3 4 5

図 4.8 AST グレード変化量の符号付き順位分布符号付き順位

度数符号付き順位平均値

-4

0

図 4.9 符号付き順位分布と符号付き順位平均値の分布

n例を無作為抽出して符号付き順位平均値を

無限回求める

母集団の符号付き順序分布標本集団の符号付き順位平均値の分布近似正規分布

0

(15)

・符号付き順位和または順位平均値の分布は離散分布になるが、中心極限定理により漸近的に正規分布に近似する。そしてその標準誤差は例数だけで決まる。

・薬剤投与前後の AST グレード変化量の符号付き順位平均値が負の方向に57%(4 例分)ずれていることは医学的に見て意義があるか？

・その変化は純粋に薬剤A の効果だけによるものか？

・この結果をそのまま慢性肝炎患者全体に当てはめて良いか？

薬剤投与前後のASTグレード変化量の符号付き順位平均は0ではないそれは負の方向に4例分(57%)ずれていて

幅を取れば4例分(57%)～0.8例分(11%)の間である

慢性肝炎患者に薬剤Aを投与するとASTグレードは低下するすなわち薬剤Aには慢性肝炎患者の肝機能を改善する効果がある

(16)

4.3 1・2

標本の分類データ(名義尺度のデータ)

フィッシャーの正確検定は2群の出現率の差が0かどうかを検定する

(1) 対応のない2標本の分類データ

データが名義尺度で対応のない2標本つまり2群の時、フィッシャー(Fisher)の正確検定

(フィッシャーの直接確率計算法による検定)またはχ²検定と呼ばれる検定を適用する。

この検定は2標本t検定と同じ原理で2群の出現率の差が0かどうかを検定する。

＜問題＞

例として対応のない2標本の計量データで用いた表4.1のASTのデータを、40未満を「正常」、

40以上を「異常」と分類し、2分類データにして考える。

＜仮説設定＞

AST異常の出現率を評価指標にし、正常人の出現率を基準値にする。検出差を±10%つまり 10%未満の出現率の違いは医学的に誤差範囲とすると、

有意水準5%、信頼係数95%、検出力 80%として試験の必要例数を求めると 1 群 408 例、2 群合計 816例になる。しかし説明のためにこの必要例数は無視し、表 4.1 の AST 実測値を 40 未満を「正常」、40 以上を「異常」と分類したデータを用いる。

＜表4.5 正常群と慢性肝炎群のAST判定＞

No. 1 2 3 4 5 6 7 8 9 10

正常群異常異常正常正常異常異常正常正常異常正常慢性肝炎群異常異常異常異常異常異常正常異常異常異常

正常人と慢性肝炎患者のAST異常の出現率に差があるか？

帰無仮説 H₀：2群のAST異常の出現率は等しい

対立仮説 H₁：2群のAST異常の出現率の差は10%である

(17)

＜検定結果＞

=== 分類データの独立性検定 === [DANS V7.1]

データ名:表4.5 群項目(縦) :群分類項目(横):AST判定

縦＼横正常( % ) 異常( % ) 合計( % ) --- 正常群 5( 50.0) 5( 50.0) 10(100.0) 慢性肝炎群 1( 10.0) 9( 90.0) 10(100.0) --- 合計 6( 30.0) 14( 70.0) 20(100.0)

・χ^2検定(修正有,2×2) χ^2=2.14286 自由度=1 有意確率p=0.143235

・Fisherの正確検定有意確率p=0.140867

出現率の差の95%信頼区間=0.4±0.461399(-0.0613995-0.861399)

・慢性肝炎群の異常の出現率の分布は超幾何分布という離散分布になる。この分布は中心極限定理により漸近的に正規分布に近似し、その標準誤差は例数だけで決まる。

・超幾何分布は単純なので、比較的簡単に計算できる。そこで近似正規分布を利用せずに、超幾何分布をそのまま利用して検定を行うことができる。その手法をフィッシャーの正確検定またはフィッシャーの直接確率計算法による検定という。

この手法では二項検定のように、t値のような検定統計量を用いず、有意確率を直接計算する

0 2 0 4 0 6 0 8 0 1 0 0

図 4.10 AST 判定のバーチャート正常

10 例異常

90%

10 例慢性肝炎群

正常群 10%

50% 50%

(18)

ことができる。

・近似正規分布を利用した検定法をχ²検定という。

この手法は正規分布に対する近似を良くするために、イェーツの修正と呼ばれる修正を行うことがある。ただし、修正を行なってもフィッシャーの正確検定の方が正確。

・出現率の推定は近似正規分布を利用して計算する。

そのため二項検定と同様に、95%信頼区間の結果とフィッシャーの正確検定の結果との間に矛盾が生じることがある。

※正規分布を平方するとχ²分布という分布になる。この手法では出現率の差を平方し、それが近似的にχ² 分布することを利用して検定しているためχ²検定と呼ばれる。

この場合は検定結果は有意水準5%で有意ではなく、しかも95%信頼区間が許容範囲 0±10%よりも大きい。そして検出力分析を行うと検出差が57%になる。そのため統計学的結論は保留する。

2群のAST異常の出現率は異なっている可能性が高いその差は40%であり、幅を取れば-6%～86%の間である

しかし信頼性が低いので結論は保留する

0

図 4.11 2 分類データの分布と出現率の分布

n例を2群無作為抽出して群1の分類1の出現率を

無限回求める

母集団の2分類データの分布出現率の分布(超幾何分布) 近似正規分布

(19)

慢性肝炎患者のASTは正常人に比べて高い確率で異常値になる可能性が高いしかし信頼性が低いので明確な結論は保留する

(20)

二項検定は分類データの出現率(割合)が基準値と等しいかどうかを検定する

(2) 1標本の分類データ

データが分類尺度で標本の数が1つの時に、出現率つまり割合について色々と検討するには二項検定(binomial test)を適用する。

しかし1標本の分類データを検定することは実際の研究現場ではほとんどなく、次の対応のある2標本の分類データに二項検定を適用することが多い。

(3) 対応のある2標本の分類データ

データが分類尺度で対応のある2標本というのは、例えば薬剤投与前後で尿蛋白の定性試験を実施し、結果を正常・異常で観測したデータが相当する。その結果は次のような2×2分割表にまとめることができる。

＜表4.6 薬剤投与前後の尿蛋白定性試験の変化＞

投与前＼投与後正常異常計

正常 9 2 11

異常 8 1 9

計 17 3 20

上表で、正常→異常に変化した2例を「悪化」、異常→正常に変化した8例を「改善」と評価することが可能。もし薬剤に効果または副作用がなければ、悪化と改善の出現率は同じになると考えられる。

また対応のある2標本の計量データで用いた表4.2のASTのデータで、投与前後で値が低下したものと上昇したものに分類すると次のようになる。

＜表4.7 慢性肝炎患者の薬剤投与前後のASTの変化＞

投与前後の変化低下上昇計

例数 8 2 10

もし薬剤に効果がなければ、低下例と上昇例の出現率はどちらも50%になると考えられる。

(21)

二項検定は、ある分類の出現率が基準値と等しいかどうかを1標本t検定と同じ原理で検定する。前述の2つの例のように、実際の研究現場では基準値として50%が多用されるため、このような二項検定を特に符号検定と呼ぶ。

＜問題＞

前述の慢性肝炎患者のASTの変化を例にする。

＜仮説設定＞

低下例の出現率を評価指標にし、その基準値を50%にする。検出差を±10%つまり10%未満の出現率の違いは医学的に誤差範囲とすると、

有意水準5%、信頼係数95%、検出力 80%として試験の必要例数を求めると 194 例になる。しかし説明のためにこの必要例数は無視し、表 4.2 の変化量を低下と上昇に分類したデータを用いる。

＜表4.8 慢性肝炎患者の薬剤投与前後のAST＞

No. 1 2 3 4 5 6 7 8 9 10

投与前 56 60 49 47 65 46 35 55 41 46 投与後 47 45 37 32 55 44 38 31 42 29 変化低下低下低下低下低下低下上昇低下上昇低下

=== 分類データの出現率比較 === [DANS V7.1]

データ名:表4.8

慢性肝炎患者に薬剤Aを投与するとASTが低下するか？

帰無仮説 H₀：AST低下例の出現率は50%である

対立仮説 H₁：AST低下例の出現率は40%または60%である

(22)

ASTの変化例数 (出現率 95%信頼区間 %) --- 低下 8 ( 80.000 44.390 -- 97.479) 上昇 2 ( 20.000 2.521 -- 55.610) --- 合計 10 (100.000)

・二項検定有意確率p=0.109375 理論確率:低下=0.5 上昇=0.5

・出現率の分布は二項分布という離散分布になる。この分布は中心極限定理により漸近的に正規分布に近似し、その標準誤差は理論確率(基準の出現率)と例数だけで決まる。

・二項分布は単純なので、比較的簡単に計算できる。そこで二項検定は近似正規分布を利用せず、

二項分布をそのまま利用して検定を行う。

0

図 4.13 2 分類データの分布と出現率の分布

n例を無作為抽出して分類1の出現率を

無限回求める

母集団の2分類データの分布出現率の分布(二項分布) 近似正規分布

0 2 0 4 0 6 0 8 0 1 0 0

図 4.12 AST 変化のバーチャート低下

10 例上昇

20%

80%

(23)

そのため上記の検定結果のように、t値のような検定統計量を用いず、有意確率を直接計算することができる。

・出現率の信頼区間はF分布または正規分布を利用して近似的に計算する。

そのため95%信頼区間に基準値50%が含まれていないにもかかわらず、検定結果は有意水準

5%で有意にならないという矛盾が生じることがある。これは信頼区間を近似計算していることが原因で、検定結果の方が正確。

・分類数が3つ以上の時は、多項分布を利用すれば原理的には検定を行うことができる。

しかし実際の研究現場でそのようなデータを取り扱うことはほとんどないので、多項検定が実際に使われることはない。

この場合は検定結果は有意水準5%で有意ではなく、しかも95%信頼区間が許容範囲

50±10%よりも大きい。そして検出力分析を行うと検出差が89%になる。そのため統計学的結論は

保留する。

薬剤A投与前後のAST低下例の出現率は50%ではない可能性が高いそれは80%であり、幅を取れば44%～97%の間である

しかし信頼性が低いので結論は保留する

慢性肝炎患者に薬剤Aを投与するとASTは低下する可能性が高いしかし信頼性が低いので明確な結論は保留する

(24)

4.4 対応のない多標本のデータ

一元配置分散分析は多群の平均値が全て等しいかどうかを検定する

(1) 対応のない多標本の計量データ 1) 一元配置分散分析

データが計量尺度で対応のない多標本つまり多群の時に、多群の平均値が全て等しいかどうかを検討するには一元配置分散分析(one-way layout ANOVA:analysis of variance、アノーバ) を適用する。

平均値のバラツキは全体の平均値に対する各群の平均値の標準偏差、またはそれを平方した値である分散によって表すことができ、一元配置分散分析はそれが0かどうかを検定する。

平均値の標準偏差は全体の平均値と1つの群の平均値の平均的な距離だから、群が2つの時は2つの群の平均値の差の半分になる。このため群数が2つの一元配置分散分析は、2標本t 検定(対応のないt検定)に相当する。

＜問題＞

＜仮説設定＞

収縮期血圧の平均値を評価指標にし、薬剤Aをプラセボ(薬理作用を持たない形だけの偽薬 )、

薬剤BとCを血圧降下剤とする。

一元配置分散分析は検定統計量として分散を用いるため、具体的な検出差を設定するのが難しい。そこで普通は具体的な対立仮説を設定しない有意性検定を行う。

薬剤A、B、Cの降圧効果に違いがあるか？

帰無仮説 H₀：3群の平均値は全て等しい

対立仮説 H₁：3群の平均値はばらついている(どれか1つ以上は他と異なる)

(25)

有意性検定のために試験の必要例数は求められない。高血圧患者15人を無作為に3群に分け、それぞれの群に薬剤A、B、Cを投与して収縮期血圧を測定したところ次表のようになった。

＜表4.9 3群の薬剤投与後の収縮期血圧＞

群内No. A剤投与群 B剤投与群 C剤投与群

1 116 106 108

2 128 102 100

3 129 108 108

4 137 118 114

5 140 116 110

＜検定結果＞

=== 多群の平均値の比較 === [DANS V7.1]

データ名:表4.9

群項目(要因A):群 (1:A剤投与群 2:B剤投与群 3:C剤投与群) 集計項目 :収縮期血圧 (mmHg)

--- 1 :例数=5 平均値=130 標準偏差=9.35414 標準誤差=4.1833 2 :例数=5 平均値=110 標準偏差=6.78233 標準誤差=3.03315 3 :例数=5 平均値=108 標準偏差=5.09902 標準誤差=2.28035 --- 全体 :例数=15 平均値=116 標準偏差=12.2998 標準誤差=3.1758

・一元配置分散分析(one-way layout analysis of variance) 分散分析表(ANOVA table)

要因平方和自由度平均平方和 F値有意確率p値 --- 群(要因A) 1480 2 740 13.9185 0.000747082***

残差 638 12 53.1667

--- 全体 2118 14

・分散分析表…データのバラツキを要因ごとに分けて整理した表。

・平方和…偏差を平方して合計した値。偏差とは平均値とデータの差、または全体の平均値と各群の平均値の差のこと。

・自由度…バラツキの原因になる独立変数の数。

(26)

・平均平方和…平方和を自由度で割った値＝分散。

・F値…群の分散(群間分散)と残差の分散(群内分散)の比。

・群（要因A）…群によるデータのバラツキ。一元配置分散分析では群を要因Aと呼ぶ。

全体の平均値に対する各群の平均値の差が偏差であり、例えば図4.5の全体の平均値 mT=116とA群の平均値m1=130の差14がこれに相当する。

この偏差を平方して合計した値が平方和1480で、それを自由度2で割った値が平均平方和 (群間分散)740、これを全体の例数で割って平方根にした値√(740/15)=7.0が平均値の標準偏差に相当する。

自由度が2になるのは、3群の平均値を平均すると全体の平均値になるため、平均値の値を自由に変化させられる群の数は2つになるから。標準偏差の自由度(n-1)と同じ原理。

・残差…個々のデータによる群内バラツキ。

群ごとの平均値に対する個々のデータの差が偏差であり、例えば図4.5のm1=130とA群の5 番目のデータy15=140の差10がこれに相当する。

この偏差を平方して合計した値が平方和638で、それを自由度12で割った値が平均平方和 (群内分散)53.1667、この平方根√53.1667=7.3が群ごとの個々のデータの標準偏差に相当する。

一元配置分散分析では全体のバラツキから群のバラツキを差し引いた残りが誤差になるため、

残差と呼ばれる。これが検定の誤差になる。

・一元配置分散分析の回帰平面による表現…図2.2で2群の平均値を2次元の回帰直線で表現したように、3群の平均値は図4.15のように3次元の回帰平面で表現することができる。

この場合、2つのダミー変数x1とx2を用いて3群を次のように表す。

ダミー変数 A群 B群 C群

x1 0 1 0

x2 0 0 1

回帰平面：y=130-20x1-22x2

A群：y=130-20×0-22×0=130　B群：y=130-20×1-22×0=110　C群：y=130-20×0-22×1=108

(27)

＜寄与率＞

全体のバラツキのうち要因Aによって説明のつくバラツキの割合を「寄与率(関与率)」または

「決定係数(coefficient of determination)」といい、補助的な指標として利用する。寄与率は最小値が0(0%)で最大値が1(100%)のため解釈が簡単。

R

寄与率： _A²=η_A²=要因Aの平方和

全体の平方和 =1480

2118=0.699(69.9%)

寄与率の平方根を「η」で表し、「相関比(correlation ratio)」と呼ぶ。名義尺度のデータと計量尺度のデータの相関係数に相当する指標。

・約 70%という寄与率は医学的に見て意義があるか？

・130、110、108 という3群の平均値のばらつきは医学的に見て意義があるか？

3群の平均値はばらついている

●

●●

●

●●

●

図 4.15 一元配置分散分析の概念図

B 群 A 群

C 群

0 1

1

x₁

x₂ 回帰平面： y=130-20x₁-22x₂ y

8 0 1 0 0 1 2 0 1 4 0

図 4.14 一元配置分散分析のグラフ的解釈

B 群

収縮期血圧

A 群 C 群

y₁₅=140 m₁=130

m_T=116 10

14

(28)

・この結果をそのまま高血圧患者全体に当てはめて良いか？

薬剤A、B、Cの降圧効果は同一ではないすなわち薬剤B、Cには降圧効果がある

(29)

多重比較は複数の比較をしてどこかが有意になればそれを採用する”いいとこ取り”の方法

2) 多重比較

一元配置分散分析は、どの群の平均値とどの群の平均値が異なっているかを検定する手法ではない。そのような具体的な比較を行いたい時は多重比較(multiple comparison)を用いる。この手法は2群の平均値の比較を複数回行ない、どこか1つでも有意になった比較があればそれを統計学的結論として採用する”いいとこ取り”の方法である。

「有意水準5%で有意」とは「結論が間違っている危険性が5%ある」という意味→比較の回数が増えるほどいいとこ取りの結論が間違っている危険性が増える→結論が間違っている危険性を

5%に抑えるために1回1回の比較の有意水準にハンディキャップを持たせる→多重比較。

＜問題＞

＜仮説設定＞

収縮期血圧の検出差を±10つまり10未満の収縮期血圧の差は医学的に誤差範囲とすると、

または

もしあるとすればそれはどの薬剤とどの薬剤の間か？

帰無仮説 H₀：3群の平均値は全て等しい

対立仮説 H₁：A剤投与群とB剤投与群の平均値の差は10である

対立仮説 H₁：B剤投与群とC剤投与群の平均値の差は10である対立仮説 H₁：A剤投与群とC剤投与群の平均値の差は10である

(30)

有意水準5%、信頼係数95%、検出力80%として試験の必要例数を求めると各群15例、3群合計で45例になる。しかし説明のためにこの必要例数は無視して、一元配置分散分析と同じ表4.9 のデータを用いる。

=== 多群の平均値の比較 === [DANS V7.1]

データ名:表4.9

群項目(要因A):群 (1:A剤投与群 2:B剤投与群 3:C剤投与群) 集計項目 :収縮期血圧 (mmHg)

--- 1 :例数=5 平均値=130 標準偏差=9.35414 標準誤差=4.1833 2 :例数=5 平均値=110 標準偏差=6.78233 標準誤差=3.03315 3 :例数=5 平均値=108 標準偏差=5.09902 標準誤差=2.28035 --- 全体 :例数=15 平均値=116 標準偏差=12.2998 標準誤差=3.1758

・群(要因A)のTukey型多重比較(Tukey type multiple comparison)

群 - 群 q値群数自由度有意確率p値 --- 1 - 2 6.13332 3 12 0.00256936**

1 - 3 6.74665 3 12 0.00122382**

2 - 3 0.613332 3 12 0.902338 ---

・Tukey型95%同時信頼区間(simultaneous confidence interval)

群 - 群平均値の差区間幅下限上限 --- 1 - 2 20 12.3031 7.69693 32.3031 1 - 3 22 12.3031 9.69693 34.3031 2 - 3 2 12.3031 -10.3031 14.3031 ---

・2 群の平均値の比較方法は原理的には 2 標本t検定と同じ。

・2 群の平均値の比較を3 回行うため、そのままでは最終的な危険率が5%×3=15%になる。

そこで 1回1回の有意水準を5/3%にする→実際には 1回1回の有意確率 p値を3倍する。

それが上の結果中の有意確率 p値。

・多重比較の種類

ダネット型…特定の群を対照群として、他のすべての群をこの対照群と比較する手法

(31)

テューキー型…リーグ戦方式の比較、つまりあらゆる 2 群の比較をする手法ボンフェローニー型…ダネット型またはテューキー型の近似手法

シェッフェ型…あらゆる 2 群の比較だけでなく、複数の群を合わせた時の平均値と、

他の複数の群を合わせた時の平均値を比較することもできる手法

・同時信頼区間…多重比較手法に対応する信頼区間。

3 種類の信頼区間が同時に成り立ち、全ての信頼区間に母平均が同時に入る確率が95%ある。

・A剤投与群とB 剤投与群の平均値の差 20 と、A剤投与群とC 剤投与群の平均値の差 22 は医学的に見て意義があるか？

・これらの平均値の差は薬剤の違いによるものか？

・この結果をそのまま高血圧患者全体に当てはめて良いか？

A剤投与群とB剤投与群の平均値は異なっていて A剤投与群とC剤投与群の平均値も異なっているが B剤投与群とC剤投与群の平均値は異なっているとは言えない A剤投与群とB剤投与群の差は20であり、幅を取れば8～32の間である A剤投与群とC剤投与群の差は22であり、幅を取れば10～34の間である

B剤投与群とC剤投与群の差は2であり、幅を取れば-10～14の間である

薬剤Bと薬剤Cには降圧効果があり、その降圧効果はほぼ同じである

(32)

※多重比較の例え話…ワインとソムリエ

”いいとこ取り”または”悪いとこ取り”をして、どこか1個でも有意の結果があればそれを統計学的結論として採用する時、多重比較が必要になる→キーワードは”いいとこ取りの結論”

※多重比較を適用してはいけない場合の例え話…名医とヤブ医者

医者の腕前を評価するには1回の診断に対する誤診率を指標にすべきであり、1日の診断に対する誤診率、つまり1日に1人でも誤診をすればその日は「誤診をした日」と数える”悪いとこ取り”をした誤診率を指標にしてはいけない。

例えばある疾患のリスクファクターとして多数の遺伝子を検討する時、「遺伝子の数が多いほど危険率が増加するため、個々の遺伝子の検定に多重比較を用いる必要がある」と誤解されることがある。

個々の遺伝子のリスクファクターとしての”腕前”を独立に評価したいのなら、多重比較を行うべきではない。そうではなく「ある疾患に遺伝子が関与しているか？」という問題を検討したいのなら、

多重比較が必要。

試験に複数の目的を持たせ、それらを総合して最終的な結論を検討する時は原則として多重あるレストランのワイン貯蔵庫は管理が悪く、全体の5%のものが悪くなっていた。

そのためソムリエが1本のワインをお客に出した時、それが悪くなっている危険性が5%

あるため、ソムリエは20回に1回はお客に謝ることになる(危険率5%)。

ところがお客がワインを3本注文した時、3本のうちの1本でも悪くなっていればソムリエはお客に謝らなければならないため(悪いとこ取り)、

危険率が15%に増え、6～7回に1回は謝ることになる。

そのような場合にソムリエが謝る危険率を5%に抑えるためには、

貯蔵庫の管理状態を向上させて悪いワインの割合を5/3%にする必要がある。

あるところに誤診率5%の医者がいた。この医者が1日に1人の患者を診断すると、

20日に1回しか誤診をしないため、周囲から「名医」と評価される。

ところが同じ医者が1日に20人の患者を診断すると、1日に1回は誤診をすることになり、

周囲から「ヤブ医者」と評価される。

つまり患者が多くて繁盛するほど、ヤブ医者と評価されることになる。

(33)

比較が必要になる。

多重比較はややこしい手法なので、試験の目的を 1 つに絞り、多重比較を必要としない試験にするのが賢明。

(34)

クリスカル・ウォーリスのH検定は多群の順位平均が全て等しいかどうかを検定する

(2) 対応のない多標本の順序データ

データが順序尺度で対応のない多標本つまり多群の時に、多群の順位平均値が全て等しいかどうか検討するにはクリスカル・ウォーリス(Kruskal-Wallis)のH検定を適用する。この手法は順位平均を用いた一元配置分散分析に相当し、多重比較を行うことも可能。

＜問題＞

例として、(1)対応のない多標本の計量データで用いた収縮期血圧のデータを10刻みでグレード付けして、重症度に相当する順序データにして考える。

＜仮説設定＞

上記の問題を検討するには多重比較が適している。しかし説明のためにクリスカル・ウォーリスのH検定と多重比較の両方を適用する。

多重比較の場合の対立仮説

または

もしあるとすればそれはどの薬剤か？

帰無仮説 H₀：3群の順位平均は全て等しい

対立仮説 H₁：3群の順位平均はばらついている

対立仮説 H₁：A剤投与群とB剤投与群の順位平均は10%ずれている

対立仮説 H₁：A剤投与群とC剤投与群の順位平均は10%ずれている

対立仮説 H₁：B剤投与群とC剤投与群の順位平均は10%ずれている