• 検索結果がありません。

4.1 1・2標本の計量データ(計量尺度のデータ)

N/A
N/A
Protected

Academic year: 2021

シェア "4.1 1・2標本の計量データ(計量尺度のデータ)"

Copied!
62
0
0

読み込み中.... (全文を見る)

全文

(1)

4

4.

.統計手法の各論統計手法の各論

4.1 1・2 標本の計量データ(計量尺度のデータ)

対応のないt検定は2群の平均値の差が0かどうかを検定する

(1) 対応のない 2 標本の計量データ

データが計量尺度で対応のない2標本つまり2群の時は2標本t検定(two sample t-test)また は対応のないt検定と呼ばれる検定と、それに伴う推定を適用する。

対応のないt検定は2群の平均値の差と、2群の標準偏差から推測した平均値の差の標準誤 差を用いて平均値の差が0かどうかを検定する。これは一方の群の平均値を基準値として、他方 の群の平均値がその基準値と等しいかどうかを検定することに相当する。

※一般に、検定統計量としてt分布を利用する検定のことを「t検定」と呼ぶ。t分布を利用する検定には平 均値以外の統計量の検定もあるので、平均値に関する検定のことを正式には「平均値の検定」と呼ぶ。

しかし実際の研究現場では平均値の検定のことをt検定と呼ぶ習慣があるので、ここでは平均値の検 定のことをt検定と呼ぶことにする。

<問題>

<仮説設定>

実測値の平均値を評価指標にし、正常人の平均値を基準値にして、検出差を±10つまり10 満のASTの差は医学的に誤差範囲とすると、

<標本集団のデータ>

有意水準5%、信頼係数95%、検出力80%として試験の必要例数を求めると各群17例、2群合 正常人と慢性肝炎患者のASTの値に違いがあるか?

帰無仮説 H02群のAST平均値は等しい

対立仮説 H12群のAST平均値の差は10である

(2)

計で34例になる。しかし説明のためにこの必要例数は無視して、正常人10例と慢性肝炎患者10 例を選択し、ASTを測定したところ次表のようになったとする。

<表4.1 正常群と慢性肝炎群のAST>

No. 1 2 3 4 5 6 7 8 9 10

正常群 47 45 37 32 55 44 38 31 42 29 慢性肝炎群 56 60 49 47 65 46 35 55 41 46

<推定結果と検定結果>

=== 2群の平均値の比較 === [DANS V7.1]

データ名:表4.1

群項目(要因A):群 (0:正常 1:慢性肝炎) 集計項目 :AST

群 :群別基礎統計量

--- 0 :例数=10 平均値=40 標準偏差=8.15135 標準誤差=2.57768 1 :例数=10 平均値=50 標準偏差=9.03081 標準誤差=2.85579 --- 全体 :例数=20 平均値=45 標準偏差=9.81942 標準誤差=2.19569

・等分散性の両側F検定:F=1.22742 第1自由度=9 第2自由度=9 p=0.765154

・対応のないt検定(2標本t検定、「→」の付いた方を採用して下さい) →等分散t検定(=分散分析) :t値=2.59938 自由度=18 p=0.0181231*

→平均値の差の95%信頼区間=10±8.08241(1.91759-18.0824)

不等分散t検定(Welchの検定):t値=2.59938 自由度=17 p=0.0187042*

平均値の差の95%信頼区間=10±8.11662(1.88338-18.1166)

2 0 4 0 6 0 8 0

図 4.1 正常群と慢性肝炎群の 平均値 ± 標準誤差

慢性肝炎群

AST

正常群

2 0 4 0 6 0 8 0

図 4.2 正常群と慢性肝炎群の 箱ヒゲプロット

慢性肝炎群

AST

正常群

(3)

・等分散t検定…2群の標準偏差がほぼ等しい時のt検定。

・不等分散t検定またはウェルチ(Welch)の検定…2群の標準偏差が極端に異なっている時のt 検定。平均値の差の標準誤差を推測する計算式が等分散t検定とは少し異なる。

・等分散性の両側F検定…2群の分散(標準偏差の平方)の比が1かどうか、つまり2群の標準 偏差が等しいかどうかの検定。

この検定結果が有意でなければ等分散t検定を用い、有意ならば不等分散t検定を用いること が多い。しかしF検定を行わずに、どんな場合でも等分散性t検定を用いて良いと主張する人もい れば、どんな場合でも不等分散t検定を用いるべきだと主張する人もいる。

実際問題として等分散t検定と不等分散t検定の結果が大きく異なることはないので、どちら の手法を用いてもかまわない。より一般性があるのは等分散t検定。

・箱ヒゲプロット…図4.4のようなプロット。データの分布状態を表す時によく用いられる。

中央の箱の下限が25%点、箱の中の横線が中央値(50%点)、「*」印が平均値、箱の上限が

75%点、上下のヒゲが箱の長さの1.5倍以内の点までの距離を表す。記述統計学的プロット。

箱ヒゲプロットを描き、データが正規分布から大きくずれている時はノンパラメトリックなウィルコ クソンの2標本検定を適用することがある。

しかし第3章第1節で説明したように、データの分布状態だけで検定手法を選択するのは間違 い。しかもウィルコクソンの2標本検定は2群の順位平均値を比較する手法なので、実測値のグラ フではなく、第2章第4節の図2.2のような順位のグラフを描き、2群の順位平均値をプロットする のが本来である。

<統計学的結論>

<医学的結論>

・10 という平均値の差は医学的に見て意義があるか?

2 群の AST 平均値は異なる

その平均値の差は 10 であり、幅を取れば 2 ~ 18 の間である

(4)

・10 という平均値の差は慢性肝炎によるものか?

・この結果をそのまま慢性肝炎患者全体と正常人全体に当てはめて良いか?

これらの疑問点について十分に検討し、全ての疑問に対して肯定的なら、

※通常の臨床試験では、標本集団は母集団つまり慢性肝炎患者全体から無作為抽出されていない。した がってこの医学的結論があてはまるのは、標本集団と同じような背景因子を持つ準母集団だけである。

慢性肝炎患者のASTは正常人に比べて高い

(5)

対応のあるt検定は変化量の平均値が0かどうかを検定する1標本t検定

(2) 1標本の計量データ

データが計量尺度で標本の数が1つの時に、平均値について色々と検討するには1標本t 定(one sample t-test)とそれに伴う推定を適用する。→第1章第3節~第5節参照

(3) 対応のある2標本の計量データ

データが計量尺度で対応のある2標本の時、普通は差や比を求めて1標本にして取り扱う。こ こではより一般的な差つまり変化量を求めることにする。一般に実測値の代わりに変化量をデータ にし、検定の基準値を0にした1標本t検定のことを対応のあるt検定と呼ぶ。

<問題>

<仮説設定>

変化量の平均値を薬効の評価指標にし、その基準値を0、検出差を±10つまり10未満の AST(GOT)の変化は医学的に誤差範囲とすると、

<標本集団のデータ>

有意水準5%、信頼係数95%、検出力80%として試験の必要例数を求めると11例になる。しか し説明のためにこの必要例数は無視して、慢性肝炎患者10例に薬剤Aを投与し、投与前後の ASTを測定したところ次表のようになったとする。

薬剤Aに慢性肝炎の肝機能改善効果があるか?

すなわち慢性肝炎患者に薬剤Aを投与するとASTが低下するか?

帰無仮説 H0:薬剤投与前後のAST変化量の平均値は0である

対立仮説 H1:薬剤投与前後のAST変化量の平均値は-10または+10である

(6)

<表4.2 慢性肝炎患者の薬剤投与前後のAST>

No. 1 2 3 4 5 6 7 8 9 10

投与前 56 60 49 47 65 46 35 55 41 46 投与後 47 45 37 32 55 44 38 31 42 29 変化量 -9 -15 -12 -15 -10 -2 +3 -2 +1 -17

<推定結果と検定結果>

=== 2時期の平均値の比較 === [DANS V7.1]

データ名:表4.2 項目 1:AST 投与前 項目 2:AST 投与後

○対応のあるデータと対応のあるt検定(1標本t検定、one sample t-test)

--- 投与後:例数=10 平均値=40 標準偏差=8.15135 標準誤差=2.57768 投与前:例数=10 平均値=50 標準偏差=9.03081 標準誤差=2.85579 --- 変化量:例数=10 平均値=-10 標準偏差=8.52447 標準誤差=2.69568 変化量平均値の95%信頼区間=-10±6.09804(-16.098--3.90196)

t=-3.70965 自由度=9 有意確率p=0.00484764**

---

・図4.3のような実測値の変化を表すグラフでは変化量の標準誤差の情報が得られないため、推 定結果や検定結果を反映させることはできない。

・推定結果と検定結果を反映させるには、変化量の平均値と標準誤差をプロットした図4.4のよう なグラフを併用する必要がある。

3 0 4 0 5 0 6 0

図 4.3 投与前後の実測値の変化

投与前

AST

投与後 mean±SE

− 2 0

− 1 0 0 1 0

図 4.4 投与前後の変化量

投与前

AST

投与後 mean±SE

(7)

このグラフは第2章第4節の図2.31標本t検定の模式図において、実測値の代わりに変化 量を用い、基準値を0にしたものと本質的には同じものである。

・図4.4で投与後の変化量平均値の95%信頼区間、つまりmean±2×SEの範囲に0が含まれなけ れば有意水準5%で有意である。

mean±SEではなく変化量平均値と95%信頼区間を描けば、検定結果をより正確に反映させる

ことができる。しかし有意水準が5%以外の時もあるため、普通はmean±SEを描く。

<統計学的結論>

<医学的結論>

・-10 という変化量は医学的に見て意義があるか?

・-10 という変化量は純粋に薬剤A の効果だけによるものか?

・この結果をそのまま慢性肝炎患者全体に当てはめて良いか?

これらの疑問点について十分に検討し、全ての疑問に対して肯定的なら、

薬剤A投与前後のAST変化量平均値は0ではない その変化量平均値は-10であり、幅を取れば-16-4の間である

慢性肝炎患者に薬剤Aを投与するとASTは低下する

すなわち薬剤Aには慢性肝炎患者の肝機能を改善する効果がある

(8)

4.2 1・2

標本の順序データ(順序尺度のデータ)

ウィルコクソンの順位和検定は2群の順位平均の差が0かどうかを検定する

(1) 対応のない2標本の順序データ

データが順序尺度で対応のない2標本つまり2群の時は、ウィルコクソンの順位和検定(ウィ ルコクソンの2標本検定、Wilcoxon's rank sum test)またはマン・ホイットニィのU検定(Mann- Whitney's U-test)と呼ばれる検定と、それに伴う推定を適用する。この検定は2標本t検定と同じ 原理で、2群の順位平均値の差が0かどうかを検定する。

<問題>

例として、対応のない2標本の計量データで用いた表4.1ASTのデータを10刻みでグレー ド付けして、重症度に相当する順序データにして考える。

<仮説設定>

グレードの順位平均値を評価指標にし、正常人の順位平均値を基準値にする。検出差としては 2群のグレード分布が何%ずれているか、つまり2群の順位平均値の差の割合を設定する。その値

50%を足すと、2群のデータの大小を総当りで比べた時の一方の群の勝率になる。勝率の方が

感覚的にわかりやすいので、ここでは勝率を用いる。

<標本集団のデータ>

有意水準5%、信頼係数95%、検出力80%として試験の必要例数を求めると262例になる。し かし説明のためにこの必要例数は無視し、表4.110刻みでグレード化したデータを用いる。

正常人と慢性肝炎患者のASTグレードに違いがあるか?

帰無仮説 H02群のASTグレードの勝率は等しい(順位平均値は等しい)

対立仮説 H1:慢性肝炎群のASTグレードの勝率は40%または60%である

(9)

<表4.3 正常群と慢性肝炎群のASTグレード>

No. 1 2 3 4 5 6 7 8 9 10

正常群 4 4 3 3 5 4 3 3 4 2

慢性肝炎群 5 6 4 4 6 4 3 5 4 4

<検定結果>

=== 順序データの群間比較 === [DANS V7.1]

データ名:表 4.3

群項目(縦) :群 (0:正常 1:慢性肝炎) 順序項目(横):AST グレード

縦\横 2( % ) 3( % ) 4( % ) 5( % ) 6( % ) 合計( % ) 順位平均 --- 0 1( 10.0) 4( 40.0) 4( 40.0) 1( 10.0) 0( 0.0) 10(100.0) 7.8 1 0( 0.0) 1( 10.0) 5( 50.0) 2( 20.0) 2( 20.0) 10(100.0) 13.2 --- 合計 1( 5.0) 5( 25.0) 9( 45.0) 3( 15.0) 2( 10.0) 20(100.0) 10.5

・Wilcoxon の順位和検定(2 標本検定、Mann-Whitney の U 検定) 正規分布 z=-2.16228 有意確率 p=0.0305968*

・順位平均の差の 95%信頼区間(confidence interval) 1:13.2-0:7.8=5.4±4.89475(0.505251-10.2947)

・1 の U 値の 95%信頼区間(confidence interval)

U(%)=77(77%)±24.4737(52.5263(52.5263%)-101.474(101.474%))

・ウィルコクソンの順位和検定の手順

2 4 6 8 1 0 1 2 1 4 1 6 1 8 2 0

− 6

− 4

− 2 0 2 4 6

4.5-2 勝率(U値の割合) 慢性肝炎群(77%)

0 50 100(%)

AST 正常群

(23%)

図 4.5-1 グレードの順位分布

慢性肝炎群 順位平均値 =13.2

順位平均値 =7.8正常群

(10)

例数で割って順位平均値を求める→2群の順位平均値の差とその標準誤差を求める→2標本t 検定と同じ原理で2群の順位平均値の差を検定する→検定結果が有意なら2群の順位平均値 が異なる。

この時、2群の順位平均値の差を合計例数で割って100をかけると、2群の順位分布が何%ず れているかを表す値になる。それに50%を足した値は2群のデータの大小を総当りで比較した時 の一方の群の勝率になり、それがU値の%の値になる。U値は勝ち数に相当する。

・順位平均値の分布は離散分布になるが、中心極限定理により漸近的に正規分布に近似する。そ してその標準誤差は例数だけで決まる。

※図4.6では母集団の順序分布を一様分布(全てのデータが同じ数だけ存在する)で描いてある。実際の データがこのような分布になることは稀だが、データが同位(同じ順位のデータ)のない理想的な順序 データの場合はこのような分布になる。このような一様分布でも、順位平均値は正規分布に近似すると ころが中心極限定理のミソ。

<統計学的結論>

<医学的結論>

・2 群のグレードデータの大小を比較した時、慢性肝炎群の勝率が77%であるというこ 2群のASTグレードの勝率は異なる(順位平均値は異なる)

慢性肝炎群の勝率は77%であり、幅を取れば53~100%の間である

0

図 4.6 順序データの分布と順位平均値の分布

n例を2群無作為抽出して 1の順位平均値を

無限回求める

母集団の順序データの分布 1の順位平均値の分布 近似正規分布

(11)

とは医学的に見て意義があるか?

・勝率 50%からの増加分 27%は慢性肝炎によるものか?

・この結果をそのまま慢性肝炎患者全体と正常人全体に当てはめて良いか?

これらの疑問点について十分に検討し、全ての疑問に対して肯定的なら、

慢性肝炎患者のASTグレードは正常人に比べて高い

(12)

ウィルコクソンの符号付き順位検定は順序データの変化が0かどうかを検定する

(2) 1標本の順序データ

データが順序尺度で標本の数が1つの時に、順位平均値について色々と検討するにはウィル コクソンの1標本検定(ウィルコクソンの符号付き順位検定、Wilcoxon's signed rank test)を適 用する。しかし1標本の順序データを検定することは実際の研究現場ではほとんどなく、次の対応 のある2標本の順序データにウィルコクソンの符号付き順位検定を適用することが多い。

(3) 対応のある2標本の順序データ

データが順序尺度で対応のある2標本の時、順位の差を求めて1標本にして取り扱う。順序尺 度のデータは四則演算ができないため、本来は順位の差を求めることはできない。しかし実際の 研究現場では、近似的に順位の差を求めることができると考えてウィルコクソンの符号付き順位検 定を適用することが多い。

<問題>

例として、対応のある2標本の計量データで用いた表4.2ASTのデータを10刻みでグレード 付けして、重症度に相当する順序データにして考える。

<仮説設定>

グレード変化量の符号付き順位分布の中心つまり符号付き順位平均値を薬効の評価指標にし、

その基準値を0とする。検出差としては、符号付き順位平均値が全例数に対して何%ずれている かを設定する。

<標本集団のデータ>

慢性肝炎患者に薬剤Aを投与するとASTのグレードが低下するか?

帰無仮説 H0ASTグレード変化量の符号付き順位平均値は0である

対立仮説 H1ASTグレード変化量の符号付き順位平均値は-10%または+10%ずれている

(13)

有意水準5%、信頼係数95%、検出力 80%として試験の必要例数を求めると 262 例になる。し かし説明のためにこの必要例数は無視し、表 4.2 を 10刻みでグレード化したデータを用いる。

<表4.4 慢性肝炎患者の薬剤投与前後のASTグレード>

No. 1 2 3 4 5 6 7 8 9 10

投与前 5 6 4 4 6 4 3 5 4 4

投与後 4 4 3 3 5 4 3 3 4 2

変化量 -1 -2 -1 -1 -1 0 0 -2 0 -2

<検定結果>

=== 順序データの群内比較 === [DANS V7.1]

データ名:表4.4

集計項目 :ASTグレード 投与後 -比較項目:ASTグレード 投与前

差の絶対値  1( % ) 2( % ) 合計( % ) --- 差:正の群  0( 0.0) 0( 0.0) 0(100.0) 差:負の群  4( 57.1) 3( 42.9) 7(100.0) --- 合計 4( 57.1) 3( 42.9) 7(100.0)

・Wilcoxonの符号付き順位検定(Wilcoxonの1標本検定) 正規分布z=-2.42791 有意確率p=0.0151862*

・符号付き順位和の 95%信頼区間(confidence interval) 0-28=-28±22.6034(-50.6034--5.39659)

符号付き順位平均=-4±3.22906(-7.22906--0.770942)

合計に対する割合(%)=-57.1429±46.1294(-103.272--11.0135)

1 2 3 4 5 6 7 8

0 1 2 3 4 5 6

1 2 3 4 5 6 7 8

0 1 2 3 4 5 6

図 4.7 AST グレードの度数分布

投与前 投与後

(14)

順序データの差を正群と負群に分ける(差が0のものは除く)→差の絶対値に順位を付ける→

正群と負群別に順位を合計して順位和を求め、正群の順位和から負群の順位和を引いて符号付 き順位和を求める→符号付き順位和を例数で割って符号付き順位平均値にし、その標準誤差を 求める→1標本t検定と同じ原理で符号付き順位平均値が0かどうかを検定する→検定結果が 有意なら符号付き順位分布が正または負の方向にずれている→順序データは前後で変化してい る。

符号付き順位平均値は、符号付き順位分布が原点から何例分ずれているかを表す値になる。

それをさらに例数で割って100をかけると、符号付き順位分布が原点から何%ずれているかを表す 値になる。

− 7 − 6 − 5 − 4 − 3 − 2 − 1 0 1

1 2 3 4 5

図 4.8 AST グレード変化量の符号付き順位分布 符号付き順位

符号付き順位平均値

-4

0

図 4.9 符号付き順位分布と符号付き順位平均値の分布

n例を無作為抽出して 符号付き順位平均値を

無限回求める

母集団の符号付き順序分布 標本集団の符号付き順位平均値の分布 近似正規分布

0

(15)

・符号付き順位和または順位平均値の分布は離散分布になるが、中心極限定理により漸近的に 正規分布に近似する。そしてその標準誤差は例数だけで決まる。

<統計学的結論>

<医学的結論>

・薬剤投与前後の AST グレード変化量の符号付き順位平均値が負の方向に57%(4 例分)ずれていることは医学的に見て意義があるか?

・その変化は純粋に薬剤A の効果だけによるものか?

・この結果をそのまま慢性肝炎患者全体に当てはめて良いか?

これらの疑問点について十分に検討し、全ての疑問に対して肯定的なら、

薬剤投与前後のASTグレード変化量の符号付き順位平均は0ではない それは負の方向に4例分(57%)ずれていて

幅を取れば4例分(57%)0.8例分(11%)の間である

慢性肝炎患者に薬剤Aを投与するとASTグレードは低下する すなわち薬剤Aには慢性肝炎患者の肝機能を改善する効果がある

(16)

4.3 1・2

標本の分類データ(名義尺度のデータ)

フィッシャーの正確検定 は2群の出現率の差が0かどうかを検定する

(1) 対応のない2標本の分類データ

データが名義尺度で対応のない2標本つまり2群の時、フィッシャー(Fisher)の正確検定

(フィッシャーの直接確率計算法による検定)またはχ2検定と呼ばれる検定を適用する。

この検定は2標本t検定と同じ原理で2群の出現率の差が0かどうかを検定する。

<問題>

例として対応のない2標本の計量データで用いた表4.1ASTのデータを、40未満を「正常」、

40以上を「異常」と分類し、2分類データにして考える。

<仮説設定>

AST異常の出現率を評価指標にし、正常人の出現率を基準値にする。検出差を±10%つまり 10%未満の出現率の違いは医学的に誤差範囲とすると、

<標本集団のデータ>

有意水準5%、信頼係数95%、検出力 80%として試験の必要例数を求めると 1 群 408 例、2 群合計 816例になる。しかし説明のためにこの必要例数は無視し、表 4.1 の AST 実測値を 40 未満を「正常」、40 以上を「異常」と分類したデータを用いる。

<表4.5 正常群と慢性肝炎群のAST判定>

No. 1 2 3 4 5 6 7 8 9 10

正常群 異常 異常 正常 正常 異常 異常 正常 正常 異常 正常 慢性肝炎群 異常 異常 異常 異常 異常 異常 正常 異常 異常 異常

正常人と慢性肝炎患者のAST異常の出現率に差があるか?

帰無仮説 H02群のAST異常の出現率は等しい

対立仮説 H12群のAST異常の出現率の差は10%である

(17)

<検定結果>

=== 分類データの独立性検定 === [DANS V7.1]

データ名:表4.5 群項目(縦) :群 分類項目(横):AST判定

縦\横 正常( % ) 異常( % ) 合計( % ) --- 正常群 5( 50.0) 5( 50.0) 10(100.0) 慢性肝炎群 1( 10.0) 9( 90.0) 10(100.0) --- 合計 6( 30.0) 14( 70.0) 20(100.0)

・χ^2検定(修正有,2×2) χ^2=2.14286 自由度=1 有意確率p=0.143235

・Fisherの正確検定 有意確率p=0.140867

出現率の差の95%信頼区間=0.4±0.461399(-0.0613995-0.861399)

・慢性肝炎群の異常の出現率の分布は超幾何分布という離散分布になる。この分布は中心極限 定理により漸近的に正規分布に近似し、その標準誤差は例数だけで決まる。

・超幾何分布は単純なので、比較的簡単に計算できる。そこで近似正規分布を利用せずに、超幾 何分布をそのまま利用して検定を行うことができる。その手法をフィッシャーの正確検定または フィッシャーの直接確率計算法による検定という。

この手法では二項検定のように、t値のような検定統計量を用いず、有意確率を直接計算する

0 2 0 4 0 6 0 8 0 1 0 0

図 4.10 AST 判定のバーチャート 正常

10 例 異常

90%

10 例 慢性肝炎群

正常群 10%

50% 50%

(18)

ことができる。

・近似正規分布を利用した検定法をχ2検定という。

この手法は正規分布に対する近似を良くするために、イェーツの修正と呼ばれる修正を行うこ とがある。ただし、修正を行なってもフィッシャーの正確検定の方が正確。

・出現率の推定は近似正規分布を利用して計算する。

そのため二項検定と同様に、95%信頼区間の結果とフィッシャーの正確検定の結果との間に矛 盾が生じることがある。

※正規分布を平方するとχ2分布という分布になる。この手法では出現率の差を平方し、それが近似的にχ2 分布することを利用して検定しているためχ2検定と呼ばれる。

<統計学的結論>

この場合は検定結果は有意水準5%で有意ではなく、しかも95%信頼区間が許容範囲 0±10%よりも大きい。そして検出力分析を行うと検出差が57%になる。そのため統計学的結論は 保留する。

2群のAST異常の出現率は異なっている可能性が高い その差は40%であり、幅を取れば-6%86%の間である

しかし信頼性が低いので結論は保留する

0

図 4.11 2 分類データの分布と出現率の分布

n例を2群無作為抽出して 1の分類1の出現率を

無限回求める

母集団の2分類データの分布 出現率の分布(超幾何分布) 近似正規分布

(19)

<医学的結論>

慢性肝炎患者のASTは正常人に比べて高い確率で異常値になる可能性が高い しかし信頼性が低いので明確な結論は保留する

(20)

二項検定は分類データの出現率(割合)が基準値と等しいかどうかを検定する

(2) 1標本の分類データ

データが分類尺度で標本の数が1つの時に、出現率つまり割合について色々と検討するには 二項検定(binomial test)を適用する。

しかし1標本の分類データを検定することは実際の研究現場ではほとんどなく、次の対応のあ 2標本の分類データに二項検定を適用することが多い。

(3) 対応のある2標本の分類データ

データが分類尺度で対応のある2標本というのは、例えば薬剤投与前後で尿蛋白の定性試験 を実施し、結果を正常・異常で観測したデータが相当する。その結果は次のような2×2分割表にま とめることができる。

<表4.6 薬剤投与前後の尿蛋白定性試験の変化>

投与前\投与後 正常 異常

正常 9 2 11

異常 8 1 9

17 3 20

上表で、正常→異常に変化した2例を「悪化」、異常→正常に変化した8例を「改善」と評価す ることが可能。もし薬剤に効果または副作用がなければ、悪化と改善の出現率は同じになると考え られる。

また対応のある2標本の計量データで用いた表4.2ASTのデータで、投与前後で値が低下 したものと上昇したものに分類すると次のようになる。

<表4.7 慢性肝炎患者の薬剤投与前後のASTの変化>

投与前後の変化 低下 上昇

例数 8 2 10

もし薬剤に効果がなければ、低下例と上昇例の出現率はどちらも50%になると考えられる。

(21)

二項検定は、ある分類の出現率が基準値と等しいかどうかを1標本t検定と同じ原理で検定 する。前述の2つの例のように、実際の研究現場では基準値として50%が多用されるため、このよ うな二項検定を特に符号検定と呼ぶ。

<問題>

前述の慢性肝炎患者のASTの変化を例にする。

<仮説設定>

低下例の出現率を評価指標にし、その基準値を50%にする。検出差を±10%つまり10%未満の 出現率の違いは医学的に誤差範囲とすると、

<標本集団のデータ>

有意水準5%、信頼係数95%、検出力 80%として試験の必要例数を求めると 194 例になる。し かし説明のためにこの必要例数は無視し、表 4.2 の変化量を低下と上昇に分類したデータを用い る。

<表4.8 慢性肝炎患者の薬剤投与前後のAST>

No. 1 2 3 4 5 6 7 8 9 10

投与前 56 60 49 47 65 46 35 55 41 46 投与後 47 45 37 32 55 44 38 31 42 29 変化 低下 低下 低下 低下 低下 低下 上昇 低下 上昇 低下

<推定結果と検定結果>

=== 分類データの出現率比較 === [DANS V7.1]

データ名:表4.8

慢性肝炎患者に薬剤Aを投与するとASTが低下するか?

帰無仮説 H0AST低下例の出現率は50%である

対立仮説 H1AST低下例の出現率は40%または60%である

(22)

ASTの変化 例数 (出現率 95%信頼区間 %) --- 低下 8 ( 80.000 44.390 -- 97.479) 上昇 2 ( 20.000 2.521 -- 55.610) --- 合計 10 (100.000)

・二項検定 有意確率p=0.109375 理論確率:低下=0.5 上昇=0.5

・出現率の分布は二項分布という離散分布になる。この分布は中心極限定理により漸近的に正規 分布に近似し、その標準誤差は理論確率(基準の出現率)と例数だけで決まる。

・二項分布は単純なので、比較的簡単に計算できる。そこで二項検定は近似正規分布を利用せず、

二項分布をそのまま利用して検定を行う。

0

図 4.13 2 分類データの分布と出現率の分布

n例を無作為抽出して 分類1の出現率を

無限回求める

母集団の2分類データの分布 出現率の分布(二項分布) 近似正規分布

0 2 0 4 0 6 0 8 0 1 0 0

図 4.12 AST 変化のバーチャート 低下

10 例 上昇

20%

80%

(23)

そのため上記の検定結果のように、t値のような検定統計量を用いず、有意確率を直接計算す ることができる。

・出現率の信頼区間はF分布または正規分布を利用して近似的に計算する。

そのため95%信頼区間に基準値50%が含まれていないにもかかわらず、検定結果は有意水準

5%で有意にならないという矛盾が生じることがある。これは信頼区間を近似計算していることが原 因で、検定結果の方が正確。

・分類数が3つ以上の時は、多項分布を利用すれば原理的には検定を行うことができる。

しかし実際の研究現場でそのようなデータを取り扱うことはほとんどないので、多項検定が実際 に使われることはない。

<統計学的結論>

この場合は検定結果は有意水準5%で有意ではなく、しかも95%信頼区間が許容範囲

50±10%よりも大きい。そして検出力分析を行うと検出差が89%になる。そのため統計学的結論は

保留する。

<医学的結論>

薬剤A投与前後のAST低下例の出現率は50%ではない可能性が高い それは80%であり、幅を取れば44%97%の間である

しかし信頼性が低いので結論は保留する

慢性肝炎患者に薬剤Aを投与するとASTは低下する可能性が高い しかし信頼性が低いので明確な結論は保留する

(24)

4.4 対応のない多標本のデータ

一元配置分散分析は多群の平均値が全て等しいかどうかを検定する

(1) 対応のない多標本の計量データ 1) 一元配置分散分析

データが計量尺度で対応のない多標本つまり多群の時に、多群の平均値が全て等しいかどう かを検討するには一元配置分散分析(one-way layout ANOVA:analysis of variance、アノーバ) を適用する。

平均値のバラツキは全体の平均値に対する各群の平均値の標準偏差、またはそれを平方した 値である分散によって表すことができ、一元配置分散分析はそれが0かどうかを検定する。

平均値の標準偏差は全体の平均値と1つの群の平均値の平均的な距離だから、群が2つの 時は2つの群の平均値の差の半分になる。このため群数が2つの一元配置分散分析は、2標本t 検定(対応のないt検定)に相当する。

<問題>

<仮説設定>

収縮期血圧の平均値を評価指標にし、薬剤Aをプラセボ(薬理作用を持たない形だけの偽薬 )、

薬剤BCを血圧降下剤とする。

一元配置分散分析は検定統計量として分散を用いるため、具体的な検出差を設定するのが難 しい。そこで普通は具体的な対立仮説を設定しない有意性検定を行う。

薬剤ABCの降圧効果に違いがあるか?

帰無仮説 H03群の平均値は全て等しい

対立仮説 H13群の平均値はばらついている(どれか1つ以上は他と異なる)

(25)

<標本集団のデータ>

有意性検定のために試験の必要例数は求められない。高血圧患者15人を無作為に3群に分 け、それぞれの群に薬剤A、B、Cを投与して収縮期血圧を測定したところ次表のようになった。

<表4.9 3群の薬剤投与後の収縮期血圧>

群内No. A剤投与群 B剤投与群 C剤投与群

1 116 106 108

2 128 102 100

3 129 108 108

4 137 118 114

5 140 116 110

<検定結果>

=== 多群の平均値の比較 === [DANS V7.1]

データ名:表4.9

群項目(要因A):群 (1:A剤投与群 2:B剤投与群 3:C剤投与群) 集計項目 :収縮期血圧 (mmHg)

群 :群別基礎統計量

--- 1 :例数=5 平均値=130 標準偏差=9.35414 標準誤差=4.1833 2 :例数=5 平均値=110 標準偏差=6.78233 標準誤差=3.03315 3 :例数=5 平均値=108 標準偏差=5.09902 標準誤差=2.28035 --- 全体 :例数=15 平均値=116 標準偏差=12.2998 標準誤差=3.1758

・一元配置分散分析(one-way layout analysis of variance) 分散分析表(ANOVA table)

要因 平方和 自由度 平均平方和 F値 有意確率p値 --- 群(要因A) 1480 2 740 13.9185 0.000747082***

残差 638 12 53.1667

--- 全体 2118 14

・分散分析表…データのバラツキを要因ごとに分けて整理した表。

・平方和…偏差を平方して合計した値。偏差とは平均値とデータの差、または全体の平均値と各 群の平均値の差のこと。

・自由度…バラツキの原因になる独立変数の数。

(26)

・平均平方和…平方和を自由度で割った値=分散。

・F値…群の分散(群間分散)と残差の分散(群内分散)の比。

・群(要因A)…群によるデータのバラツキ。一元配置分散分析では群を要因Aと呼ぶ。

全体の平均値に対する各群の平均値の差が偏差であり、例えば図4.5の全体の平均値 mT=116A群の平均値m1=130の差14がこれに相当する。

この偏差を平方して合計した値が平方和1480で、それを自由度2で割った値が平均平方和 (群間分散)740、これを全体の例数で割って平方根にした値√(740/15)=7.0が平均値の標準偏差 に相当する。

自由度が2になるのは、3群の平均値を平均すると全体の平均値になるため、平均値の値を自 由に変化させられる群の数は2つになるから。標準偏差の自由度(n-1)と同じ原理。

・残差…個々のデータによる群内バラツキ。

群ごとの平均値に対する個々のデータの差が偏差であり、例えば図4.5m1=130A群の5 番目のデータy15=140の差10がこれに相当する。

この偏差を平方して合計した値が平方和638で、それを自由度12で割った値が平均平方和 (群内分散)53.1667、この平方根√53.1667=7.3が群ごとの個々のデータの標準偏差に相当する。

一元配置分散分析では全体のバラツキから群のバラツキを差し引いた残りが誤差になるため、

残差と呼ばれる。これが検定の誤差になる。

・一元配置分散分析の回帰平面による表現…図2.22群の平均値を2次元の回帰直線で表 現したように、3群の平均値は図4.15のように3次元の回帰平面で表現することができる。

この場合、2つのダミー変数x1x2を用いて3群を次のように表す。

ダミー変数 A B C

x1 0 1 0

x2 0 0 1

回帰平面:y=130-20x1-22x2

A群:y=130-20×0-22×0=130 B群:y=130-20×1-22×0=110 C群:y=130-20×0-22×1=108

(27)

<寄与率>

全体のバラツキのうち要因Aによって説明のつくバラツキの割合を「寄与率(関与率)」または

「決定係数(coefficient of determination)」といい、補助的な指標として利用する。寄与率は最小 値が0(0%)で最大値が1(100%)のため解釈が簡単。

R

寄 与 率 A2A2=要因Aの平方和

全体の平方和 =1480

2118=0.699(69.9%)

寄与率の平方根を「η」で表し、「相関比(correlation ratio)」と呼ぶ。名義尺度のデータと計量 尺度のデータの相関係数に相当する指標。

<統計学的結論>

<医学的結論>

・約 70%という寄与率は医学的に見て意義があるか?

・130、110、108 という3群の平均値のばらつきは医学的に見て意義があるか?

3群の平均値はばらついている

図 4.15 一元配置分散分析の概念図

B 群 A 群

C 群

0 1

1

x1

x2 回帰平面: y=130-20x1-22x2 y

8 0 1 0 0 1 2 0 1 4 0

図 4.14 一元配置分散分析の グラフ的解釈

B 群

収縮期血圧

A 群 C 群

y15=140 m1=130

mT=116 10

14

(28)

・この結果をそのまま高血圧患者全体に当てはめて良いか?

これらの疑問点について十分に検討し、全ての疑問に対して肯定的なら、

薬剤ABCの降圧効果は同一ではない すなわち薬剤BCには降圧効果がある

(29)

多重比較は複数の比較をしてどこかが有意になればそれを採用する”いいとこ取り”の方法

2) 多重比較

一元配置分散分析は、どの群の平均値とどの群の平均値が異なっているかを検定する手法で はない。そのような具体的な比較を行いたい時は多重比較(multiple comparison)を用いる。この 手法は2群の平均値の比較を複数回行ない、どこか1つでも有意になった比較があればそれを 統計学的結論として採用する”いいとこ取り”の方法である。

「有意水準5%で有意」とは「結論が間違っている危険性が5%ある」という意味→比較の回数 が増えるほどいいとこ取りの結論が間違っている危険性が増える→結論が間違っている危険性を

5%に抑えるために11回の比較の有意水準にハンディキャップを持たせる→多重比較。

<問題>

<仮説設定>

収縮期血圧の検出差を±10つまり10未満の収縮期血圧の差は医学的に誤差範囲とすると、

または

または

薬剤ABCの降圧効果に違いがあるか?

もしあるとすればそれはどの薬剤とどの薬剤の間か?

帰無仮説 H03群の平均値は全て等しい

対立仮説 H1A剤投与群とB剤投与群の平均値の差は10である

対立仮説 H1B剤投与群とC剤投与群の平均値の差は10である 対立仮説 H1A剤投与群とC剤投与群の平均値の差は10である

(30)

<標本集団のデータ>

有意水準5%、信頼係数95%、検出力80%として試験の必要例数を求めると各群15例、3群合 計で45例になる。しかし説明のためにこの必要例数は無視して、一元配置分散分析と同じ表4.9 のデータを用いる。

<推定結果と検定結果>

=== 多群の平均値の比較 === [DANS V7.1]

データ名:表4.9

群項目(要因A):群 (1:A剤投与群 2:B剤投与群 3:C剤投与群) 集計項目 :収縮期血圧 (mmHg)

群 :群別基礎統計量

--- 1 :例数=5 平均値=130 標準偏差=9.35414 標準誤差=4.1833 2 :例数=5 平均値=110 標準偏差=6.78233 標準誤差=3.03315 3 :例数=5 平均値=108 標準偏差=5.09902 標準誤差=2.28035 --- 全体 :例数=15 平均値=116 標準偏差=12.2998 標準誤差=3.1758

・群(要因A)のTukey型多重比較(Tukey type multiple comparison)

群 - 群 q値 群数 自由度 有意確率p値 --- 1 - 2 6.13332 3 12 0.00256936**

1 - 3 6.74665 3 12 0.00122382**

2 - 3 0.613332 3 12 0.902338 ---

・Tukey型95%同時信頼区間(simultaneous confidence interval)

群 - 群 平均値の差 区間幅 下限 上限 --- 1 - 2 20 12.3031 7.69693 32.3031 1 - 3 22 12.3031 9.69693 34.3031 2 - 3 2 12.3031 -10.3031 14.3031 ---

・2 群の平均値の比較方法は原理的には 2 標本t検定と同じ。

・2 群の平均値の比較を3 回行うため、そのままでは最終的な危険率が5%×3=15%になる。

そこで 11回の有意水準を5/3%にする→実際には 11回の有意確率 p値を3倍する。

それが上の結果中の有意確率 p値。

・多重比較の種類

ダネット型…特定の群を対照群として、他のすべての群をこの対照群と比較する手法

(31)

テューキー型…リーグ戦方式の比較、つまりあらゆる 2 群の比較をする手法 ボンフェローニー型…ダネット型またはテューキー型の近似手法

シェッフェ型…あらゆる 2 群の比較だけでなく、複数の群を合わせた時の平均値と、

他の複数の群を合わせた時の平均値を比較することもできる手法

・同時信頼区間…多重比較手法に対応する信頼区間。

3 種類の信頼区間が同時に成り立ち、全ての信頼区間に母平均が同時に入る確率が95%あ る。

<統計学的結論>

<医学的結論>

・A剤投与群とB 剤投与群の平均値の差 20 と、A剤投与群とC 剤投与群の平均値 の差 22 は医学的に見て意義があるか?

・これらの平均値の差は薬剤の違いによるものか?

・この結果をそのまま高血圧患者全体に当てはめて良いか?

これらの疑問点について十分に検討し、全ての疑問に対して肯定的なら、

A剤投与群とB剤投与群の平均値は異なっていて A剤投与群とC剤投与群の平均値も異なっているが B剤投与群とC剤投与群の平均値は異なっているとは言えない A剤投与群とB剤投与群の差は20であり、幅を取れば832の間である A剤投与群とC剤投与群の差は22であり、幅を取れば1034の間である

B剤投与群とC剤投与群の差は2であり、幅を取れば-1014の間である

薬剤Bと薬剤Cには降圧効果があり、その降圧効果はほぼ同じである

(32)

※多重比較の例え話…ワインとソムリエ

”いいとこ取り”または”悪いとこ取り”をして、どこか1個でも有意の結果があればそれを統計 学的結論として採用する時、多重比較が必要になる→キーワードは”いいとこ取りの結論”

※多重比較を適用してはいけない場合の例え話…名医とヤブ医者

医者の腕前を評価するには1回の診断に対する誤診率を指標にすべきであり、1日の診断に対 する誤診率、つまり1日に1人でも誤診をすればその日は「誤診をした日」と数える”悪いとこ取 り”をした誤診率を指標にしてはいけない。

例えばある疾患のリスクファクターとして多数の遺伝子を検討する時、「遺伝子の数が多いほど 危険率が増加するため、個々の遺伝子の検定に多重比較を用いる必要がある」と誤解されること がある。

個々の遺伝子のリスクファクターとしての”腕前”を独立に評価したいのなら、多重比較を行うべ きではない。そうではなく「ある疾患に遺伝子が関与しているか?」という問題を検討したいのなら、

多重比較が必要。

試験に複数の目的を持たせ、それらを総合して最終的な結論を検討する時は原則として多重 あるレストランのワイン貯蔵庫は管理が悪く、全体の5%のものが悪くなっていた。

そのためソムリエが1本のワインをお客に出した時、それが悪くなっている危険性が5%

あるため、ソムリエは20回に1回はお客に謝ることになる(危険率5%)

ところがお客がワインを3本注文した時、3本のうちの1本でも悪くなっていれば ソムリエはお客に謝らなければならないため(悪いとこ取り)

危険率が15%に増え、67回に1回は謝ることになる。

そのような場合にソムリエが謝る危険率を5%に抑えるためには、

貯蔵庫の管理状態を向上させて悪いワインの割合を5/3%にする必要がある。

あるところに誤診率5%の医者がいた。この医者が1日に1人の患者を診断すると、

20日に1回しか誤診をしないため、周囲から「名医」と評価される。

ところが同じ医者が1日に20人の患者を診断すると、1日に1回は誤診をすることになり、

周囲から「ヤブ医者」と評価される。

つまり患者が多くて繁盛するほど、ヤブ医者と評価されることになる。

(33)

比較が必要になる。

多重比較はややこしい手法なので、試験の目的を 1 つに絞り、多重比較を必要としない試験 にするのが賢明。

(34)

クリスカル・ウォーリスのH検定は多群の順位平均が全て等しいかどうかを検定する

(2) 対応のない多標本の順序データ

データが順序尺度で対応のない多標本つまり多群の時に、多群の順位平均値が全て等しいか どうか検討するにはクリスカル・ウォーリス(Kruskal-Wallis)のH検定を適用する。この手法は順 位平均を用いた一元配置分散分析に相当し、多重比較を行うことも可能。

<問題>

例として、(1)対応のない多標本の計量データで用いた収縮期血圧のデータを10刻みでグレー ド付けして、重症度に相当する順序データにして考える。

<仮説設定>

上記の問題を検討するには多重比較が適している。しかし説明のためにクリスカル・ウォーリス H検定と多重比較の両方を適用する。

多重比較の場合の対立仮説

または

または

薬剤ABCの降圧効果に違いがあるか?

もしあるとすればそれはどの薬剤か?

帰無仮説 H03群の順位平均は全て等しい

対立仮説 H13群の順位平均はばらついている

対立仮説 H1A剤投与群とB剤投与群の順位平均は10%ずれている

対立仮説 H1A剤投与群とC剤投与群の順位平均は10%ずれている

対立仮説 H1B剤投与群とC剤投与群の順位平均は10%ずれている

参照

関連したドキュメント

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

工場設備の計測装置(燃料ガス発熱量計)と表示装置(新たに設置した燃料ガス 発熱量計)における燃料ガス発熱量を比較した結果を図 4-2-1-5 に示す。図

必要量を1日分とし、浸水想定区域の居住者全員を対象とした場合は、54 トンの運搬量 であるが、対象を避難者の 1/4 とした場合(3/4

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報

排出量取引セミナー に出展したことのある クレジットの販売・仲介を 行っている事業者の情報

試料の表面線量当量率が<20μ Sv/hであることを試料採取時に確 認しているため当該項目に適合して

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

 貿易統計は、我が国の輸出入貨物に関する貿易取引を正確に表すデータとして、品目別・地域(国)別に数量・金額等を集計して作成しています。こ