t sex N y y y Diff (1-2)

(1)

共変量の調整について

第９回

Armitage

勉強会

土居正明

1 はじめに

1.1 本稿の内容

本稿では「共変量の調整」のごく一部を扱います。交絡している共変量、交絡はしていないけれど影響のある共変量、の 2つに対して、モデルを用いた調整（共分散分析）をする場合としない場合（t検定）にどのような違いがあるのかを、具体例を通して見ていきます。なお、共変量としては、応答変数と直線関係があるもののみを扱います。最後に「背景因子の各項目に関して群間比較の検定を行って、有意差のついたもの（の中のめぼしいもの）を共変量として調整する」という、たまに行われている方法の是非についての個人的見解を述べます。

1.2 注意点

本稿のデータは全て架空データです。「実際のデータはこんな関係にはならない」ということをご存知の方は教えてください。また、本文中では図表を作成するSASプログラムは省略して、補足でProc GLMのオプションをいつくかご紹介します。また、検定は基本的に両側検定です。

2 交絡

2.1 例

1：調整すると影響がなくなる例（交絡その

1）

2.1.1 性別ごとの収縮期血圧プロットまず、具体例をみていきましょう。以下は、男女50人ずつの収縮期血圧を性別ごとにプロットしたものです。図1 性別ごとの収縮期血圧のプロット

(2)

このプロットから「性別によって収縮期血圧が異なる」と言えるでしょうか？参考のために、このデータに対してt検定で性別の差を検討した結果も載せておきます。統計量平均の平均の変数 sex N 信頼限界の平均信頼限界の標準偏差標準誤差最小値最大値下限上限 y 女性 50 116.45 119.6 122.75 11.071 1.5657 93.906 154.32 y 男性 50 127.27 130.7 134.13 12.072 1.7073 102.68 163.37 y Diff (1-2) -15.7 -11.1 -6.504 11.582 2.3165 t検定変数手法分散自由度 t値 Pr>|t| y Pooled Equal 98 -4.79 <.0001 標本平均は男性130.7に対して女性119.6であり、11.1違います。また、t検定のp値は0.0001より小さく、有意水準 0.05で十分に有意差があります。これより、男性の方が血圧が高いのではないか？という気がしてきましたでしょうか。 2.1.2 体重のプロットさて、ここでふと「血圧は体重に影響を受けるはずだ」と思ったとします。そして、さらに「男性の方が体重が重いのでは？」と思ったとしましょう。そこで、次に性別ごとに体重のデータをプロットしてみることにします。図2 性別ごとの体重のプロット男女でだいぶ違いがあるようですね。ついでにt検定もしてみましょう。

(3)

統計量平均の平均の変数 sex N 信頼限界の平均信頼限界の標準偏差標準誤差最小値最大値下限上限 x 女性 50 48.883 50.214 51.546 4.6862 0.6627 41.734 66.356 x 男性 50 53.785 55.262 56.74 5.1979 0.7351 44.028 65.512 x Diff (1-2) -7.012 -5.048 -3.084 4.9486 0.9897 t検定変数手法分散自由度 t値 Pr>|t| x Pooled Equal 98 -5.10 <.0001 標本平均は男性の方が5kgくらい重く、p値は0.0001より小さいですので、有意水準0.05で考えても有意です。このように、男女の間で体重の分布が異なっているようです*1_{。そして、この結果から「男性の方が収縮期血圧が高いのは、単に} 男性の体重が重いことの影響で、性別はそれほど重要ではないのでは？」という疑問が出てきたとしましょう。 2.1.3 体重で調整したプロット上の疑問を受けて、縦軸は収縮期血圧のままで、横軸に体重をとってプロットしてみることにします。図3 体重で調整した収縮期血圧のプロットこの図から、性別に関わらず収縮期血圧と体重の関係は同じ直線で表されるように見えます。つまり、「収縮期血圧にとって重要なのは体重であり、性別は本質的要因ではなさそう」という気がしてきます。では続いて、体重を共変量として調整した共分散分析を行ってみましょう。結果は以下のようになります*2_。 *1_{男女の間での体重の分布が異なるかどうかについて今回は検定をしていますが、有意差があることと男女間で体重の分布が（医学的に意味があるく} らい）異なることは必ずしも一致しません。有意差がある場合は「同じではない」とは言えますが、「どのくらい違うか」については推定の結果を見てみないと分かりませんし、また検定の一般論から、有意差がないからといって「同じ」とも言えません。ですが、有意差は「重要な情報の１つ」にはなりますので、推定の結果などから総合的な判断をするための道具としていただくのがよいかと思います。 *2_{ここで重要な注意点ですが、共変量が両群で「ずれすぎている」ときに共分散分析は妥当ではないといわれています。この点は、補足でさらにくわ} しく述べます。

(4)

変動因自由度平方和平均平方 F値 Pr>F Model 2 12613.94771 6306.97385 169.29 <.0001 Error 97 3613.73757 37.25503 Corrected Total 99 16227.68528 変動因自由度 Type III平方和平均平方 F値 Pr>F sex 1 21.372367 21.372367 0.57 0.4506 x 1 9533.205941 9533.205941 255.89 <.0001 性別「sex」のp値は0.4506となり、体重で調整した結果、有意差がなくなってしまいました。一方、体重「x」の方には有意差があります。性別に「有意差がない」ことで「性別の影響がない」という言い方をするのは言いすぎですが、それでも図3と一緒に見てみますと、「性別よりも体重の方が重要な因子である」ということは明らかでしょう。

さらに、推定の結果も見てみましょう。model分に”/ solution clparm”を加えると、以下の出力が得られます*3_。

パラメータ推定値標準誤差 t値 Pr>|t| 95%信頼限界 Intercept 20.55955993 B 6.93919926 2.96 0.0038 6.78717027 34.33194959 sex女性 -1.04010430 B 1.37322916 -0.76 0.4506 -3.76558405 1.68537544 sex男性 0.00000000 B . . . . . x 1.99305978 0.12459289 16.00 <.0001 1.74577737 2.24034219 Note：X’Xは特異行列です。正規方程式には、一般化逆行列が使用されています。文字’B’が付けれられた推定値は、一意的な推定値ではありません*4_。このとき、性別のところの値は「体重xで調整した性別の影響」です。つまり、今の場合体重が同じ場合の性別の影響ということになります。いま、この「体重で調整したあとの性別の影響」は男女間で1.04しか異なりません。血圧で1.04の違いというのは誤差だと考えるのが妥当だと思われます。したがって、推定の結果まで考慮しても「体重を考慮するなら、性別は重要な因子ではなさそう」という風に考えられるでしょう*5_{。なお、今回のデータは架空データですので、医学的結論を} 100％は信頼しないでください。 *3_{”solution”がパラメータ推定値などを、”clparm”がそれに加えて 95 ％信頼区間を出力します。共分散分析のプログラムの全文は補足に示しました。} *4_{この Note を大まかにご説明します。今回はたとえば男女の影響を推定する際「男性＝０」という制約条件を入れて考えています。ですが、別の制} 約条件、たとえば「男性＋女性＝ 0」を入れて推定することもでき、その場合は推定値が別の値になります。このように’B’ がついている推定値は、制約条件の入れ方によって値が変わるのです。 *5_{少し回りくどい言い方をしていますが、性別と体重の間には常にそこそこ強い相関があると思われますので、このデータをもとに「男性に高血圧対} 策が必要」という観点での医療政策を考えるのは「間違い」とは言えないと思います。男性を選んだ結果、重要な要因である「体重」の重い人が結果的にそこそこ多く選ばれることになるからです。ですが、そうすると大雑把に考えて「体重の軽い男性」には無駄ですし、「体重の重い女性」は恩恵にあずかることができません。ですので、「性別ではなく体重が重い人に高血圧対策が必要」という政策の方が「より正しい」政策だと思われます。個人的見解としては、このように「正解は何か（○か×か）」ではなくて、「より妥当なのは何か (better なのはどちらか)」を探るのが統計学の基本的な姿勢だと思います。「どのモデルを用いるべきか」などの問題についても同様で、「正しいモデル」と「間違ったモデル」があるのではなく、「より妥当なモデル」と「他と比較して妥当でないモデル」がある、という風に考えるのがよいのではないかと思います。つまり、「あるモデルを用いるのが本当はよいけれど、当てはめが難しいなどの理由で仕方なく別のモデルを用いる」などの状況で「仕方なく」別のモデルを用いた場合、その結果を「間違い」と判断するのではなくて、「結果に十全の信頼は置かないけれど、それなりに意味のある解析」と考えるのがよいのではないか、ということです。ある意味で大変当たり前のことですが、このようなことを統計を担当されない方に対して明確に言語化して説明できるようになっておくことが、統計家にとって大変重要だと考えていますので、念のため書いておきます。具体例を挙げますと、たとえば薬物動態の解析で、「主要な解析ではモデルによらない解析が普通なのに、PPK（母集団薬物動態解析）ではモデルを使うのが普通ですけど、そんなことしていいんですか？」という質問をされたときに、きちんとお返事ができるようになっておきましょう、ということです。

(5)

2.1.4 t検定と共分散分析の比較上で見ましたt検定と共分散分析の結果を表にしてまとめておきましょう。手法男女の差（絶対値）標本標準偏差有意差 t検定 11.1 11.6 あり共分散分析 1.0 6.1 なしこのように、男女の差がt検定の場合では11.1もあったのですが、実はこのうちの多くは体重の影響でした。体重を調整してやった結果、男女差は1.0程度の違いになってしまい、男女間の有意差が消えてしまったのでした。なお、ここで共分散分析のところの標本標準偏差*6_{は、共分散分析の分散分析表の}_”Error”_の_”_平均平方_”_{のところの値のルートをとってやった} ものになります。つまり、√37.3 = 6.1となります*7_。 2.1.5 まとめ例1をまとめます。今回は、「収縮期血圧を性別ごとにプロット」してみると、性別によって収縮期血圧の値が異なっているようでした。ですが、「体重が収縮期血圧と関係あるのでは？」という疑問が浮かびました。さらにこのとき、体重の性別による分布が異なっているようでした。そこで「収縮期血圧に影響があるのは性別よりもむしろ体重では？」と思い、体重を横軸にとって男女別にプロットしてみると、男女ともにほぼ同じ直線上にありました。そこで、「体重の影響を調整した、収縮期血圧の性別間の差」を共分散分析で見ていきますと、性別間の有意差はなくなってしまいました。このように、性別の差だと思われていたものの、大部分は体重の影響だと解釈できました。雑な言い方をしますと、このように収縮期血圧と性別の関係を考えているときに、両群でアンバランスな「体重」という因子が結果をゆがめてしまっているような場合、「収縮期血圧と性別の関係に体重が交絡している可能性がある」と言います。

2.2 例

2：調整すると影響がでてくる例（交絡

2）

では次の例です。今度は薬剤の効果を見る比較試験の場合を考えます。応答変数yの値は小さい方がよいとしましょう。例1と同じく各群50例ずつです。 2.2.1 応答変数の群ごとのプロットとt検定群ごとのプロットは以下の通りです。図4 投与群ごとの応答変数yのプロット *6_{「標本」という言葉は、データから得られた推定値であることを強調するためにつけています。} *7_{別の言い方では、”Error”の”平均平方”の部分の値が分散の推定値となる、ということです。}

(6)

どちらでもほぼ同じに見えますね。t検定で群間を比較してみますと、統計量平均の平均の変数 dose N 信頼限界の平均信頼限界の標準偏差標準誤差最小値最大値下限上限 y プラセボ群 50 22.957 25.474 27.991 8.8567 1.2525 8.7731 48.316 y 実薬群 50 23.48 26.181 28.881 9.5022 1.3438 0.147 47.26 y Diff (1-2) -4.352 -0.706 2.9391 9.1851 1.837 t検定変数手法分散自由度 t値 Pr>|t| y Pooled Equal 98 -0.38 0.7014 このように、群間の標本平均の差は0.7くらいで標準誤差は1.8くらいですので、両群には誤差程度の違いしかなさそうです*8_。_t_検定の_p_値は_0.7014_{ですので、有意水準}_0.05_{で有意差とは程遠い結果となっています。ここまでの情報だけで} は、両群に違いはなさそうに思えます。 2.2.2 共変量の分布さて、ここで例1と同様に「ある共変量xが応答変数yに影響を与えているかも」と思ったとします。そして、「共変量 xが両群で偏っていないか」が気になったとします。この共変量xを群ごとにプロットしてみましょう。図5 投与群ごとの共変量xのプロットだいぶ偏りがあります。先ほどとは逆に、「この共変量の偏りが、実際には存在する実薬の効果を覆い隠している」可能性が出てきます。先ほどと同様に、念のためxの群間差をみるt検定の結果も載せておきましょう。 *8_{標準偏差は「データのばらつき」で、標準誤差は「標本平均のばらつき（標本平均の標準偏差）}_{」です。今興味があるのは「標本平均の値にどの程度} 信頼がおけるか」ですので、標準偏差でなく標準誤差で「0.7 という値の信頼性」を考えます。また、有意差だけでなく推定値の値自身を考えることも重要です。

(7)

統計量平均の平均の変数 dose N 信頼限界の平均信頼限界の標準偏差標準誤差最小値最大値下限上限 x プラセボ群 50 4.4943 5.3135 6.1328 2.8828 0.4077 -0.383 11.332 x 実薬群 50 6.8843 7.7772 8.6702 3.1419 0.4443 -1.424 14.269 x Diff (1-2) -3.66 -2.464 -1.267 3.0151 0.603 t検定変数手法分散自由度 t値 Pr>|t| x Pooled Equal 98 -4.09 <.0001 となり、やはり共変量xは有意水準0.05で有意差がつくほど両群に偏りがあります。 2.2.3 共変量で調整した解析では、この共変量で調整してみましょう。縦軸に応答変数y、横軸に共変量xを持ってきてプロットします。図6 共変量xで調整した応答変数yのプロット明らかに、実薬群の方が下にあります。今、応答変数は「小さい方がよい」ですので、図4から共変量xの分布が両群で偏っていたために実際の薬効が過小評価されて、群間差がないように見えた、のではないかと思えてきます。実薬群の方が下にあることは大体分かりましたが、この差が「（誤差的なばらつきを考慮しても）十分な差」なのかどうかは図だけでは分かりません。共変量で調整した共分散分析も行っておきましょう。変動因自由度平方和平均平方 F値 Pr>F Model 2 7533.384392 3766.692196 489.13 <.0001 Error 97 746.977786 7.700802 Corrected Total 99 8280.362178

(8)

変動因自由度 Type III平方和平均平方 F値 Pr>F

dose 1 889.212565 889.212565 115.47 <.0001

x 1 7520.909275 7520.909275 976.64 <.0001

となります。薬剤群doseにも共変量xにも有意差がついています。これで「薬剤の影響」が「ある」ことは分かりまし

た。次に、その影響が「医学的に意味があるか」を判断するには推定値が必要になりますので、推定値を出力してみましょう。例1と同様にmodel文に”/solution clparm”を付け加えると、以下の出力が得られます。

パラメータ推定値標準誤差 t値 Pr>|t| 95%信頼限界 Intercept 3.584008459 B 0.82270482 4.36 <.0001 1.951167133 5.216849786 doseプラセボ群 6.451886876 B 0.60041554 10.75 <.0001 5.260228231 7.643545521 dose実薬群 0.000000000 B . . . . . x 2.905497330 0.09297224 31.25 <.0001 2.720973175 3.090021485 Note：X’Xは特異行列です。正規方程式には、一般化逆行列が使用されています。文字’B’が付けれられた推定値は、一意的な推定値ではありません。これより、各群の応答変数yを共変量xで表した関係式はプラセボ群：y = 3.58 + 6.45 + 2.91x (= 10.03 + 2.91x) 実薬群：y = 3.58 + 2.91x (= 3.58 + 2.91x) となります*9_{。この式は「共変量}_x_{が同じ人を考えた場合、実薬群はプラセボ群より}_6.45_{小さくなります」「共変量}_x_が₁ 増加すると、応答変数yは2.91増加します」ということを示しています。さて、この式は共変量xの入った式であまり見易くはありません。そこで、「xに全体の平均値x¯を代入してやって、両群を1つずつの数値で代表させよう*10_{」と考えます。これが、最小}₂_{乗平均です。いま、}_x_{の全体での平均を}_{Proc MEANS} で求めると分析変数: x共変量x N 平均標準偏差最小値最大値 100 6.5453926 3.2452716 -1.4236279 14.2692448 となりx = 6.55¯ ですので、各群の最小2乗平均はプラセボ群：y = 3.58 + 6.45 + 2.91ˆ · ¯x = 3.58 + 6.45 + 2.91 · 6.55≒29.1 実薬群：y = 3.58ˆ + 2.91· ¯x = 3.58 + 2.91· 6.55≒22.6

となります。Proc GLMでは、modelステートメントの下にlsmeansステートメント”lsmeans dose;”を付け加えることで、

以下の出力が得られます*11_。最小2乗平均 dose yの最小2乗平均プラセボ群 29.0535160 実薬群 22.6016291 *9_{各群別々の回帰直線でなく、平行な直線を当てはめて「2 群同時の回帰直線」です。} *10_{群ごとの平均ではないところに注意してください。} *11_{正確なプログラムは、補足を参照してください。}

(9)

有効数字の影響で、手計算は少し大雑把に表示していますが、大体一致しています。 2.2.4 t検定と共分散分析の比較 t検定と共分散分析の結果を表にしてまとめます。手法群間差（絶対値）標本標準偏差有意差 t検定 2.5 3.0 なし共分散分析 6.5 2.8 あり今度は例1とは逆で、t検定では群間差が2.5しかなかったですが、実はそれは共変量xが両群で偏っていたことが原因で、 xで調整してやると群間差が6.5まで大きくなり、有意差がつきました。また、共分散分析の標本標準偏差は、例1と同じく分散分析表の”Error”の”平均平方”のところのルートをとって、√7.7 = 2.8です。 2.2.5 まとめ例2をまとめます。今回は最初の例とは逆で「投与群ごとのyプロットでは両群に差はなさそう」だったのが、「共変量 xの群間の分布に差があり」結果として、「共変量xの影響を調整すると、投与群間の差が出てきた」ことになります。このような場合も、「応答変数yに対する投与群の影響に対して、共変量xが交絡していた可能性がある」と言います。

2.3 交絡とは

では、上の2つの例をもとに「交絡とは何か？」を考えていきましょう。ただ、厳密な定義は大変ですので、19BioSの資料「カテゴリカルデータ解析(2)」（寒水先生）から、交絡の必要条件を引用させていただくことにします*12_。 (1)応答変数に因果的に影響する：リスク要因 (2)比較する集団間で分布が異なる：不均衡（曝露要因と交絡要因に関連がある） (3)因果連鎖の中間にないです。(1), (2)については、例1・例2ともに明らかでしょう。(3)は少し意味が分かりづらいと思いますので、ご説明します。たとえば、そこそこ血圧の高い人たちを集めて、「食事療法を行う群」と「無処置群」に分けて「脳卒中の発生割合」を比較することを考えたとします。このとき、食事療法の影響としては、「まず血圧が下がって、その結果として脳卒中のリスクが減少する」という関係が考えられます。つまり、「食事療法」→「血圧低下」→「脳卒中リスク減少」という因果関係です。このとき「血圧低下」は「食事療法の結果」ですので、これは「治療効果の一部」です。交絡要因は「説明変数」つまり「原因」の側ですので、このような「結果の一部」を持ってくるのは妥当ではないと判断されて、「交絡要因ではない」とみなされるのです*13_。くり返しになりますが、ここで挙げたのは交絡の「定義」ではありません。ですが、直感的に理解していただくには、(1) ∼(3)の方がよいと思い、ここではそれに留めることにします。 *12_{原著をチェックしていないので孫引きで申し訳ないのですが、寒水先生のテキストにはこの条件の引用元は}

Greenland, S. and Robins, J. M. Identifiability, exchangeability, and epidemiological confounding. International Journal of Epidemiology 1986;15:413-419.

Rothman, K. J., Greenland, S. Modern Epidemiology, 2nd ed. Philadelphia: Lippincott and Raven, 1998.

と書いてあります。

(10)

3 例

3 ：交絡していないが影響のある共変量

さて、ランダム化比較試験ではランダム化を行いますので、理想的には両群の背景情報などはバランスがとれるはずです*14_{。そう考えると、上のように「背景の分布が異なっているとき」というのは、ランダム化比較試験ではそれほど多くな} いと思われます*15_。では次に、先ほどの交絡の条件(2)を除いた場合、つまり、共変量xが、リスク要因ではあるものの両群でバランスがとれている場合を考えてみましょう。まずは、応答変数yをプラセボ・実薬両群60例ずつプロットしてみます。今回はyは大きい方がよいとします。図7 応答変数yの群ごとのプロットでは、前と同じように応答変数yに対して群間比較のt検定を行います。統計量平均の平均の変数 dose N 信頼限界の平均信頼限界の標準偏差標準誤差最小値最大値下限上限 y プラセボ群 60 23.937 29.459 34.98 21.374 2.7594 -10.42 67.793 y 実薬群 60 30.817 36.236 41.654 20.975 2.7078 -5.529 74.552 y Diff (1-2) -14.43 -6.777 0.8789 21.176 3.8661 t検定変数手法分散自由度 t値 Pr>|t| y Pooled Equal 118 -1.75 0.0822 標本平均は両群で6.8くらい違います。実薬群のほうが大きいように見えるものの、p値は0.0822と、有意水準0.05では有意差はありません。では次に、この応答変数yに影響を与えることが分かっている共変量xを考えます。投与群ごとにプロットしてみると、 *14_{現実的には、必ずしもきちんとバランスがとれているとは限りません。} *15_{逆に、疫学ではランダム化が難しい場合も多いですので、交絡をどう調整するかが死活的に重要になってきます。}

(11)

図8 共変量xの群ごとのプロットとなり、1∼2点気になる点があるものの、大体両群でバランスがとれています。t検定してみると、統計量平均の平均の変数 dose N 信頼限界の平均信頼限界の標準偏差標準誤差最小値最大値下限上限 x プラセボ群 60 3.962 4.994 6.026 3.9949 0.5157 -3.765 14.197 x 実薬群 60 4.2014 5.1546 6.1078 3.6898 0.4763 -1.273 15.766 x Diff (1-2) -1.551 -0.161 1.2297 3.8454 0.7021 t検定変数手法分散自由度 t値 Pr>|t| x Pooled Equal 118 -0.23 0.8194 であり、標本平均の差は0.16しか違いませんし、検定の結果からみても差があるようには見えません。では、今度は縦軸をy、横軸に共変量xをとってプロットしてみます。すると、

(12)

図9 共変量xで調整した応答変数yのプロットとなります。かなり重なっていて分かりづらいですので、群ごとに別々に回帰直線を引きました。すると、「大体平行」「実薬群の方が上にあるっぽい」ことが分かります*16_{。ですが、この}₂_{本の直線の間に（データのばらつきを考慮したうえ} で）十分な差があるかどうかは、やはり直感的には分かりにくいですので、共分散分析で比較してみます*17_。変動因自由度平方和平均平方 F値 Pr>F Model 2 35916.53973 17958.26986 114.36 <.0001 Error 117 18373.02321 157.03439 Corrected Total 119 54289.56294 変動因自由度 Type III平方和平均平方 F値 Pr>F dose 1 1102.09815 1102.09815 7.02 0.0092 x 1 34538.70408 34538.70408 219.94 <.0001 となり、投与群の影響「dose」の部分のp値は0.0092となり、有意水準0.05で有意差がつきました。推定値はパラメータ推定値標準誤差 t値 Pr>|t| Intercept 13.30234710 B 2.23796616 5.94 <.0001 doseプラセボ群 -6.06241693 B 2.28840583 -2.65 0.0092 dose実薬群 0.00000000 B . . . x 4.44910146 0.29999683 14.83 <.0001 Note：X’Xは特異行列です。正規方程式には、一般化逆行列が使用されています。文字’B’が付けれられた推定値は、一意的な推定値ではありません。 *16_{今回は y は「大きい方がよい」ですので、これは「実薬群が効いている」ことを示しています。} *17_{共分散分析では両群に「傾きの同じ直線」を当てはめて、その差を検討します。今回は、別々に回帰直線を当てはめても、}_{「大体平行」ですので、大} 体上の図の 2 本の直線の差に一致します。

(13)

となり、両群に平行線を当てはめるとプラセボ群：y = 13.30− 6.06 + 4.45x (= 7.24 + 4.45x) 実薬群：y = 13.30 + 4.45x (= 13.30 + 4.45x) となります。共変量xが共通なときの群間差は6.06となります。共変量xの両群合わせた平均をProc MEANSで出力しますと分析変数: x共変量x N 平均標準偏差最小値最大値 120 5.0743056 3.8300419 -3.7646217 15.7657095 より、x = 5.07¯ となります*18_{。これより最小}₂_乗平均はプラセボ群：y = 13.30ˆ − 6.06 + 4.45¯x = 13.30 − 6.06 + 4.45 · 5.07≒29.80 実薬群：y = 13.30ˆ + 4.45¯x = 13.30 + 4.45· 5.07≒35.86 となります。SASでは、model文の下に”lsmeans dose; ”を付け加えることで、

最小2乗平均 dose yの最小2乗平均プラセボ群 29.8160306 実薬群 35.8784476 と出力されます。

3.1 t

検定と共分散分析の比較

t検定と共分散分析の結果をまとめます。手法群間差（絶対値）標本標準偏差有意差 t検定 6.8 21.2 なし共分散分析 6.1 12.5 あり今回は、t検定を共分散分析に変更した場合、群間差は逆に少し小さくなりました。ですが、標本標準偏差の減少が大きいため、共分散分析では有意差がついたわけです。また、先と同様標本標準偏差は分散分析表の”Error”の”平均平方”のルートで√157.0 = 12.5です。

3.2 まとめ

まとめます。今回は、共変量を考える前に応答変数yには有意差はありませんでした。そこでyに影響を与える共変量x を考え、その群間での分布を考えてみたところ、共変量の分布はほとんど同じでした。それでも、共変量xで調整した共分散分析を考えると、投与群間で差があるという結果になりました。

3.3 バイアスと精度の意味

上の例の結果を解釈するために、バイアスと精度という言葉を大雑把にご説明します。 *18_{くり返しになりますが、}_{「両群合わせた平均」です。}

(14)

「バイアスがない（=不偏である）」とは、要は「たくさん試験をくり返して毎回ある推定値を計算して、その『推定値の標本平均』を考えると、ほぼ真の値に一致する」ということです。逆に「バイアスがある」というのは、「たくさん試験をくり返して毎回推定値を計算して、その推定値の標本平均を考えても、真の値との間にずれがある」ということです*19_。例1・例2では、体重で調整しない場合、男女差（群間差）にバイアスが入っていたのです。一方、「精度」とはバラツキの大きさのことで、表現を変えると「結果の再現性」のことです。「精度がよい」つまり、バラツキが小さいということは、「次に同じ試験を繰り返しても大体同じような値が出やすい」ということです。したがって、再現性が高く、その値自身が信頼のおけるものとなります。例3では、群間差にバイアスはほとんどないようですが、図7のような単純な群ごとのプロットでは「バラツキ」と思われていたものの一部が、実は「共変量xの影響」と考えられ、「本来のバラツキはもっと小さかった」ということになったのです。それにより群間差の推定値はほぼ同じでも、バラツキの小ささからこの値の信頼性が高くなり、結果として有意差が得られたわけです*20_{。つまり「共変量}_x_{で調整したことで精度が上がって有意差が得られた」ということです。}

4 全体のまとめ：背景因子の検定について

では全体のまとめとして、「背景因子の各項目について群間比較の検定をして、有意差がついたものを共変量として扱う」というやり方の是非について検討しましょう。まず、結論から述べます。今までの内容を理解されている方には容易に同意していただける方が多いと思うのですが、このような調整方法は妥当ではないというのが私の意見です。というのは、今まで見てきました通り、「両群に不均衡があろうが無かろうが、応答変数に影響を与える因子は調整して解析する方がよい」からです。つまり、応答変数に影響のある共変量を用いないで解析した場合、・両群に不均衡がある場合（交絡している場合） → 群間差にバイアスが入る・両群に不均衡がない場合 → 精度が低下する（バラツキが不当に大きくなる）となります。つまり、与える影響は異なりますが、どちらも最善とは言えない解析を行っていることになります。逆に言いますと共変量を用いて解析した場合・交絡している場合 → 群間差のバイアスの減少・交絡していない場合 → 精度向上（バラツキの減少）が見込めるわけです。以上より、「ある共変量で調整を行うかどうか」の判断で重要なのは、「その共変量が応答変数に影響を与えているかどうか」であって、「両群に偏りがあるか（交絡であるか）」は本質ではない、ということになります*21_。最後に注意点をあげておきます。本稿では共変量に対して応答変数が直線的に変化する場合のみを扱いました。しかし共変量と応答変数の関係は必ずしもこのようになるとは限りません。このようにはならない場合は、「調整して解析する」といっても別の方法が必要になります。 *19_{つまり、体重が交絡している例 1 では、何回試験を繰り返しても男性の方が体重が重くなる場合がほとんどですので、t 検定では「男性の方が血圧} が高い」という偏った結論が何度も得られます。つまり、男女差にバイアスが入っていることになります。 *20_{つまり t 検定のときは「群間差（の推定値）は 6.8 ですけど、6.8 という値にはあまり自信がありません」という状況だったのが、x で調整してやっ} た結果、「群間差（の推定値）は 6.1 ですけど、この値はそこそこ自信ありますよ」という状況に変わったのです。帰無仮説は「（群間差）=0」ですので、今回は群間差の推定値が小さくなったことよりもバラツキが小さくなったことの影響の方が大きく、共分散分析で有意差がついたのです。 *21_{もちろん、}_{「交絡要因かどうか」について検討を加えることには価値がありますので、}_{「交絡かどうかがどうでもよい」わけではありません。が、そ} れは「その因子を共変量として解析に入れるか入れないか」を判断する際の本質ではない、ということです。

(15)

補足

1 ：

SAS

プログラミング

本稿で使用した解析を行うSASプログラムを書いておきます。データはyが応答変数、xが共変量、doseが投与群です。

共分散分析は

proc glm data=d1; class dose;

model y= dose x / solution clparm ; lsmeans dose;

run; quit;

で行います。model文中の”solution”でパラメータ推定値を算出し、パラメータの信頼区間を”clparm”で算出します。そし

て、それらを用いて投与群doseの最小2乗平均値を出すのが”lsmeans”ステートメントです。

補足

2 ：

t

検定と共分散分析の統計モデル

本文では触れませんでしたが、t検定を共分散分析に変更することで、統計モデルがどのように変わるのかを見ていきます。まず、t検定の場合、両群のデータの分布は全て独立で実薬群：y11, y12, · · · , y1n ∼ N(µ1, σ2) プラセボ群：y21, y22, · · · , y2n ∼ N(µ2, σ2) となります。これを書き直すと、両群合わせて yij = µi+ ²ij ( ²ij ∼ N(0, σ2) ) i = 1, 2, j = 1,· · · , n となります。このモデルの解釈としては、「実薬群のデータは基本的に全員同じ値」であり、実薬群の中のデータのばらつきは全て誤差、と考えるモデルです。一方、第i群のj人目の人の共変量xijを用いた共分散分析のモデルは yij = µi+ βxij+ ²ij ( ²ij ∼ N(0, σ2) ) i = 1, 2, j = 1,· · · , n (全て独立) です。このように、式の上ではxij の項を一つ追加することが、図で言うと横軸にxをとって直線を考えることに対応します。これは、yはxに関してほぼ直線関係にあり、「直線からずれた部分が誤差」と考えるモデルです。

(16)

補足

3 ：共変量の分布がずれ過ぎているときの共分散分析

例1・例2では、共変量xがずれているときに共分散分析で共変量の影響を調整しました。しかし、共変量の分布が極端にずれているときは、共分散分析を考えるのは妥当でない場合があると一般に言われています。たとえば、以下のような図のような場合です。直線は、群ごとに別々の回帰直線を引いたものです。図10 共変量の値が大幅にずれている場合一見したところ、「実薬群のほうが下にある」と判断したくなります。しかし、回帰分析を行う際に、共変量xの範囲の外まで直線を延ばすのは「外挿」と言われて、安易に行ってはならないと言われています*22_{。この場合、}₂_{本の直線で}_x_{の範囲が完全にずれているので、直線同士を比較することに対しては慎重} でなければなりません。比較しているのは両群の「外挿」の部分ですので、「その比較をそんなに簡単に信用していいの？」と言われます。 *22_{つまり、たとえばプラセボ群の y は x = 10 くらいで飽和してしまい、それ以上はいくら x が増えてもそれ以上 y は増えない、という可能性が否定} できません。また、最小 2 乗平均では「共変量 x の全体での平均 ¯x」を代入しましたが、いまこの平均 ¯x は 11 か 12 くらいです。この値は、プラ セボ群では大きすぎてデータがほとんどないですし、実薬群では小さすぎてデータがほとんどないところです。ですので、この ¯x に対応する y の 予測値である最小二乗平均で「各群を代表させる」というのは奇妙なことだと思っていただけますでしょうか。