理学療法研究におけるデータ解析の誤り

(1)

理学療法研究におけるデータ解析の誤り 549 理学療法の研究報告では，統計的検定（検定）の手続きがなくてはならない存在となっている。そして，検定の結果を適切に解釈できなければ，正しい知見を身につけることは不可能である。検定に対する理解が及ばないことを理由に「統計に騙された」とか，「しょせん数値のはなしだ」といった考えは，専門家としてあってはならないことである。しかしながら「検定によって客観的に証明できた」，「有意な差があるのだから間違いない」という主張も誤りとなる。検定のどういった点を押さえるべきか。以降では，よく遭遇する検定の誤解に対する基本的な意味について述べることにする。 検定は，有意となるようにできている いかなる検定でも，ほとんどすべて有意（p < 0.05）となるようにできている。検定結果が有意でないときは，対象者数が少ないためである。図 1 で示した差の検定の例では，p = 0.732 で有意差はない。しかし，図 2 に挙げた 2 つのグラフ（左のグラフは図 1 と同じ）は，平均と標準偏差がまったく同じでも，右グラフでは有意な差を示している。これは n（対象者数）の違いによるものである。このカラクリは，統計的な性質として，対象者数が多くなると平均の確からしさが確実になっていくという原理が関与している。図 2 の左グラフで表示されている平均 52.9 日と 54.7 日は，たかだか 19 人と 34 人のデータから得られた値である。今後，無限大まで対象者数を増やしたときに，平均 52.9 日または 54.7 日が大きく変わる可能性はあり得る。かたや図 2 の右グラフは，同じ平均でも 608 人と 1,088 人という大人数から得られた値である。これくらいの人数になると，対象者を増やしていったとしても平均は大きく変わりそうにない。差の検定では，帰無仮説「2 群の平均差は 0 である」を検定する。平均が 52.9 日と 54.7 日でわずか 1.8 日の違いでも，平均 52.9 日と 54.7 日となる確実性が高ければ，差は 0 ではないために有意差が生じる。一般的に，2 群の平均差が 0.0000 … 001 のような小さな値であったとしても差が完全に 0 ではない限り，人数を増加させることによって，ほとんど間違いなく有意差がでるのである。さらに，有意確率（p）が小さいほど差が大きいとか，相関が強いという解釈も間違いである。差の程度がまったく同じだとしても，人数によって，またはデータのバラツキによっても p の値は変化する（図 3）。したがって，p の値だけを見て有意であることをいくら主張しても，臨床的に有効な差であるとは限らない。こうした欠点を補うために，差の程度を推定する 100 ×（1 −α）％信頼区間を参考とする。よく用いられるのは，95％信理学療法学第 40 巻第 8 号 549 ∼ 552 頁（2013 年）

理学療法研究におけるデータ解析の誤り

＊

対馬栄輝

＊＊

ランチョンセミナー

＊

Misunderstanding of Statistical Method in Physical Therapy Research

＊＊

弘前大学大学院保健学研究科

（〒 036‒8564 青森県弘前市本町 66‒1）

Eiki Tsushima, PT, MSci, PhD: Hirosaki University Graduate School of Health Sciences

キーワード：統計的検定，多重検定，分散分析

図 1 歩行可能・不可能群の入院日数の比較例①

図 2 歩行可能・不可能群の入院日数の比較例②

図 3 差の程度と p の大きさは無関係

Japanese Physical Therapy Association

(2)

理学療法学第 40 巻第 8 号 550 頼区間である。95％信頼区間は，ほとんどの統計ソフトで出力される。95％信頼区間とは，データの人数，平均，標準偏差をもとにして計算する。今後，データを∞人まで増やした集団（母集団）を想定するとき，その平均は 95％の可能性で「これくらいの範囲にある」と推定する指標である。たとえば，図 2 の右グラフの結果は p < 0.05（p = 0.048）で有意差はあるが，95％信頼区間は 0.02 ∼ 3.60 日であった。これら 2 群の入院期間の平均差が 95％の可能性で最低 0.02 日，最大でも 3.6 日の差であると推定できる。最低 0.02 日の差は，それほど大きい差ではない。また，最大 3.6 日の差は疾病の性格，病院の方針にしたがって，大きい差なのか小さい差なのかを判断する。なんらかの基準にしたがって退院日を明確に決定しているなら 3.6 日の差は大きいかもしれないし，患者の個人的な都合で退院日が 2 ∼ 3 日は変化するというのであれば，3.6 日の差は大きいと考えられないかもしれない。データの性質によって 95％信頼区間の大きい，小さいといった解釈は変わる。他に差の程度を表す指標として，効果量 eﬀ ect size がある。効果量は，データを標準化したときの差の程度である。効果量を計算できる統計ソフトは少ないが，たとえば web で配布されているエクセルファイル1）などを活用するのが便利である。効果量はデータを標準化するので，単位の違うデータ同士の差の程度も比較可能である。ただし，効果量には 95％信頼区間のような推定の意味はないため，効果量の 95％信頼区間も参考にしなければらない。 パラメトリック検定・ノンパラメトリック検定の使い 分けは厳密にすべきか パラメトリック検定とは，母集団が正規分布にしたがうデータに対して適用される統計的手法全般をいい，ノンパラメトリック検定とは母集団の分布が不明なデータに対して適用される統計的手法である。パラメトリック検定の例としては，平均と分散（標準偏差の 2 乗）を扱う検定で，対応のある t 検定， 2 標本 t 検定，分散分析，ピアソンの相関係数，回帰分析などがある。ノンパラメトリック検定の例としては，ウィルコクソンの検定，マン・ホイットニーの U 検定，スピアマンの順位相関係数，クラスカル・ワリスの検定などがある。過去には「データの数が少ないときは母集団分布を決めることができないので，ノンパラメトリック検定を適用する」という迷信があった。しかし，この判断は間違っている。データが正規分布するかどうかを判断する方法は様々あるが，今のところもっとも妥当なのはシャピロ・ウイルク検定の活用である。この検定は 3 例以上のデータに対して，母集団が正規分布にしたがうか否かを判断できる。シャピロ・ウイルク検定によってデータが正規分布にしたがわない，とはいえない（p ≧ 0.05）ときにパラメトリック検定を適用し，正規分布にしたがわない（p < 0.05）ときに，ノンパラメトリック検定を適用する。ところで，いくつかの比較を行うときに 1 つの変数だけ正規分布にしたがわないので，その比較だけノンパラメトリック検定を適用したが，全体として整合性がとれないときがある。たとえば介入群と対照群で 1 ヵ月後・2 ヵ月後・3 ヵ月後の歩行速度を比較するとき，1 ヵ月ごと 3 ヵ月後は 2 標本 t 検定，2 ヵ月後の比較はマン・ホイットニーの U 検定となると，どうも整合性がとれないので，2 ヵ月後も 2 標本 t 検定を適用したい。また，回帰分析や 2 元配置分散分析の代わりとなるノンパラメトリック検定が存在しないなどの問題が起こる。この場合は，やむを得ずパラメトリック検定を適用せざるを得ない。実際に，正規分布にしたがわないデータに対して，パラメトリック検定を行うとすればどれくらいの誤差が生じるであろうか。試しに対数正規分布の乱数を利用して，シミュレーションを行ってみた。使用した統計ソフトは R2.8.1（CRAN，フリーウェア）である。いくつかの条件でシミュレーションしたが同様の結果であるため，その 1 例を図 4 に述べた。このシミュレーションは，差のない 2 標本のデータに対する検定（p < 0.05）を 10,000 回繰り返す。仮に 2 標本のデータとも正規分布にしたがうなら，2 標本 t 検定の結果で「差がない」と正しく判定（1 −α）する確率は 95％（10,000 回中 500 回は「差がある」と誤る）となるはずである。今回のシミュレーションでは対数 図 4 同一の母集団対数正規分布にしたがうデータに対する差の検定のシミュレーション

(3)

理学療法研究におけるデータ解析の誤り 551 正規分布にしたがう乱数を用いているので，95％とは大きく異なるかもしれない。しかし，図 4 のシミュレーション結果では 94.52％と，かなり 95％の値に近い。マン・ホイットニーの U 検定は，分布に依存しないノンパラメトリック検定であるが，それでも 94.70％で 2 標本 t 検定の結果と大差ない。他方，検出力に対するシミュレーション（図 5）については，2 標本 t 検定が劣る結果となる。これらの結果を総合すると，対数正規分布に対する 2 標本 t 検定においては判定がやや保守的（有意差が出難くなるという意味）となる傾向はあるものの，その違いはわずかで大きな問題ではない。パラメトリック検定といわれる手法の多くは，頑健性（ロバストネス）をもつ。頑健性とは，正規分布にしたがう必要があるという検定の前提条件を厳密に満たしていなくても，妥当な結果が得られるという性質である。特に分散分析における頑健性は高い2）。ただし，標本の大きさ n または分散の大きさ（標準偏差の大きさ）が，群間で大きく異なるときは保証できない3）。現状では，データが正規分布にしたがうか否かについて事前にシャピロ・ウイルク検定で確認してから，いくつかの検定を使い分ける手順が，迷いのない客観的な判断である。しかし，代わる手法が存在しない場合は，なにがなんでもノンパラメトリック検定を適用させなければならないというわけではない。明言はできないが，場合によっては多少の正規性に対して厳密ではなくてもよいであろう。これは，積極的にノンパラメトリック検定を回避せよ，という意味ではない。 複数回の検定を繰り返して有意な結果を得る ひとつの研究報告で複数の検定を行うと，真には有意ではないときでも有意な結果を得るときがある。これを多重検定の問題という。たとえば差の検定において 5％有意水準で検定を行うとき，真には差がなかったとしても，平均的には 100 回中 5 回は有意な差があると誤って判断する。対象を 2 群に割りつけて，介入群と対照群で比較する研究では，介入前のベースライン期において事前に，2 群の特性に有意な差は認められないことを確認することが多い（図 6）。年齢や身長，体重，その他，間接的に影響すると思われる性質について，差の検定を行って有意差がないかどうかを調べる例がある。なお，この手続きが妥当かどうかについては本稿では言及しない。その他の例として，上述したシャピロ・ウイルク検定の結果でも同様の問題が生じる。4 群とか 5 群比較の際，それらの群に相当数の検定を行う。その結果，絶対とはいわないまでも有意となる確率は高まるはずである。図 7 のような相関行列でも同様の問題が存在する。こうした多重検定の問題に対して，ベンジャミンとホックベルグ法という補正法2）がある（図 8）。この方法により，p 値を補正すれば多重検定の問題は解決する。ただし，ベンジャミンとホックベルグ法を闇雲に行うのは危険が伴う。これは母集団が同一である標本に対する多重検定に対して行うものである。図 6 のように膝伸展筋力，片脚立位，体重といった変数の母集団が同一（つまりデータの出どころが同じ）であるとは考え難い。分散分析の前に，3 群以上に対して行うシャピロ・ウイルク検定においては有効である。 反復測定の分散分析は間違っている 特定の対象者をひとつの群として反復測定する実験を行ったとき，反復測定による分散分析を適用するのが一般的である。たとえば，ある対象者の群に対して継続した筋力増強運動を行 図 5 異なる母集団対数正規分布にしたがうデータに対する差の検定のシミュレーション 図 6 2 群の特性に対する差の検定の例

(4)

理学療法学第 40 巻第 8 号 552 い，介入前，介入 1 週後，介入 2 週後，介入 3 週後…，の時点で膝伸展筋力に差があるかどうかを検定する場合である。そもそも分散分析に要される前提は，①データの母集団が正規分布にしたがうこと，②各水準（群または条件）が等分散であること，③各標本が独立であること，である。このうち，反復測定の分散分析では③が成り立たない。そこで，反復測定の分散分析の前に，モークリーの球形性検定を行い，球形性が仮定できないときにε修正（推奨されるのはグリーンハウスカイザーのε修正）を行う，という補正が必要になる。本来，反復測定で得られたデータに対しては，線形混合モデル（または混合モデル反復測定；MMRM）を適用するのが正しい。面倒な理論は文献2）に譲るとして，線形混合モデルでは経時的なデータで欠損が存在しても計算可能といった利点もある。また，ε修正などの面倒な手続きも不要である。幸いにも，欠損値が存在しない時には両者で検定結果はほぼ同じとなるために，反復測定による分散分析を適用しても，大きな問題は起こらない。しかし，前向き研究における経時的なデータに対して反復測定の分散分析を行うときには，欠損の存在する対象者をやむを得ず除外することもある。その際に選択バイアスが発生するのであれば問題となる。反復測定したデータに対しては，可能な限り一般線型モデルを適用させるのが妥当である。 文献

1） Mizumoto Atsushi’s Website, Stats Stuff , Eff ect size calculation sheet. http://www.mizumot.com/stats/eff ectsize.xls（2013 年 11 月 5 日引用）） 2）対馬栄輝，石田水里（編）：医療系データのとり方・まとめ方─ SPSS で学ぶ実験計画法と分散分析．東京図書，2013． 3）竹内啓，石井恵一，他（編）：9 ノンパラメトリック，ロバスト法，統計学辞典．東洋経済新報社，東京，1992，pp. 121‒139. 図 7 変数 A ∼ F（6 変数）間の相関行列 図 8 図 6 の結果に対して行うベンジャミンとホックベルグ法の例

理学療法研究におけるデータ解析の誤り