• 検索結果がありません。

理学療法研究におけるデータ解析の誤り

N/A
N/A
Protected

Academic year: 2021

シェア "理学療法研究におけるデータ解析の誤り"

Copied!
4
0
0

読み込み中.... (全文を見る)

全文

(1)

理学療法研究におけるデータ解析の誤り 549  理学療法の研究報告では,統計的検定(検定)の手続きがな くてはならない存在となっている。そして,検定の結果を適切 に解釈できなければ,正しい知見を身につけることは不可能で ある。検定に対する理解が及ばないことを理由に「統計に騙さ れた」とか,「しょせん数値のはなしだ」といった考えは,専 門家としてあってはならないことである。しかしながら「検定 によって客観的に証明できた」,「有意な差があるのだから間違 いない」という主張も誤りとなる。  検定のどういった点を押さえるべきか。以降では,よく遭遇 する検定の誤解に対する基本的な意味について述べることに する。 検定は,有意となるようにできている  いかなる検定でも,ほとんどすべて有意(p < 0.05)となる ようにできている。検定結果が有意でないときは,対象者数が 少ないためである。図 1 で示した差の検定の例では,p = 0.732 で有意差はない。しかし,図 2 に挙げた 2 つのグラフ(左のグ ラフは図 1 と同じ)は,平均と標準偏差がまったく同じでも, 右グラフでは有意な差を示している。これは n(対象者数)の 違いによるものである。このカラクリは,統計的な性質とし て,対象者数が多くなると平均の確からしさが確実になってい くという原理が関与している。図 2 の左グラフで表示されてい る平均 52.9 日と 54.7 日は,たかだか 19 人と 34 人のデータか ら得られた値である。今後,無限大まで対象者数を増やしたと きに,平均 52.9 日または 54.7 日が大きく変わる可能性はあり 得る。かたや図 2 の右グラフは,同じ平均でも 608 人と 1,088 人という大人数から得られた値である。これくらいの人数にな ると,対象者を増やしていったとしても平均は大きく変わりそ うにない。差の検定では,帰無仮説「2 群の平均差は 0 である」 を検定する。平均が 52.9 日と 54.7 日でわずか 1.8 日の違いでも, 平均 52.9 日と 54.7 日となる確実性が高ければ,差は 0 ではな いために有意差が生じる。一般的に,2 群の平均差が 0.0000 … 001 のような小さな値であったとしても差が完全に 0 ではない 限り,人数を増加させることによって,ほとんど間違いなく有 意差がでるのである。  さらに,有意確率(p)が小さいほど差が大きいとか,相関 が強いという解釈も間違いである。差の程度がまったく同じだ としても,人数によって,またはデータのバラツキによっても p の値は変化する(図 3)。したがって,p の値だけを見て有意 であることをいくら主張しても,臨床的に有効な差であるとは 限らない。  こうした欠点を補うために,差の程度を推定する 100 ×(1 −α)%信頼区間を参考とする。よく用いられるのは,95%信 理学療法学 第 40 巻第 8 号 549 ∼ 552 頁(2013 年)

理学療法研究におけるデータ解析の誤り

対 馬 栄 輝

**

ランチョンセミナー

Misunderstanding of Statistical Method in Physical Therapy Research

**

弘前大学大学院保健学研究科

(〒 036‒8564 青森県弘前市本町 66‒1)

Eiki Tsushima, PT, MSci, PhD: Hirosaki University Graduate School of Health Sciences

キーワード:統計的検定,多重検定,分散分析

図 1 歩行可能・不可能群の入院日数の比較例①

図 2 歩行可能・不可能群の入院日数の比較例②

図 3 差の程度と p の大きさは無関係

Japanese Physical Therapy Association

(2)

理学療法学 第 40 巻第 8 号 550 頼区間である。95%信頼区間は,ほとんどの統計ソフトで出力 される。95%信頼区間とは,データの人数,平均,標準偏差を もとにして計算する。今後,データを∞人まで増やした集団 (母集団)を想定するとき,その平均は 95%の可能性で「これ くらいの範囲にある」と推定する指標である。  たとえば,図 2 の右グラフの結果は p < 0.05(p = 0.048)で 有意差はあるが,95%信頼区間は 0.02 ∼ 3.60 日であった。こ れら 2 群の入院期間の平均差が 95%の可能性で最低 0.02 日, 最大でも 3.6 日の差であると推定できる。最低 0.02 日の差は, それほど大きい差ではない。また,最大 3.6 日の差は疾病の性 格,病院の方針にしたがって,大きい差なのか小さい差なのか を判断する。なんらかの基準にしたがって退院日を明確に決定 しているなら 3.6 日の差は大きいかもしれないし,患者の個人 的な都合で退院日が 2 ∼ 3 日は変化するというのであれば,3.6 日の差は大きいと考えられないかもしれない。データの性質に よって 95%信頼区間の大きい,小さいといった解釈は変わる。  他に差の程度を表す指標として,効果量 eff ect size がある。 効果量は,データを標準化したときの差の程度である。効果量 を計算できる統計ソフトは少ないが,たとえば web で配布さ れているエクセルファイル1)などを活用するのが便利である。 効果量はデータを標準化するので,単位の違うデータ同士の差 の程度も比較可能である。ただし,効果量には 95%信頼区間 のような推定の意味はないため,効果量の 95%信頼区間も参 考にしなければらない。 パラメトリック検定・ノンパラメトリック検定の使い 分けは厳密にすべきか  パラメトリック検定とは,母集団が正規分布にしたがうデー タに対して適用される統計的手法全般をいい,ノンパラメト リック検定とは母集団の分布が不明なデータに対して適用され る統計的手法である。パラメトリック検定の例としては,平均 と分散(標準偏差の 2 乗)を扱う検定で,対応のある t 検定, 2 標本 t 検定,分散分析,ピアソンの相関係数,回帰分析など がある。ノンパラメトリック検定の例としては,ウィルコクソ ンの検定,マン・ホイットニーの U 検定,スピアマンの順位 相関係数,クラスカル・ワリスの検定などがある。  過去には「データの数が少ないときは母集団分布を決めるこ とができないので,ノンパラメトリック検定を適用する」とい う迷信があった。しかし,この判断は間違っている。  データが正規分布するかどうかを判断する方法は様々ある が,今のところもっとも妥当なのはシャピロ・ウイルク検定の 活用である。この検定は 3 例以上のデータに対して,母集団が 正規分布にしたがうか否かを判断できる。シャピロ・ウイルク 検定によってデータが正規分布にしたがわない,とはいえない (p ≧ 0.05)ときにパラメトリック検定を適用し,正規分布に したがわない(p < 0.05)ときに,ノンパラメトリック検定を 適用する。  ところで,いくつかの比較を行うときに 1 つの変数だけ正規 分布にしたがわないので,その比較だけノンパラメトリック検 定を適用したが,全体として整合性がとれないときがある。た とえば介入群と対照群で 1 ヵ月後・2 ヵ月後・3 ヵ月後の歩行 速度を比較するとき,1 ヵ月ごと 3 ヵ月後は 2 標本 t 検定,2 ヵ 月後の比較はマン・ホイットニーの U 検定となると,どうも 整合性がとれないので,2 ヵ月後も 2 標本 t 検定を適用したい。 また,回帰分析や 2 元配置分散分析の代わりとなるノンパラメ トリック検定が存在しないなどの問題が起こる。この場合は, やむを得ずパラメトリック検定を適用せざるを得ない。  実際に,正規分布にしたがわないデータに対して,パラメト リック検定を行うとすればどれくらいの誤差が生じるであろう か。試しに対数正規分布の乱数を利用して,シミュレーション を行ってみた。使用した統計ソフトは R2.8.1(CRAN,フリー ウェア)である。いくつかの条件でシミュレーションしたが同 様の結果であるため,その 1 例を図 4 に述べた。このシミュレー ションは,差のない 2 標本のデータに対する検定(p < 0.05) を 10,000 回繰り返す。仮に 2 標本のデータとも正規分布にし たがうなら,2 標本 t 検定の結果で「差がない」と正しく判定 (1 −α)する確率は 95%(10,000 回中 500 回は「差がある」 と誤る)となるはずである。今回のシミュレーションでは対数 図 4 同一の母集団対数正規分布にしたがうデータに対する差の検定のシミュレーション

Japanese Physical Therapy Association

(3)

理学療法研究におけるデータ解析の誤り 551 正規分布にしたがう乱数を用いているので,95%とは大きく異 なるかもしれない。しかし,図 4 のシミュレーション結果では 94.52%と,かなり 95%の値に近い。マン・ホイットニーの U 検定は,分布に依存しないノンパラメトリック検定であるが, それでも 94.70%で 2 標本 t 検定の結果と大差ない。他方,検 出力に対するシミュレーション(図 5)については,2 標本 t 検定が劣る結果となる。これらの結果を総合すると,対数正規 分布に対する 2 標本 t 検定においては判定がやや保守的(有意 差が出難くなるという意味)となる傾向はあるものの,その違 いはわずかで大きな問題ではない。  パラメトリック検定といわれる手法の多くは,頑健性(ロバ ストネス)をもつ。頑健性とは,正規分布にしたがう必要があ るという検定の前提条件を厳密に満たしていなくても,妥当な 結果が得られるという性質である。特に分散分析における頑健 性は高い2)。ただし,標本の大きさ n または分散の大きさ(標 準偏差の大きさ)が,群間で大きく異なるときは保証できない3)。  現状では,データが正規分布にしたがうか否かについて事前 にシャピロ・ウイルク検定で確認してから,いくつかの検定を 使い分ける手順が,迷いのない客観的な判断である。しかし, 代わる手法が存在しない場合は,なにがなんでもノンパラメト リック検定を適用させなければならないというわけではない。 明言はできないが,場合によっては多少の正規性に対して厳密 ではなくてもよいであろう。これは,積極的にノンパラメト リック検定を回避せよ,という意味ではない。 複数回の検定を繰り返して有意な結果を得る  ひとつの研究報告で複数の検定を行うと,真には有意ではな いときでも有意な結果を得るときがある。これを多重検定の問 題という。たとえば差の検定において 5%有意水準で検定を行 うとき,真には差がなかったとしても,平均的には 100 回中 5 回は有意な差があると誤って判断する。  対象を 2 群に割りつけて,介入群と対照群で比較する研究で は,介入前のベースライン期において事前に,2 群の特性に有 意な差は認められないことを確認することが多い(図 6)。年 齢や身長,体重,その他,間接的に影響すると思われる性質に ついて,差の検定を行って有意差がないかどうかを調べる例が ある。なお,この手続きが妥当かどうかについては本稿では言 及しない。  その他の例として,上述したシャピロ・ウイルク検定の結果 でも同様の問題が生じる。4 群とか 5 群比較の際,それらの群 に相当数の検定を行う。その結果,絶対とはいわないまでも有 意となる確率は高まるはずである。図 7 のような相関行列でも 同様の問題が存在する。  こうした多重検定の問題に対して,ベンジャミンとホックベ ルグ法という補正法2)がある(図 8)。この方法により,p 値 を補正すれば多重検定の問題は解決する。ただし,ベンジャミ ンとホックベルグ法を闇雲に行うのは危険が伴う。これは母集 団が同一である標本に対する多重検定に対して行うものであ る。図 6 のように膝伸展筋力,片脚立位,体重といった変数の 母集団が同一(つまりデータの出どころが同じ)であるとは考 え難い。分散分析の前に,3 群以上に対して行うシャピロ・ウ イルク検定においては有効である。 反復測定の分散分析は間違っている  特定の対象者をひとつの群として反復測定する実験を行った とき,反復測定による分散分析を適用するのが一般的である。 たとえば,ある対象者の群に対して継続した筋力増強運動を行 図 5 異なる母集団対数正規分布にしたがうデータに対する差の検定のシミュレーション 図 6 2 群の特性に対する差の検定の例

Japanese Physical Therapy Association

(4)

理学療法学 第 40 巻第 8 号 552 い,介入前,介入 1 週後,介入 2 週後,介入 3 週後…,の時点 で膝伸展筋力に差があるかどうかを検定する場合である。  そもそも分散分析に要される前提は,①データの母集団が正 規分布にしたがうこと,②各水準(群または条件)が等分散で あること,③各標本が独立であること,である。このうち,反 復測定の分散分析では③が成り立たない。そこで,反復測定の 分散分析の前に,モークリーの球形性検定を行い,球形性が仮 定できないときにε修正(推奨されるのはグリーンハウスカイ ザーのε修正)を行う,という補正が必要になる。  本来,反復測定で得られたデータに対しては,線形混合モデ ル(または混合モデル反復測定;MMRM)を適用するのが正 しい。面倒な理論は文献2)に譲るとして,線形混合モデルで は経時的なデータで欠損が存在しても計算可能といった利点も ある。また,ε修正などの面倒な手続きも不要である。  幸いにも,欠損値が存在しない時には両者で検定結果はほぼ 同じとなるために,反復測定による分散分析を適用しても,大 きな問題は起こらない。しかし,前向き研究における経時的な データに対して反復測定の分散分析を行うときには,欠損の存 在する対象者をやむを得ず除外することもある。その際に選択 バイアスが発生するのであれば問題となる。反復測定したデー タに対しては,可能な限り一般線型モデルを適用させるのが妥 当である。 文  献

1) Mizumoto Atsushi’s Website, Stats Stuff , Eff ect size calculation sheet. http://www.mizumot.com/stats/eff ectsize.xls(2013 年 11 月 5 日引用)) 2) 対馬栄輝,石田水里(編):医療系データのとり方・まとめ方─ SPSS で学ぶ実験計画法と分散分析.東京図書,2013. 3) 竹内 啓,石井恵一,他(編):9 ノンパラメトリック,ロバスト法, 統計学辞典.東洋経済新報社,東京,1992,pp. 121‒139. 図 7 変数 A ∼ F(6 変数)間の相関行列 図 8 図 6 の結果に対して行うベンジャミンとホックベルグ法の例

Japanese Physical Therapy Association

図 3 差の程度と p の大きさは無関係Japanese Physical Therapy Association

参照

関連したドキュメント

ベクトル計算と解析幾何 移動,移動の加法 移動と実数との乗法 ベクトル空間の概念 平面における基底と座標系

Next, cluster analysis revealed 5 clusters: adolescents declining to have a steady romantic relationship; adolescents having no reason not to desire a steady romantic

医師の臨床研修については、医療法等の一部を改正する法律(平成 12 年法律第 141 号。以下 「改正法」という。 )による医師法(昭和 23

ABSTRACT: To reveal the changes of joint formation due to contracture we studied the histopathological changes using an exterior fixation model of the rat knee joint. Twenty

結果は表 2

一般法理学の分野ほどイングランドの学問的貢献がわずか

41 の 2―1 法第 4l 条の 2 第 1 項に規定する「貨物管理者」とは、外国貨物又 は輸出しようとする貨物に関する入庫、保管、出庫その他の貨物の管理を自

社会学研究科は、社会学および社会心理学の先端的研究を推進するとともに、博士課