• 検索結果がありません。

際 正規分布に従わない観測値に対して通常の t 検定を適用した場合 どのような不都合が生じるかを考える 一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理

N/A
N/A
Protected

Academic year: 2021

シェア "際 正規分布に従わない観測値に対して通常の t 検定を適用した場合 どのような不都合が生じるかを考える 一般に通常の t 検定や Wilcoxon 検定などの仮説検定を行う場合 2つの処理の間に差がないことが真実であるにもかかわらず差があると主張する過誤確率 ( 第 1 種の過誤確率 ) 2つの処理"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

1

基礎研究や臨床研究を問わず医学研究において、新しい化合物や治療法を発見 し、その性能を特徴づける場合、何らかの対照(例えば標準治療)と比較し評価するこ とが最も単純でしかも直裁的に理解しやすい。そして、多くの目的については2つの 処理の平均の比較によれば大抵の場合に明瞭な回答が得られる。2つの群の比較で最 も汎用される代表的な統計手法としては、Student の t検定(以下、「通常の t検定」) があげられる。t検定は、必ずしも高価で専門的な知識を使用者に要求するような統 計計算ソフトウェアを用いずとも、身近な Microsoft Excel®でも容易に実行できる。 t検定にかかわる計算は容易で、むしろ t検定の計算機能を備えてない統計計算ソフ トウェアは稀である。このように t検定は日常的に利用されるが、実際のデータ解析 での t検定の利用について、「観測値数が極端に少ない場合、t検定は適用可能か(観 測値数がどの程度あれば t検定が適用可能か)」、「観測値の正規性の検定をしたとこ ろ、正規分布に従わないとの結果が得られたから、t検定の代用として Wilcoxon の 順位和検定(あるいは Mann-Whitney の U検定)を用いたが、この判断に間違いない か」、「統計手法の手順書には、2つの群でデータの分散の大きさが異なる場合には、t 検定の代用として Welch の t検定を適用すべきとの記載があったが、2つの群の分散 が異ならない場合にも Welch の t検定は適用可能か」といった疑問をよく耳にする。 本稿では2つの処理の平均の比較についてデータの分布として正規分布を仮定する t 検定、データに特定の分布を仮定しない Wilcoxon の順位和検定(以下、「Wilcoxon検 定」)をとりあげ、それらの適用上の留意点や代表的な統計計算ソフトウェアでの実行 について、実例を例解しつつ解説する。

2

いま、ある2つの処理の効果に差があるか否かに関心があり、観測値が連続尺 度で得られているとする。このとき、解析者は、データの様相を観察し、通常の t検定、 Wilcoxon検定あるいは Welch の t検定のいずれの手法を用いるかを判断せねばなら ない。一般に統計学のテキストには2つの処理効果の平均を比較する場合、観測値の 分布が(近似的に)正規分布であり、2つの処理で分散が等しければ通常の t検定を適 用する、観測値が正規分布に従わないと判断されるようであれば Wilcoxon検定に代 表されるノンパラメトリック検定を適用する、といった記載がみられる。ここで、実

■ 連載 第 2 回

朝倉こう子・濱﨑俊光

Koko Asakura, Toshimitsu Hamasaki

Office of Biostatistics and Data Management

Department of Advanced Medical Technology Development National Cerebral and Cardiovascular Center

国立循環器病研究センター先進医療治験推進部 DM/ 統計室 〒 565―8565 吹田市藤白台 5-7-1 E-mail: toshi.hamasaki@ncvc.go.jp

医学データの統計解析の基本

2 つの平均の比較

(2)

際、正規分布に従わない観測値に対して通常の t検定を適用した場合、どのような不 都合が生じるかを考える。一般に通常の t検定や Wilcoxon検定などの仮説検定を行 う場合、2つの処理の間に差がないことが真実であるにもかかわらず差があると主張 する過誤確率(第1種の過誤確率)、2つの処理の間に差があることが真実であるにも かかわらず、その差を見逃し差がないと主張する過誤確率(第2種の過誤確率)が、実 際どの程度であったかに注意せねばならない。2つの処理の観測値数が等しく、観測 値が対数正規分布などに代表される右に裾を引く分布に従う場合、通常の t検定を適 用すれば、差がないにもかかわらず「差がある」と結論づける第1種の過誤確率は名目 上の値、例えば有意水準を0.05とすれば、それより小さくなることが知られている(柴 田、1981)(つまり、p値は大きく得られ有意になりにくい)。この傾向は両側仮説よ りも片側仮説で顕著であるが、観測値数が大きくなるに伴い、無視できるほどに小さ くなることが知られている。一方で、差があることが真実であり、先と同様に観測値 が右に裾を引く分布に従う場合、その差を検出できる可能性、いわゆる検出力は極端 に低下する。他方、Wilcoxon検定は観測値そのものではなく順位を用いるため、分 布の非対称性や外れ値の影響を受けにくい。検出力の観点からも、観測値が正規分布 に従わない場合に、多くの場面で Wilcoxon検定は t検定に比べ検出力が高くなること、 また正規分布に従う場合でも、Wilcoxon検定の検出力は t検定に比べさほど落ちない ことが知られている(Mood, 1954; Hodges, Lehmann, 1956)。このことから、正規分 布が仮定できない場合には Wilcoxon検定を適用することで、よりよい判断が下せそ うである。ただし、第1回で述べたように、Wilcoxon の順位和検定は観測値の分布 の中心的位置の差を検出する検出力が高いことから、この検定の結果が有意であれば、 一般に「母中央値に差がある」と解釈されるが、上記の帰無仮説が棄却されるのは、必 ずしも中央値に差がある場合だけでないことに注意がいる(河合 他, 2003)。  しかし、2つの処理で観測値数が異なり、観測値の分散の大きさが異なるような状 況では、Wilcoxon検定を用いることに注意がいる。図1から、Wilcoxon検定を用い たとしても第1種の過誤確率が事前に定めた水準より大きくなる、つまり差がないに も差があるといい過ぎてしまう。このとき、第1種の過誤確率を適切に制御するとい う観点から Welch の t検定を用いるのがよさそうである。なお、2つの処理で観測値 数が等しければ、観測値の分散の大きさが異なったとしても、通常の t検定を用いて も第1種の過誤確率が名目水準を上回ったり、あるいは下回ったりすることはなく、 図1 不等分散のもとでの第1 種の過誤確率(両側検定,有意水準5 %)

(3)

また検出力も低下することはないことが知られている。  以上のように、どのような場面にも通用する、2つの処理の平均の比較の方法は存 在しない。データに直面したときに、どのような統計的方法を用いて解析するか、デー タの様相をよく観察し判断せねばならない。参考として、典型的な解析手法で一般的 な場面で用いられる、正規分布を基礎分布として仮定する方法(パラメトリック法) とそれに対応する特定の分布を仮定しない方法(ノンパラメトリック方法)を表1に示 す。 表1 典型的な解析手法で一般的な場面で用いられる、正規分布を基礎分布として仮定する方法(パラメトリック 法)とそれに対応する特定の分布を仮定しない方法(ノンパラメトリック方法) 場面 パラメトリック法 ノンパラメトリック方法 代表値 算術平均 中央値 バラツキ 標準偏差 四分位範囲 差の推定値 平均の差 Hodges-Lehmann 推定量 信頼区間 t 統計量の利用 順序統計量の利用 独立な2 つの処理の比較 Student の t 検定 (Welch の t 検定) Wilcoxon の順位和検定 対応のある観測値の比較 対応のある t 検定 Wilcoxon の符号付順位検定 相関 Pearson の積率相関 Spearman の順位相関

3

実例を通して統計計算ソフトウェアで t検定と Wilcoxon検定を実行する際の 留意点と出力される結果について概説する。ここでは無償か比較的安価で一般的に利 用可能なソフトウェアのうち、SAS® University Edition, R, エクセル統計、JMP®

とりあげる。なお本稿を執筆するにあたり、それぞれのソフトウェアについて SAS® Studio 3.1、R version 3.1.2、エクセル統計2012および JMP 10にて動作確認を行っ ている。使用するデータは R の ISwR パッケージ*に組み込まれている「vitcap2」とい うテストデータである(表2)。「vitcap2」はカドミウム産業における雇用者の、曝露 状態と年齢および肺活量についてのデータである。曝露状態は3つのカテゴリーから なる変数「group」として得られており、いま「10年以上曝露されている群(group=1)」 と「曝露されていない群(group=3)」との間で、肺活量の母平均に差があるか否かに関 心があるとする。ただしここでは、肺活量を表す変数を「vital」としている(元データ では「vital.capacity」)。「10年以上曝露されている群」と「曝露されていない群」の肺活 量の母平均をそれぞれμ1とμ3とすれば、t検定で検討したい帰無仮説と対立仮説(両 側対立仮説)は H0:μ1-μ3=0 対 H1:μ1-μ3≠0と記述される。Wilcoxon検定では、 肺活量の値をx、および「10年以上曝露されている群」と「曝露されていない群」での累 積分布関数をそれぞれF(1 x)と F(3 x)とすれば、H0:すべてのx について F(1 x)=F(3 x), H:ある1 x について F(1 x)≠F(3 x)と記述される。以降では、それぞれのソフトウェア における検定の実行と出力される結果について個々に述べる。 3 -1 t 検定

① SAS® University Edition

 TTEST プロシジャを用い、群を識別する変数(ここでは group)を CLASS ステー

* R ではデフォルトでインストー ルされるほかに,分野別に関数 やデータがまとめられた「パッ ケージ」を用いることにより, 高度な統計処理が可能となる。 インストールの方法について は,例えば舟尾 (2 0 0 9 ) を参照 されたい。

(4)

表2 テストデータ「vitcap2」

group age vital 1 1 39 4.62 2 1 40 5.29 3 1 41 5.52 4 1 41 3.71 5 1 45 4.02 6 1 49 5.09 7 1 52 2.7 8 1 47 4.31 9 1 61 2.7 10 1 65 3.03 11 1 58 2.73 12 1 59 3.67 13 3 27 5.29 14 3 25 3.67 15 3 24 5.82 16 3 32 4.77 17 3 23 5.71 18 3 25 4.47 19 3 32 4.55 20 3 18 4.61 21 3 19 5.86 22 3 26 5.2 23 3 33 4.44 24 3 27 5.52 25 3 33 4.97 26 3 25 4.99 27 3 42 4.89 28 3 35 4.09 29 3 35 4.24 30 3 41 3.88 31 3 38 4.85 32 3 41 4.79 33 3 36 4.36 34 3 36 4.02 35 3 41 3.77 36 3 41 4.22 37 3 37 4.94 38 3 42 4.04 39 3 39 4.51 40 3 41 4.06 41 3 43 4.02 42 3 41 4.99 43 3 48 3.86 44 3 47 4.68 45 3 53 4.74 46 3 49 3.76 47 3 54 3.98 48 3 48 5 49 3 49 3.31 50 3 47 3.11 51 3 52 4.76 52 3 58 3.95 53 3 62 4.6 54 3 65 4.83 55 3 62 3.18 56 3 59 3.03

(5)

トメントで、評価変数(ここでは vital)を VAR ステートメントで指定する。実行 すればデフォルトの結果は図2のように出力される。3つ目の表から通常の t検定 と Welch の t検定(それぞれ「Pooled」と「Satterthwaite」)の p値はそれぞれ0.0468 と0. 1271と 得 ら れ、2つ 目 の 表 か ら95%信 頼 区 間 は[ -1. 0182, -0. 0075]と [-1.1914, 0.1657]と得られた。これより、通常の t検定では有意水準5% のもと で帰無仮説(H0)が棄却され、「肺活量の母平均に差がある」と結論づけるのに対し、 Welch の t検定の結果に基づけば帰無仮説を棄却することはできない。 ② R  t.test関数を用い、各群の評価変数のデータ x と y をベクトルで指定する。R では デフォルトで Welch の t検定が実行され、出力から p値は0.1271、95%信頼区間は[- 1.1914, 0.1657]と得られた(図3)。通常の t検定を実行する場合には、オプション で「var.equal=TRUE」と指定する。すると図4のように結果が出力され、p値は0.0468、 95%信頼区間は[-1.0182, -0.0075]と得られた。

(6)

③ エクセル統計  「平均の推定・検定」のなかの「2群の母平均の差の検定」を用いる。出てくるウィン ドウで各群の評価変数のデータを指定し、「公式」として「t分布」を選択すれば、t検 定の結果が出力される(図5)。エクセル統計ではデフォルトで通常の t検定と Welch の t検定が実行され、p値はそれぞれ0.0468と0.1271、95%信頼区間は[-1.018, -0.008]と[-1.191, 0.166]と得られた。 ④ JMP®  「分析」の「二変量の関係」を用いる。X と Y に群を識別する変数(名義変数として 指定しておく)と評価変数を指定する。出てくるウィンドウで「平均/ANOVA/ プー リングした t検定」を選択すれば等分散を仮定した通常の t検定の結果が、「個々の分 散を用いた t検定」を選択すれば Welch の t検定の結果が出力され、p値はそれぞれ 0.0468と0.1271、95%信頼区間は[0.0075, 1.0182]と[-0.1657, 1.1914]と得ら れた(図6、7)。 図4 t.test 関数による t 検定の結果(R) 図5 「2 群の母平均の差の検定」による結果(エクセル統計) 図3 t.test 関数による Welch の t 検定の結果(R)

(7)

3 -2 Wilcoxon 検定 ① SAS® University Edition

 NPAR1WAY プロシジャを用いる。t検定の TTEST プロシジャの場合と同様に、 群を識別する変数を CLASS ステートメントで、評価変数を VAR ステートメントで 指定する。実行すればデフォルトの結果は図8のように出力される。2つ目の表から、 正規分布で近似した場合の p値は0.1079、t分布で近似した場合の p値は0.1136と 得られた。SAS では、正規近似の際にデフォルトで連続補正が適用される。連続補 正を適用しないためにはオプションにて「CORRECT=NO」と指定する。また EXACT ステートメントで「WILCOXON」を指定すれば「正確な」p値が算出される。ここでの「 正確な」とは、近似を用いることなく直接的に p値を算出することを意味する(他の方 法に基づく p値が「正確でない」という意味ではない)。ただしここでは同順位が存在 するため、「正確な」p値は算出されない。一般にデータ数がある程度多ければ、正規 近似は良好であることが知られているが、データ数が少ない(いずれかの群が20以下) 場合には、「正確な」p値を用いることが望ましい。 ② R  wilcox.test関数を用いる。t検定の t.test関数の場合と同様に、各群の評価変数のデー タ x と y をベクトルで指定する。R では、いずれかの群のデータ数が50未満で同順 位が存在しない場合には、デフォルトで「正確な」p値が出力される。正規近似の結果 を出力するためにはオプションで「exact=FALSE」と指定する。また、データ数が50 以上でも「exact=TRUE」と指定すれば、「正確な」p値が算出される。ここでは警告メッ 図6 「平均 /ANOVA/ プーリングした t 検定」による結果(JMP® 図7 「個々の分散を用いた t 検定」による結果(JMP®

(8)

セージにあるとおり同順位が存在するため、正規近似において連続補正を適用した場 合の結果がデフォルトで出力され、p値が0.1079と得られた(図9)。連続補正を適用 しないためにはオプションで「correct=FALSE」と指定する。その場合の p値は0.1057 であった(図10)。

図9 wilcox.test 関数による連続修正ありの結果(R) 図8 NPAR1 WAY プロシジャによる結果(SAS® University Edition)

(9)

③ エクセル統計

 「ノンパラメトリック検定」のなかの「マン・ホイットニーの U検定」を用い(Mann-Whitney の U検定は本質的に Wilcoxon検定と同じである)、出てくるウィンドウで データを指定する。エクセル統計では、デフォルトで正規近似において連続補正を適 用しない場合の p値と、「正確な」p値に基づき有意か否かが出力され(それぞれ「正規 化検定」と「統計数値表による検定」)、ここでは正規近似における p値が0.1057と得 られた(図11)。「正確な」p値に基づく結果は、いずれかの群のデータ数が20を超え る場合や同順位がある場合には出力されない。 ④ JMP®  t検定の場合と同様に、「分析」の「二変量の関係」を用いる。変数を指定し出て くるウィンドウで「ノンパラメトリック」のなかの「Wilcoxon検定」を選択すれば、 図1 1 「マン・ホイットニーの U 検定」による結果(エクセル統計) 図1 0  wilcox.test 関数による連続修正なしの結果(R) 図1 2 「Wilcoxon 検定」による結果(JMP®

(10)

文献

1) Hodges, J. L. & Lehmann, E. L. (1956). The efficiency of some nonparametric competitors of the t-test. Annals of Mathematical Statistics 27(2), 324-335.

2) Mood, A. M. (1954). On the Asymptotic efficiency of certain nonparametric two-sample tests. Annals of Mathematical Statistics 25(3), 514-522. 3) 河合統介 ・ 栗林和彦 ・ 濱﨑俊光 ・ 後藤昌司 (2003). 統計科学の足もと : p 値と信頼区間 . 天理医学紀要 6, 71-79 4) 柴田 義貞 (1981). 正規分布.特性と応用 . 東京大学出版社 . 5) 舟尾 暢男 (2009). The R Tips: データ解析環境 R の基本技・グラフィック活用集 . 第2 版 . オーム社 . Wilcoxon検定の結果が出力される。JMP®では、デフォルトで正規近似において連続 修正を適用した場合と適用しない場合の結果が出力され(それぞれ「2標本検定(正規 近似)」と「一元配置検定(カイ2乗近似)」)、p値はそれぞれ0.1079と0.1057と得られ た(図12)。なお「正確な」p値は通常の JMP®では算出できない(JMP® PRO で算出可 能)。

4

本稿では2つの処理の平均の比較において t検定と Wilcoxon検定を適用する 際の留意点を述べ、これらの2つの方法を4種類の統計計算ソフトウェアを用いて 実際のデータに対して適用し、解析を実行した。なお、紹介した以外にも t検定や Wilcoxon検定を実行できるプロシジャや関数は存在するが、本稿では一般的によく 用いられている例をとりあげている。いずれのソフトウェアを用いても算出される p 値は同じであるが、特に Wilcoxon検定については、既定値で適用される手法や近似 が異なることを認識していなければ、「統計計算ソフトウェアにより異なる p値が得 られる」ことが起こる。どの統計計算ソフトウェアを利用する場合にも適用する方法 を吟味し、必要に応じてオプションなどにより適切に指定することが求められる。

参照

関連したドキュメント

tiSOneと共にcOrtisODeを検出したことは,恰も 血漿中に少なくともこの場合COTtisOIleの即行

わからない その他 がん検診を受けても見落としがあると思っているから がん検診そのものを知らないから

日頃から製造室内で行っていることを一般衛生管理計画 ①~⑩と重点 管理計画

また適切な音量で音が聞 こえる音響設備を常設設 備として備えている なお、常設設備の効果が適 切に得られない場合、クラ

共通点が多い 2 。そのようなことを考えあわせ ると、リードの因果論は結局、・ヒュームの因果

2 E-LOCA を仮定した場合でも,ECCS 系による注水流量では足りないほどの原子炉冷却材の流出が考

 ZD主任は、0.35kg/cm 2 g 点検の際に F103 弁がシートリークして

設備がある場合︑商品販売からの総収益は生産に関わる固定費用と共通費用もカバーできないかも知れない︒この場