• 検索結果がありません。

アプライド セラピューティクス Vol.3 No.2, pp 37-46, 2012 < 教育資料 > 医薬データの要約 (SD( 標準偏差 ) と SE( 標準誤差 )) 浜田知久馬 Chikuma Hamada 東京理科大学工学部経営工学科 東京都新宿区神楽坂 1-3 TEL:

N/A
N/A
Protected

Academic year: 2022

シェア "アプライド セラピューティクス Vol.3 No.2, pp 37-46, 2012 < 教育資料 > 医薬データの要約 (SD( 標準偏差 ) と SE( 標準誤差 )) 浜田知久馬 Chikuma Hamada 東京理科大学工学部経営工学科 東京都新宿区神楽坂 1-3 TEL:"

Copied!
10
0
0

読み込み中.... (全文を見る)

全文

(1)

アプライド・セラピューティクス Vol.3 No.2, pp 37-46, 2012

<教育資料>

医薬データの要約

(SD(標準偏差)とSE(標準誤差))

浜田知久馬 Chikuma Hamada

東京理科大学工学部経営工学科

〒162-8601 東京都新宿区神楽坂 1-3 TEL:03-5228-8712

Keywords: 標準偏差,標準誤差,変動係数,四分位範囲

(Correspond auther : [email protected]

要 約

 医薬研究で,データを要約するときに,平均値±○○というような表現をよく見かけるが,○○

として,SD(標準偏差),または標準誤差(SE)を用いる習慣がある.前者は生データのバラツキ の大きさ,後者は平均値の推定精度を表す指標である.本稿ではこの2つの指標の意義と使い 分けを中心に解説する.

(2)

1.SD(標準偏差)とSE(標準誤差)の定義

図1 マンハッタングラフ

 図1はある論文からとったものだが,4群の平均値が棒で示され,また平均値からヒゲを伸ばしている.ニュー ヨークの摩天楼の高層ビル街のような形状なので,この図はマンハッタングラフとよばれたりする.このヒゲの付 け方にはいくつかの流儀(SD,SE,2SD,2SE等)があるが,論文によっては,何を表示したかが明確に記述 されてない例もみられる.またデータを要約するときに,平均値±○○というような表現をよく見かけるが,○○

として,SD(標準偏差),または標準誤差(SE)を用いる習慣がある.本稿ではこの2つの指標の意義と使い分 けを中心に解説する.

 SDはstandard deviation,SEはstandard errorの略である.論文等ではこの2つの指標が混同されている 例がみられるが,意味は全く異なる.

 標準偏差は生データのバラツキの大きさを表す指標であり,N回の測定値y1,y2,・・・,yNに基づいて次 のように計算される.

 Vは分散(variance)と呼ばれ,統計学ではバラツキの大きさを表す指標である.この平方根をとったものが SDである.ここで は平均値,Nは測定回数サンプルサイズを示している.deviationは偏差を意味し,平均と 個別のデータの差の2 乗和を計算し,それを標準化(平均化)するためにN-1で割ったものが分散である.Nで

(3)

割ればよさそうなものだが,標本平均ではなく真の平均値からのバラツキを評価するには,N-1で割った方が偏 りが小さくなり,このため正確には不偏分散とよばれる.分散は2 乗のオーダーでバラツキの大きさを測る指標で,

この平方根をとったものが SDで,個別データと同じ単位を持つ.SEは,SDを   で割って求めるが,Nは1 以上なので,SDよりSEは必ず小さくなる. SDに対してSEはN=4のときは1/2,N=9のときは1/3になる.

ここでは雄ラット10匹の胸腺重量でSDの計算例を示す.

計算例)雄ラットの胸腺重量(mg)のデータ 196 275 306 247 342 150 256 362 256 338

2.SDの理論的な根拠と問題点

1)SDの理論的な根拠(正規分布に近い場合)

SDは生データのバラツキの指標で,Nがある程度大きく,分布形が左右対称の山型の正規分布に近いときは

図2 正規分布と平均±k×SD  

 平均値±SDの範囲にデータの入る確率: 68%

 平均値±2SDの範囲にデータの入る確率: 95%

 平均値±3SDの範囲にデータの入る確率: 99.7%

になる.この性質を利用して,臨床検査の正常値を平均値±2SDで示す場合がある.すなわち95% 程度の人が 分布する範囲を正常範囲として表す.すると,外れる人は5% 程度になる.

 胸腺重量の例で,計算してみると

 平均値±SD= 272.8± 66.9=205.9 ~ 339.7  平均値±2SD=272.8±2×66.9=139.0 ~ 406.6 となる.

 平均値±SDを外れるデータは150,196,342,362の4つで,10 個中6 個(60%)のデータはこの範囲に入っている.

(4)

また平均値±2SDの範囲には10 個のデータが全て含まれる.胸腺重量は正規分布に近いので,平均値±SD入 る個数は,理論値に近くなっている.

 このように,正規分布の場合,平均値とSDによって,データがある確率でバラツク範囲を示すことができる.

この性質を利用したのが偏差値である.偏差値とは平均を50,標準偏差を10に基準化する.したがって,偏 差値では,平均値±SDは40~60,平均値±2SDは30~70,平均値±3SDは20~80に相当する.試験の偏差 値が 80を越えた経験がある人はほとんどいないはずである.なぜなら正規分布を前提とするならば, 平均値

+3SDを越えることはほとんどありえないからである.

・SDの見積もり

 分布の標準偏差の見積もる方法を紹介する.身長の分布は性別では正規分布に近くなることが知られている.

日本人の成人男子の身長の分布は,平均172cm程度であるが,SDはどれくらいだろうか.平均値±2SDの区間 にほとんどのデータが入ることを利用して,SDを見積もることができる.男性の知り合いの中で,身長が最も小 さい人と,大きい人を想像してみると,160~184cmの範囲のほとんどの人が入るのではないだろうか.この区間 は24cmになり,平均値±2SDに相当すると考えると,4×SDが 24cmということで,SDを6cmと見積もること ができる.

 注意しなければならないのは,平均値±2SDの性質が成り立つのは,分布が左右対称な正規分布に近いとき に限られる.

2)SDの問題点(正規分布からかけ離れた場合)

 表 1に示すデータは血中の甲状腺刺激ホルモン(TSH: thyroid stimulating hormone)の濃度を97人の患者に ついて測定したものである.

表1 TSHの血中濃度(単位 μU/ml)

 97人分の生データをそのまま表記すると冗長であり,何らかの指標に要約しない限り,結果を解釈するのも困 難である.データを要約するため,論文等では通常は,平均値とSDが示さ,この例では次のようになる.

   N:97  平均値:2.84   SD:6.79    平均値±SD :(-3.95 ~ 9.63)

   平均値±2SD:(-10.74 ~ 16.42)

 平均値±SDを計算すると,血中濃度であるので,TSHは本来,負の値はとりえないのに,区間が負の値を 含んでしまう.この原因は図3からわかるようにTSHの分布が 57.00,24.30という外れ値を含み,正規分布とは かけはなれた分布形をとっているためである.

0.06 0.13 5.22 0.72 1.14 0.05 0.09 2.41 3.36 0.45 2.99 3.42 2.74 0.37 0.87 1.15 0.84 0.83 3.16 0.05 0.09 0.12 0.08 12.66 0.12 6.94 3.42 8.44 0.07 1.29 1.35 0.07 2.90 6.64 0.05 4.42 1.85 0.29 1.11 1.00 0.20 1.84 1.26 0.05 18.37 9.17 1.48 5.85 1.62 0.65 0.16 0.06 1.73 0.10 13.25 1.43 0.07 1.81 2.36 1.51 1.29 24.30 0.08 0.78 6.01 0.47 0.38 0.07 0.07 0.09 0.76 1.02 1.89 2.08 0.69 0.08 0.78 0.06 0.51 1.01 3.40 0.34 3.67 1.10 0.50 2.44 12.30 0.14 0.61 2.43 1.42 0.34 0.05 0.07 57.00 0.05 1.02

(5)

 

      

図3 TSHのヒストグラムと箱ヒゲ図

 実は外れ値を含む分布に対しては,平均値とSDで分布を要約することには大きな問題がある.この例では,

平均値±SDの区間には97個中91個(94%),平均値±2SDの区間には97個中95 個(98%)の観測値が含まる.

このようにSDではTSHのバラツキを過大に評価してしまう.

ではTSHのように正規分布とかけ離れている場合,どのようにデータを要約すればよいだろうか.歪んだ分布 では平均値は外れ値に引っ張れてしまうので,分布の中心位置を表す指標として適切ではない.実際,TSHにつ いては平均値の2.84より大きな値をとるデータは22個(23%)に過ぎず, 平均値 2.84が分布の中心とはいえない.

代わりに50%点であるメディアン(median)で分布の中心を要約する必要がある.メディアンは中央値ともよばれ,

データを大きさの順に並び替えたとき真ん中の点(50%点)である.

 メディアンを拡張して,10%点や20%点を定義することができる.大まかにいうと,100 個データがある場合,

大きさの順に並び替えたとき,下から10 番目,20 番目の点がそれぞれ10%点,20%点である.これらの%点を 利用することによって,データがある確率でバラツク範囲を示すことが可能になる.例えば 15%点と85%点,2.5%

点と97.5%点によってそれぞれ,70%と95%のデータが含まれる区間を示すことができる.TSHの例では 15%点~ 85%点:(0.07 ~ 3.67)

 2.5%点~ 97.5%点: (0.05 ~ 18.37)

(6)

となる.平均値±SDと異なり,負の値を含まない.また区間の幅が平均値±SDに比べて狭く(特に15%点~

85%点で)なっている.この狭い区間の中に70%のデータが含まれることになる.しかし実際には15%点~ 85%

点を示す習慣はなく,代わりにバラツキの大きさの指標として,データの半分が含まれる範囲25%点~ 75%点 を示すことがある.またこの2点の差を四分位範囲(Inter Quartile Range, IQR)とよぶ.データを4分して,上 側1/4と下側1/4を除いた範囲という意味である.四分位範囲自体は論文に記載されることはあまりないが,箱 ヒゲ図(図3 参照)では,箱の左端が 25%点,右端が 75%点であり,箱ヒゲ図を描けば箱の長さが四分位範囲 を表している.

まとめると,TSHのように外れ値を含む分布については,平均値とSDの代わりに次のようにデータを要約する のが望ましいといえる.

メディアン(1.01) 25%点~ 75%点(0.13 ~ 2.43) 四分位範囲(2.30)

TSHでは四分位範囲が小さいことから,多くのデータが狭い範囲に集中していることがわかる.もちろんこれ らの要約指標とは別に,他のデータとは大きく外れた値があった点を,報告する必要がある. 

 さて,このように外れ値を含む分布について,平均値とSDによってデータを要約するとどのような問題が生じ るだろうか.平均値とSDは少数の外れ値を含めるか否かによって,値が大きく異なってしまい,外れ値に過度 に大きな影響を受ける.外れ値は,単位の間違い等のデータの入力ミス,試薬の調合の不具合,希釈の間違い 等の測定のミスによって生じた可能性がある.あるいは,TSHの例では,特殊な疾患を持った患者が混入した のかもしれない.もしこれらの原因で外れ値が生じたのであれば,要約統計量は,当然,外れ値を除いて計算 し直す必要がある.TSHのデータでは,外れ値として57.00,24.30の2つのデータが含まれていた.この2つの 値を除くと,要約統計量がどれくらい変化するか表 2に示した.

表 2 外れ値を除いた場合の要約統計量

 たった2つの外れ値を除くことによって,平均値は2.84から2.04,SDについては6.79から3.21と半分以下に なる.このように平均値やSDは,外れ値の存在によって大きな影響を受ける.これに対しメディアンと四分位範 囲は外れ値の影響を受けにくい指標である.TSHの例では,外れ値を除いても,メディアンは1.01が1.00,四 分位範囲は2.30から2.29とほとんど変化しない. N=97のときメディアンはデータを大きさの順に並べ替えたと きの,上から49 番目の点になるのに対し,N=95のときは48 番目の点になる.外れ値を除いても,メディアンは 49 番目の点が 48 番目の点に変わるだけである.仮に桁が違っているような測定値が混じっても,分布の中心付 近は,大きな影響は受け難くなっている.外れ値の生じた理由が特定できれば,その値を捨てて可能であれば 再測定すればよいが,医薬研究では,しばしば外れ値が生じた原因が不明の場合が多く,このため,外れ値 の有無にかかわらず安定した結果を与える,メディアンと四分位範囲の使用が推奨される.

このように,分布の要約には明らかにメディアンの方が好ましいのに,論文等で平均値が多く用いられるのは,

後述の平均値とSE(標準誤差)の関係のためであるが,少なくとも,AST(アスパラギン酸アミノトランスフェラー ゼ), ALT(アラニンアミノトランスフェラーゼ)のように肝臓に障害があると,桁が違うような測定値が出る肝機能 検査値等では,機械的に平均値を計算する前に,データをグラフ化して外れ値を検討する必要がある.

外れ値含む 外れ値除く

N 97 95

平均値 2.84 2.04

SD 6.79 3.21

メディアン 1.01 1.00

四分位範囲 2.30 2.29

(7)

3) 変動係数(CV:CoefficientofVariation)

 身長と体重はどちらのバラツキが大きいだろうか.日本人の成人男子の身長は平均が172でSDが 6 程度,体 重は平均が 63でSDが10 程度となる.したがって,SDの絶対値が大きい体重の方が,バラツキが大きいといえ るだろうか.実はSDでは身長と体重のバラツキの大きさを比較することはできない.なぜなら身長と体重では単 位が異なるからである.6cmと10kgを比較することはできない.身長のSDは6cmで,体重のSDは10kgだが,

身長の単位をcmではなく,mmにすれば,SDは60mmになり,見かけ上絶対値は,体重のSDより大きくなる.

これに対し,単位が異なるものの相対的なバラツキを表す指標が変動係数で定義は次のようになる.

 平均値とSDは生データと同じ単位を持つ要約指標である.変動係数は標準偏差を平均値で割ることによって,

分布の中心位置に対する相対的なバラツキの大きさを評価し,%表示する.平均値もSDも同じ単位を持つので,

割り算した変動係数は無次元の量になる.変動係数は身長では3.5%,体重では16%と,体重の方がかなり大き くなる.これは,身長が個人の高さだけで決まるのに対し,体重は,個人の垂直方向の高さに加えて,横幅の 変動にも影響を受けるからである.

3.平均値の2 つの性質とSE

  SEの意味について説明する前に,平均値の2つの重要な性質を述べる.外れ値を含む分布を代表させる指 標としてはメディアンの方が適切なのに,平均値を用いることが圧倒的に多いのは,平均値にはメディアンには ない次の2つの性質があるためである.元の分布形によらずに(この点が重要で,正規分布である必要はない),

平均値については次の2つの性質がある.

① 平均値の分散 (バラツキ)は生データの1/N,標準偏差に直せば 1/   になる.

② ある程度 Nが大きくなれば,平均値の分布は正規分布になる.

 生データそのものより,繰り返し測定を行って平均値を計算した方が,統計的な推定精度が増して,バラツキ が小さくなることは直感的に理解できるが,そのバラツキが小さくなるオーダーが,分散で1/Nである.

 ②については分かりにくいのでA),B),C)の3つの実験によって,その意味を確認してみる.

 A) 0−1の一様分布(0 ~ 1の間を等しい確率でとる)にしたがう乱数を1万個発生(これを生データとよぶ).

 B) 一様分布にしたがう乱数を4万個発生させ,4個づつ組にして平均値を計1万個計算.

 C) 一様分布にしたがう乱数を9万個発生させ,9 個づつ組にして平均値を計1万個計算.

 A),B),C)について1万個の結果を集計すると表 3のようになる.

表 3をみると,A),B),C)いずれでも1万個のデータの平均値は0.5に近くなるが,標準偏差はA)>B)>C) の順になる.データの平均値をとると生データに比べてバラツキが減って精度が高くなる.4個の平均値の分散は,

生データの分散の約1/4(標準偏差は1/2),9 個の平均値の分散は,約1/9(標準偏差は1/3)となることが確認 できる.

表3 実験の結果

         平均値  標準偏差  分散 A) 生データ 0.504 0.289 0.0834 B) 4個の平均値 0.502 0.143 0.0205 C) 9 個の平均値 0.500 0.096 0.0092

(8)

図4 乱数実験の生データと平均値のヒストグラム 

A) 生データのヒストグラム

B) 4個の平均値のヒストグラム

C) 9 個の平均値のヒストグラム

(9)

 分布形の方はどうだろうか? 図 4のA)をみると生データの分布は0 ~ 1の値を一様に等しくとる平坦な分布 になる.これに対し,4個の平均値の分布はB)のようになる.生データの分布とは異なり,きれいな山型の分布 になる.どうして分布形が大きく変化するのだろうか.4個のデータの平均値が1に近い値をとるためには,4回 続けて1に近い値が出る必要があるが,このような事象が起きる確率は,あまり高くはない.むしろ2回,1に 近い値が出れば,残りの2回は,0に近い値が出て,平均をとれば0.5に近くなるような事象の方が,確率的に は起き易いといえる.したがって,分布は中心の0.5 付近に集中し,平均値の分布は山型の分布に近づく.この 図だけみれば,多くの人は分布形を正規分布と判断するのではないだろうか.9 個の平均値の分布も同様にきれ いな山型の分布になる.平均値の分布が正規分布で近似できることを統計学では中心極限定理(central limit theorem)とよぶ.すなわち中心とは平均値のことで,極限とはNを大きくすることを意味する.平均値の分布は Nを大きくすると正規分布になる.統計学ではしばしばデータの分布に正規分布を仮定して統計解析を行う.こ の根拠となるのが,中心極限定理である.元のデータは正規分布でなくても,平均値や和の分布は正規分布と みなすことができる.1つの代表例はセンター入試の総得点の分布で,きれいな正規分布になる.理由は,総得 点が,各問題に対する得点の和になっているためである.各問題の得点は,0か5点の2値しか取り得ない離散 的な分布でも,その和の分布は中心極限定理によって,正規分布になる.

 平均をとることによって,生データに比べて,バラツキが小さくなることを①の性質は示している.小さくなる 程度が,分散の世界で1/Nで,その平方根をとったSDでは1/  になる.SEはSD/  として計算された,

すなわちSEは平均値のバラツキの大きさ(推定精度)を表す指標である.SEはStandard Errorの略ですが,よ り正確な表現は,Standard Error of the meanである.

4.SDとSEの使い分けの指針

 論文において,SDとSEの使い分けの指針を説明する.

1)論文におけるSDとSEの使用頻度

 まず論文でSDとSEの使われている割合を,1993 年に調べた結果を表4に示した.

表4 論文におけるSDとSEの使い分け

 表4をみると,相対的には毒性関係の論文(AとB)ではSD,薬理関係(CとD)ではSEが多く使われる傾 向が確認できる.最近の日本のジャーナルの動向を調べるために2000 年代にJournal of Pharmacological Sciences(薬理系) The Journal of Toxicological Sciences(毒性系)を調査した.その結果,薬理系ではSD が15 報,SEが 86 報,毒性系ではSDが 31報,SEが 16 報と1993 年と同様の傾向であった.

 薬理実験では薬効の分布の平均的な変化を推定することが重要な目的になる.もちろん平均的には反応が変 化せずに,少数の個体にのみ薬効が出現することも考えられるが,このような薬物は存在しても薬剤として治療

雑誌 巻 年 SD SE 計

A Toxicology 77-81 1993 19 38 57

    (%) 33 67 100

B J.Tox.Sci. 15-18 1993 34 18 52

    (%) 65 35 100

C Br.J.Phamacol. 108-110 1993 4 134 138

    (%) 3 97 100

D日本薬理学雑誌 101-102 1993 3 25 28

    (%) 11 89 100

(10)

には使いにくい.理想的な薬剤は,どの個体でも同じように変化する,すなわち平均値がシフトする効果が望ま しい.

 血圧の降圧薬を例にとれば,薬物を投与することによって,血圧が平均的にどれくらい変化するかが薬理実験 における興味の対象である.しかしデータはバラツキを伴うため,平均値がどの程度,信頼がおけるかを示す必 要があり,この目的のために使われるのが SEである.

 これに対し毒性試験では.もちろん平均的な効果の推定にも興味はおかれるが,生データのバラツキの大き さ自体にも大きな関心がある.なぜなら平均値は大きく変化しなくても,少数の個体の値が大きく変化し,バラ ツキが大きくなっていれば,それは毒性の発現を示している可能性がある.このように毒性試験では平均値の推 定精度に加えて,相対的には,生データのバラツキにも強い関心がある.したがって,平均値の推定精度に興 味が集中する薬理学ではSE,生データのバラツキにも興味がある毒性学ではSDが多く使用される傾向がある.

SDとSEを使い分ける場合,生データのバラツキを表現したいのか,平均値の推定精度を表したいのか,要約 の意図を考える必要がある.前者であれば SD,後者であれば SEを用いる必要があり.特に複数群の平均値間 の有意差検定の結果を,一緒に表記する場合には,平均値の信頼精度を示すために,SEを表記する必要がある.

SEはSDより必ず小さくなるので,見栄えはSEの方がよくなり,これが SEが好んで用いられる理由の1つにもなっ ている,見栄えではなく目的によって,使い分ける必要がある.

2)サンプルサイズとの関係

 SDは生データのバラツキを表しますので,サンプルサイズ(N)を変えても本質的に値は変わらない.これに 対しSEは1/   のオーダーで小さくなり,Nを大きくすれば0に近づく.SEはNに依存した指標であるので,

使用する場合には,Nがいくつであるか明記する必要がある.

3)分布に対する仮定

 SDとSEでは分布の仮定に対する制約条件が異なる.SDが生データのバラツキを表す尺度として適切である のは,分布が正規分布に近いときに限定される.外れ値を含んでいるような場合には,SDではなく四分位範囲 を示す必要がある.これに対しサンプルサイズNがある程度大きくなれば,中心極限定理によって平均値の分布 は正規分布に近くなるので,SEはNが大きくなれば,分布形によらず平均値の推定精度を表す適切な指標となる.

表5 SDとSEの特徴のまとめ

参考文献

浜田知久馬 新版 学会論文発表のための統計学 真興交易医書出版部 2012

項目 SD SE

意味 生データのばらつき 平均値の推定精度

N 依存しない 1/  で小さくなる

胸腺重量の例 66.9 21.2

分布に対する仮定 正規分布が前提 Nが大きくなれば必要なし

参照

関連したドキュメント

鈴木 則宏 慶應義塾大学医学部内科(神経) 教授 祖父江 元 名古屋大学大学院神経内科学 教授 高橋 良輔 京都大学大学院臨床神経学 教授 辻 省次 東京大学大学院神経内科学

理工学部・情報理工学部・生命科学部・薬学部 AO 英語基準入学試験【4 月入学】 国際関係学部・グローバル教養学部・情報理工学部 AO

○事 業 名 海と日本プロジェクト Sea級グルメスタジアム in 石川 ○実施日程・場所 令和元年 7月26日(金) 能登高校(石川県能登町) ○主 催

標値 0 0.00% 2018年度以上 2018年度以上 2017年度以上

浮遊粒子状物質の将来濃度(年平均値)を日平均値(2%除外値)に変換した値は 0.061mg/m 3 であり、環境基準値(0.10mg/m

学識経験者 小玉 祐一郎 神戸芸術工科大学 教授 学識経験者 小玉 祐 郎   神戸芸術工科大学  教授. 東京都

講師:首都大学東京 システムデザイン学部 知能機械システムコース 准教授 三好 洋美先生 芝浦工業大学 システム理工学部 生命科学科 助教 中村

   遠くに住んでいる、家に入られることに抵抗感があるなどの 療養中の子どもへの直接支援の難しさを、 IT という手段を使えば