アプライドセラピューティクス Vol.3 No.2, pp 37-46, 2012 < 教育資料 > 医薬データの要約 (SD( 標準偏差 ) と SE( 標準誤差 )) 浜田知久馬 Chikuma Hamada 東京理科大学工学部経営工学科東京都新宿区神楽坂 1-3 TEL:

(1)

アプライド・セラピューティクス Vol.3 No.2, pp 37-46, 2012

＜教育資料＞

医薬データの要約

（SD（標準偏差）とSE（標準誤差））

浜田知久馬 Chikuma Hamada

東京理科大学工学部経営工学科

〒162-8601 東京都新宿区神楽坂 1-3 TEL：03-5228-8712

Keywords：標準偏差，標準誤差，変動係数，四分位範囲

（Correspond auther : [email protected]）

要　約

　医薬研究で，データを要約するときに，平均値±○○というような表現をよく見かけるが，○○

として，SD（標準偏差），または標準誤差（SE）を用いる習慣がある．前者は生データのバラツキの大きさ，後者は平均値の推定精度を表す指標である．本稿ではこの2つの指標の意義と使い分けを中心に解説する．

(2)

1．SD（標準偏差）とSE（標準誤差）の定義

図1 マンハッタングラフ

　図1はある論文からとったものだが，4群の平均値が棒で示され，また平均値からヒゲを伸ばしている．ニューヨークの摩天楼の高層ビル街のような形状なので，この図はマンハッタングラフとよばれたりする．このヒゲの付け方にはいくつかの流儀（SD，SE，2SD，2SE等）があるが，論文によっては，何を表示したかが明確に記述されてない例もみられる．またデータを要約するときに，平均値±○○というような表現をよく見かけるが，○○

として，SD（標準偏差），または標準誤差（SE）を用いる習慣がある．本稿ではこの2つの指標の意義と使い分けを中心に解説する．

　SDはstandard deviation，SEはstandard errorの略である．論文等ではこの2つの指標が混同されている例がみられるが，意味は全く異なる．

　標準偏差は生データのバラツキの大きさを表す指標であり，N回の測定値ｙ1，ｙ2，･･･，ｙNに基づいて次のように計算される．

　Vは分散（variance）と呼ばれ，統計学ではバラツキの大きさを表す指標である．この平方根をとったものが SDである．ここで　は平均値，Nは測定回数サンプルサイズを示している．deviationは偏差を意味し，平均と個別のデータの差の2 乗和を計算し，それを標準化（平均化）するためにN-1で割ったものが分散である．Nで

(3)

割ればよさそうなものだが，標本平均ではなく真の平均値からのバラツキを評価するには，N-1で割った方が偏りが小さくなり，このため正確には不偏分散とよばれる．分散は2 乗のオーダーでバラツキの大きさを測る指標で，

この平方根をとったものが SDで，個別データと同じ単位を持つ．SEは，SDを　　で割って求めるが，Nは1 以上なので，SDよりSEは必ず小さくなる． SDに対してSEはN=4のときは1/2，N=9のときは1/3になる．

ここでは雄ラット10匹の胸腺重量でSDの計算例を示す．

計算例）雄ラットの胸腺重量（mg）のデータ 196 275 306 247 342 150 256 362 256 338

2．SDの理論的な根拠と問題点

1）SDの理論的な根拠（正規分布に近い場合）

SDは生データのバラツキの指標で，Nがある程度大きく，分布形が左右対称の山型の正規分布に近いときは

図2　正規分布と平均±k×SD 　

　平均値±SDの範囲にデータの入る確率: 68％

　平均値±2SDの範囲にデータの入る確率: 95％

　平均値±3SDの範囲にデータの入る確率: 99.7％

になる．この性質を利用して，臨床検査の正常値を平均値±2SDで示す場合がある．すなわち95% 程度の人が分布する範囲を正常範囲として表す．すると，外れる人は5% 程度になる．

　胸腺重量の例で，計算してみると

　平均値±SD＝ 272.8± 66.9＝205.9 ～ 339.7 　平均値±2SD＝272.8±2×66.9＝139.0 ～ 406.6 となる．

　平均値±SDを外れるデータは150,196,342,362の4つで，10 個中6 個（60%）のデータはこの範囲に入っている．

(4)

また平均値±2SDの範囲には10 個のデータが全て含まれる．胸腺重量は正規分布に近いので，平均値±SD入る個数は，理論値に近くなっている．

　このように，正規分布の場合，平均値とSDによって，データがある確率でバラツク範囲を示すことができる．

この性質を利用したのが偏差値である．偏差値とは平均を50，標準偏差を10に基準化する．したがって，偏差値では，平均値±SDは40~60，平均値±2SDは30~70，平均値±3SDは20~80に相当する．試験の偏差値が 80を越えた経験がある人はほとんどいないはずである．なぜなら正規分布を前提とするならば，平均値

＋3SDを越えることはほとんどありえないからである．

・SDの見積もり

　分布の標準偏差の見積もる方法を紹介する．身長の分布は性別では正規分布に近くなることが知られている．

日本人の成人男子の身長の分布は，平均172cm程度であるが，SDはどれくらいだろうか．平均値±2SDの区間にほとんどのデータが入ることを利用して，SDを見積もることができる．男性の知り合いの中で，身長が最も小さい人と，大きい人を想像してみると，160~184cmの範囲のほとんどの人が入るのではないだろうか．この区間は24cmになり，平均値±2SDに相当すると考えると，4×SDが 24cmということで，SDを6cmと見積もることができる．

　注意しなければならないのは，平均値±2SDの性質が成り立つのは，分布が左右対称な正規分布に近いときに限られる．

2）SDの問題点（正規分布からかけ離れた場合）

　表 1に示すデータは血中の甲状腺刺激ホルモン（TSH: thyroid stimulating hormone）の濃度を97人の患者について測定したものである．

表1 TSHの血中濃度(単位　μU/ml)

　97人分の生データをそのまま表記すると冗長であり，何らかの指標に要約しない限り，結果を解釈するのも困難である．データを要約するため，論文等では通常は，平均値とSDが示さ，この例では次のようになる．

　　　N：97　　平均値：2.84　　　SD：6.79 　　　平均値±SD ：（-3.95 ～ 9.63）

　　　平均値±2SD：（-10.74 ～ 16.42）

　平均値±SDを計算すると，血中濃度であるので，TSHは本来，負の値はとりえないのに，区間が負の値を含んでしまう．この原因は図3からわかるようにTSHの分布が 57.00，24.30という外れ値を含み，正規分布とはかけはなれた分布形をとっているためである．

0.06 0.13 5.22 0.72 1.14 0.05 0.09 2.41 3.36 0.45 2.99 3.42 2.74 0.37 0.87 1.15 0.84 0.83 3.16 0.05 0.09 0.12 0.08 12.66 0.12 6.94 3.42 8.44 0.07 1.29 1.35 0.07 2.90 6.64 0.05 4.42 1.85 0.29 1.11 1.00 0.20 1.84 1.26 0.05 18.37 9.17 1.48 5.85 1.62 0.65 0.16 0.06 1.73 0.10 13.25 1.43 0.07 1.81 2.36 1.51 1.29 24.30 0.08 0.78 6.01 0.47 0.38 0.07 0.07 0.09 0.76 1.02 1.89 2.08 0.69 0.08 0.78 0.06 0.51 1.01 3.40 0.34 3.67 1.10 0.50 2.44 12.30 0.14 0.61 2.43 1.42 0.34 0.05 0.07 57.00 0.05 1.02

(5)

図3　TSHのヒストグラムと箱ヒゲ図

　実は外れ値を含む分布に対しては，平均値とSDで分布を要約することには大きな問題がある．この例では，

平均値±SDの区間には97個中91個（94%），平均値±2SDの区間には97個中95 個（98%）の観測値が含まる．

このようにSDではTSHのバラツキを過大に評価してしまう．

ではTSHのように正規分布とかけ離れている場合，どのようにデータを要約すればよいだろうか．歪んだ分布では平均値は外れ値に引っ張れてしまうので，分布の中心位置を表す指標として適切ではない．実際，TSHについては平均値の2.84より大きな値をとるデータは22個（23％）に過ぎず，平均値 2.84が分布の中心とはいえない．

代わりに50％点であるメディアン（median）で分布の中心を要約する必要がある．メディアンは中央値ともよばれ，

データを大きさの順に並び替えたとき真ん中の点（50％点）である．

　メディアンを拡張して，10％点や20％点を定義することができる．大まかにいうと，100 個データがある場合，

大きさの順に並び替えたとき，下から10 番目，20 番目の点がそれぞれ10％点，20％点である．これらの％点を利用することによって，データがある確率でバラツク範囲を示すことが可能になる．例えば 15％点と85％点，2.5％

点と97.5％点によってそれぞれ，70％と95％のデータが含まれる区間を示すことができる．TSHの例では 15％点～ 85％点：（0.07 ～ 3.67）

　2.5％点～ 97.5％点：（0.05 ～ 18.37）

(6)

となる．平均値±SDと異なり，負の値を含まない．また区間の幅が平均値±SDに比べて狭く（特に15％点～

85％点で）なっている．この狭い区間の中に70％のデータが含まれることになる．しかし実際には15％点～ 85％

点を示す習慣はなく，代わりにバラツキの大きさの指標として，データの半分が含まれる範囲25％点～ 75％点を示すことがある．またこの2点の差を四分位範囲（Inter Quartile Range, IQR）とよぶ．データを4分して，上側1/4と下側1/4を除いた範囲という意味である．四分位範囲自体は論文に記載されることはあまりないが，箱ヒゲ図（図3 参照）では，箱の左端が 25%点，右端が 75%点であり，箱ヒゲ図を描けば箱の長さが四分位範囲を表している．

まとめると，TSHのように外れ値を含む分布については，平均値とSDの代わりに次のようにデータを要約するのが望ましいといえる．

メディアン（1.01） 25％点～ 75％点（0.13 ～ 2.43）四分位範囲（2.30）

TSHでは四分位範囲が小さいことから，多くのデータが狭い範囲に集中していることがわかる．もちろんこれらの要約指標とは別に，他のデータとは大きく外れた値があった点を，報告する必要がある．　

　さて，このように外れ値を含む分布について，平均値とSDによってデータを要約するとどのような問題が生じるだろうか．平均値とSDは少数の外れ値を含めるか否かによって，値が大きく異なってしまい，外れ値に過度に大きな影響を受ける．外れ値は，単位の間違い等のデータの入力ミス，試薬の調合の不具合，希釈の間違い等の測定のミスによって生じた可能性がある．あるいは，TSHの例では，特殊な疾患を持った患者が混入したのかもしれない．もしこれらの原因で外れ値が生じたのであれば，要約統計量は，当然，外れ値を除いて計算し直す必要がある．TSHのデータでは，外れ値として57.00，24.30の2つのデータが含まれていた．この2つの値を除くと，要約統計量がどれくらい変化するか表 2に示した．

表 2　外れ値を除いた場合の要約統計量

　たった2つの外れ値を除くことによって，平均値は2.84から2.04，SDについては6.79から3.21と半分以下になる．このように平均値やSDは，外れ値の存在によって大きな影響を受ける．これに対しメディアンと四分位範囲は外れ値の影響を受けにくい指標である．TSHの例では，外れ値を除いても，メディアンは1.01が1.00，四分位範囲は2.30から2.29とほとんど変化しない． N＝97のときメディアンはデータを大きさの順に並べ替えたときの，上から49 番目の点になるのに対し，N＝95のときは48 番目の点になる．外れ値を除いても，メディアンは 49 番目の点が 48 番目の点に変わるだけである．仮に桁が違っているような測定値が混じっても，分布の中心付近は，大きな影響は受け難くなっている．外れ値の生じた理由が特定できれば，その値を捨てて可能であれば再測定すればよいが，医薬研究では，しばしば外れ値が生じた原因が不明の場合が多く，このため，外れ値の有無にかかわらず安定した結果を与える，メディアンと四分位範囲の使用が推奨される．

このように，分布の要約には明らかにメディアンの方が好ましいのに，論文等で平均値が多く用いられるのは，

後述の平均値とSE（標準誤差）の関係のためであるが，少なくとも，AST（アスパラギン酸アミノトランスフェラーゼ）, ALT（アラニンアミノトランスフェラーゼ）のように肝臓に障害があると，桁が違うような測定値が出る肝機能検査値等では，機械的に平均値を計算する前に，データをグラフ化して外れ値を検討する必要がある．

外れ値含む　外れ値除く

N 97 95

平均値 2.84 2.04

SD 6.79 3.21

メディアン 1.01 1.00

四分位範囲 2.30 2.29

(7)

3)　変動係数（CV：CoefficientofVariation）

　身長と体重はどちらのバラツキが大きいだろうか．日本人の成人男子の身長は平均が172でSDが 6 程度，体重は平均が 63でSDが10 程度となる．したがって，SDの絶対値が大きい体重の方が，バラツキが大きいといえるだろうか．実はSDでは身長と体重のバラツキの大きさを比較することはできない．なぜなら身長と体重では単位が異なるからである．6cmと10kgを比較することはできない．身長のSDは6cmで，体重のSDは10kgだが，

身長の単位をcmではなく，mmにすれば，SDは60mmになり，見かけ上絶対値は，体重のSDより大きくなる．

これに対し，単位が異なるものの相対的なバラツキを表す指標が変動係数で定義は次のようになる．

　平均値とSDは生データと同じ単位を持つ要約指標である．変動係数は標準偏差を平均値で割ることによって，

分布の中心位置に対する相対的なバラツキの大きさを評価し，%表示する．平均値もSDも同じ単位を持つので，

割り算した変動係数は無次元の量になる．変動係数は身長では3.5%，体重では16%と，体重の方がかなり大きくなる．これは，身長が個人の高さだけで決まるのに対し，体重は，個人の垂直方向の高さに加えて，横幅の変動にも影響を受けるからである．

3．平均値の2 つの性質とSE

　 SEの意味について説明する前に，平均値の2つの重要な性質を述べる．外れ値を含む分布を代表させる指標としてはメディアンの方が適切なのに，平均値を用いることが圧倒的に多いのは，平均値にはメディアンにはない次の2つの性質があるためである．元の分布形によらずに（この点が重要で，正規分布である必要はない），

平均値については次の2つの性質がある.

①　平均値の分散 (バラツキ)は生データの1/N，標準偏差に直せば 1/ 　　になる．

②　ある程度 Nが大きくなれば，平均値の分布は正規分布になる．

　生データそのものより，繰り返し測定を行って平均値を計算した方が，統計的な推定精度が増して，バラツキが小さくなることは直感的に理解できるが，そのバラツキが小さくなるオーダーが，分散で1/Nである．

　②については分かりにくいのでＡ)，Ｂ)，Ｃ)の3つの実験によって，その意味を確認してみる．

　Ａ) 0−1の一様分布（0 ～ 1の間を等しい確率でとる）にしたがう乱数を1万個発生（これを生データとよぶ）．

　Ｂ) 一様分布にしたがう乱数を4万個発生させ，4個づつ組にして平均値を計1万個計算．

　Ｃ) 一様分布にしたがう乱数を9万個発生させ，9 個づつ組にして平均値を計1万個計算．

　Ａ)，Ｂ)，Ｃ)について1万個の結果を集計すると表 3のようになる．

表 3をみると，Ａ)，Ｂ)，Ｃ)いずれでも1万個のデータの平均値は0.5に近くなるが，標準偏差はＡ)＞Ｂ)＞Ｃ) の順になる．データの平均値をとると生データに比べてバラツキが減って精度が高くなる．4個の平均値の分散は，

生データの分散の約1/4（標準偏差は1/2），9 個の平均値の分散は，約1/9（標準偏差は1/3）となることが確認できる．

表3　実験の結果

　　　　　　　　　平均値　標準偏差　分散Ａ) 生データ 0.504 0.289 0.0834 Ｂ) 4個の平均値 0.502 0.143 0.0205 Ｃ) 9 個の平均値 0.500 0.096 0.0092

(8)

図4　乱数実験の生データと平均値のヒストグラム　

A) 生データのヒストグラム

B) 4個の平均値のヒストグラム

C) 9 個の平均値のヒストグラム

(9)

　分布形の方はどうだろうか？図 4のＡ）をみると生データの分布は0 ～ 1の値を一様に等しくとる平坦な分布になる．これに対し，4個の平均値の分布はＢ）のようになる．生データの分布とは異なり，きれいな山型の分布になる．どうして分布形が大きく変化するのだろうか．4個のデータの平均値が1に近い値をとるためには，4回続けて1に近い値が出る必要があるが，このような事象が起きる確率は，あまり高くはない．むしろ2回，1に近い値が出れば，残りの2回は，0に近い値が出て，平均をとれば0.5に近くなるような事象の方が，確率的には起き易いといえる．したがって，分布は中心の0.5 付近に集中し，平均値の分布は山型の分布に近づく．この図だけみれば，多くの人は分布形を正規分布と判断するのではないだろうか．9 個の平均値の分布も同様にきれいな山型の分布になる．平均値の分布が正規分布で近似できることを統計学では中心極限定理（central limit theorem）とよぶ．すなわち中心とは平均値のことで，極限とはNを大きくすることを意味する．平均値の分布は Nを大きくすると正規分布になる．統計学ではしばしばデータの分布に正規分布を仮定して統計解析を行う．この根拠となるのが，中心極限定理である．元のデータは正規分布でなくても，平均値や和の分布は正規分布とみなすことができる．1つの代表例はセンター入試の総得点の分布で，きれいな正規分布になる．理由は，総得点が，各問題に対する得点の和になっているためである．各問題の得点は，0か5点の2値しか取り得ない離散的な分布でも，その和の分布は中心極限定理によって，正規分布になる．

　平均をとることによって，生データに比べて，バラツキが小さくなることを①の性質は示している．小さくなる程度が，分散の世界で1/Nで，その平方根をとったSDでは1/　　になる．SEはSD/　　として計算された，

すなわちSEは平均値のバラツキの大きさ（推定精度）を表す指標である．SEはStandard Errorの略ですが，より正確な表現は，Standard Error of the meanである．

4．SDとSEの使い分けの指針

　論文において，SDとSEの使い分けの指針を説明する．

1）論文におけるSDとSEの使用頻度

　まず論文でSDとSEの使われている割合を，1993 年に調べた結果を表4に示した．

表4 論文におけるSDとSEの使い分け

　表4をみると，相対的には毒性関係の論文（AとB）ではSD，薬理関係（CとD）ではSEが多く使われる傾向が確認できる．最近の日本のジャーナルの動向を調べるために2000 年代にJournal of Pharmacological Sciences（薬理系） The Journal of Toxicological Sciences（毒性系）を調査した．その結果，薬理系ではSD が15 報，SEが 86 報，毒性系ではSDが 31報，SEが 16 報と1993 年と同様の傾向であった．

　薬理実験では薬効の分布の平均的な変化を推定することが重要な目的になる．もちろん平均的には反応が変化せずに，少数の個体にのみ薬効が出現することも考えられるが，このような薬物は存在しても薬剤として治療

雑誌巻年 SD SE 計

A Toxicology 77-81 1993 19 38 57

　　 (%) 33 67 100

B J.Tox.Sci. 15-18 1993 34 18 52

　　 (%) 65 35 100

C Br.J.Phamacol. 108-110 1993 4 134 138

　　 (%) 3 97 100

D日本薬理学雑誌 101-102 1993 3 25 28

　　 (%) 11 89 100

(10)

には使いにくい．理想的な薬剤は，どの個体でも同じように変化する，すなわち平均値がシフトする効果が望ましい．

　血圧の降圧薬を例にとれば，薬物を投与することによって，血圧が平均的にどれくらい変化するかが薬理実験における興味の対象である．しかしデータはバラツキを伴うため，平均値がどの程度，信頼がおけるかを示す必要があり，この目的のために使われるのが SEである．

　これに対し毒性試験では．もちろん平均的な効果の推定にも興味はおかれるが，生データのバラツキの大きさ自体にも大きな関心がある．なぜなら平均値は大きく変化しなくても，少数の個体の値が大きく変化し，バラツキが大きくなっていれば，それは毒性の発現を示している可能性がある．このように毒性試験では平均値の推定精度に加えて，相対的には，生データのバラツキにも強い関心がある．したがって，平均値の推定精度に興味が集中する薬理学ではSE，生データのバラツキにも興味がある毒性学ではSDが多く使用される傾向がある．

SDとSEを使い分ける場合，生データのバラツキを表現したいのか，平均値の推定精度を表したいのか，要約の意図を考える必要がある．前者であれば SD，後者であれば SEを用いる必要があり．特に複数群の平均値間の有意差検定の結果を，一緒に表記する場合には，平均値の信頼精度を示すために，SEを表記する必要がある．

SEはSDより必ず小さくなるので，見栄えはSEの方がよくなり，これが SEが好んで用いられる理由の1つにもなっている，見栄えではなく目的によって，使い分ける必要がある．

2）サンプルサイズとの関係

　SDは生データのバラツキを表しますので，サンプルサイズ（N）を変えても本質的に値は変わらない．これに対しSEは1/　　のオーダーで小さくなり，Nを大きくすれば0に近づく．SEはNに依存した指標であるので，

使用する場合には，Nがいくつであるか明記する必要がある．

3）分布に対する仮定

　SDとSEでは分布の仮定に対する制約条件が異なる．SDが生データのバラツキを表す尺度として適切であるのは，分布が正規分布に近いときに限定される．外れ値を含んでいるような場合には，SDではなく四分位範囲を示す必要がある．これに対しサンプルサイズNがある程度大きくなれば，中心極限定理によって平均値の分布は正規分布に近くなるので，SEはNが大きくなれば，分布形によらず平均値の推定精度を表す適切な指標となる．

表5 SDとSEの特徴のまとめ

参考文献

浜田知久馬　新版　学会論文発表のための統計学　真興交易医書出版部　2012

項目 SD SE

意味生データのばらつき平均値の推定精度

N 依存しない 1/　　で小さくなる

胸腺重量の例 66.9 21.2

分布に対する仮定正規分布が前提 Nが大きくなれば必要なし

アプライド セラピューティクス Vol.3 No.2, pp 37-46, 2012 < 教育資料 > 医薬データの要約 (SD( 標準偏差 ) と SE( 標準誤差 )) 浜田知久馬 Chikuma Hamada 東京理科大学工学部経営工学科 東京都新宿区神楽坂 1-3 TEL: