第 8 章 胃癌取扱い規約に関して 76
12.3 間隔データの基本統計量
図12.2 胃癌患者年齢のヒストグラム
検診施設で実施された胃がんX線検診受診者年齢を分布曲線で表したものである.
第12章 データと記述統計 112
図12.3 胃がんX線検診受診者年齢の分布曲線
40歳前後の受診者が最も多く,ピークを形成している.もう
ひとつのピークは,定年が動機となった受診者が増える為であろう.
影響を受けにくい.なお,最頻値はカテゴリー概念の中心的統計量であり,階級幅の設定 に影響を受ける.
12.3.2 データの「広がり」を記述する統計量
データの「広がり」ないしは「散布度」を表す代表的な統計量として,以下の3つが ある.
1. 範囲range・・・最大値-最小値 2. 平均偏差mean deviation
md= 1 n
∑n i=1
|xi−x¯| (12.1)
3. 分散variance
v= 1 n
∑n i=1
(xi−x)¯ 2 (12.2)
範囲は,わずか2つのデータからの計算で,しかもその2つは最大と最小を表すいわゆる 異常値であるので,その異常な2つの値に攪乱されるという欠点がある.間隔データの 場合,平均x¯が中心を示す最適な統計量とされるので,その中心的統計量x¯からの個々 のデータの偏差(xi−x)¯ を求め,その平均を求める方法が間隔データの概念によく合う.
絶対値|xi−x¯|とするのは,負の偏差(xi−x)¯ を消すためである.負の値を消すためで あれば,偏差(xi−x)¯ を2乗して消す方法もあり,これが分散である.分散をさらに一般 化したものが以下の式である.
mq =1 n
∑n i=1
(xi−x)¯ q
上述の式は平均値の周りのq次の積率と呼ばれている.散布度を求める式としては,負 の偏差(xi−x)¯ を消す意味からq= 4やq= 6でも良いかもしれない.しかし,4乗や6 乗するのは明らかに無駄であり,最小化の観点からは最小のq= 2が良い.以上のような 最小化の観点から,散布度を表現するために分散と平均偏差のいずれが良いかを考えるた めに,平均偏差mdの中心値を一般的にaとしてみよう.平均偏差mdの値を最小化する aの値は,a= ¯xとはならない.しかし,分散vの場合は,a= ¯xとしたとき,最小にな ることが知られている.したがって,最小化原理より分散が間隔データの場合の散布度を 測る尺度に適していると言える.
ただし,分散は平均からの差(xi−x)¯ を2乗したものであるので,データの単位が2乗 されていることになる.通常の単位で大きさを比較したい場合には,分散の平方根を散布 度の尺度とすればよいことになり,これが標準偏差standare deviationと呼ばれている.
sd=√ v=
vu ut1
n
∑n i=1
(xi−x)¯ 2>0 (12.3)
12.3.3 平均値 ± 標準偏差
データの分布が正規分布*1に近い左右対称の形状を示す場合には,データを要約する方 法として平均値±標準偏差と表現する方法が用いられる.平均値µが0,標準偏差σが 1である正規分布を特に標準正規分布と呼び,以下の式で表される.
f(x) = 1
√2πexp (
−x2 2
)
(12.4)
図12.4には,標準正規分布グラフをしめした.
この場合x=−1から1までの範囲すなわちmean±SDの範囲には68.26%,x=−2 から2までの範囲すなわちmean±2SDの範囲には95.44%,x=−3から3までの範囲 すなわちmean±3SDの範囲には99.74%のデータが含まれていることになる.平均値と 標準偏差の関係から,データの大きさと広がりを予測することが出来るのである.
*1正規分布 平均値付近に集積するように分布する連続変数に関する確率分布.例えば,実験や研究におけ る測定誤差は正規分布に従って分布すると仮定することができる.
第12章 データと記述統計 114 12.712.712.7
図12.4 標準正規分布グラフ
12.3.4 中央値とパーセンタイル
中心極限定理とは,標本の平均と母集団の平均との誤差を論ずるものである.多くの場 合,母集団の分布がどんな分布であっても,その誤差は標本サイズを大きくしたとき近似 的に正規分布に従うことが知られている.独立な同一の分布に従う確率変数の算術平均の 分布は,もとの確率変数に標準偏差が存在するならば,もとの分布の形状に関係なく,変 数の数が多数になったとき,正規分布に収束するというものである.統計学において正規 分布が重要な位置を占めるのは,この中心極限定理による.実際に,自然界の事象には,
正規分布をしめすものがある.
一方で,臨床医学研究にみられるデータでは,右歪分布と呼ばれる高値に裾の長い非対 称な分布を示す場合が多い.図12.5に非対称な分布を示す例として,ある検診施設におけ る3年間のX線発見胃癌62例の腫瘍径ヒストグラムを示す.本データの平均値は23.9, 標準偏差は28.4であり,一般に23.9±28.4cmと表現される.このように,平均値と標準 偏差がほぼ同じくらいか,標準偏差のほうが大きい場合には右歪分布を示すデータである ことが多い.ただし,平均値-標準偏差(mean-SD)の値が負となり,データ範囲を推測す ることができないことから,このような時には中央値やパーセンタイル(表12.5)で表現 したほうが良い.パーセンタイルとはデータを小さい順に並べたとき,一から数えて全体
の100α%(0≦α≦1)に位置する値をいう.第1四分位数は25パーセンタイル,中央値
は50パーセンタイル,第3四分位数は75パーセンタイルである.場合によっては,10 パーセンタイルや90パーセンタイルを表示することもある.
図12.5 X線発見胃癌62例の腫瘍径ヒストグラム
表12.5 X線発見胃癌62例の腫瘍径
中央値 最小値 最大値 [25%点,75%点] 腫瘍径mm 16.0 2.0 160.0 [8.25,29.5]
この場合,腫瘍径8.25(およそ8)mm以下に全データの25%(62例中15例ほど),29.5(お
よそ29)mm以上に25%の症例が存在することが分かる.