2 データの縮約値
2.1 モードとメディアン
データの特徴・傾向を知りたいと考えたとき,データの特徴を表す代 表的な値として縮約値が用いられる.このように述べるとすぐに"平
均"を思い浮かべるかも知れないが,質的データの場合には前述の
ように平均を求めることができない.
質的なデータの場合,観測頻度が最も高いカテゴリーを モードという.
離散型の量的データの場合も最も頻度の高い測定値をモードという.
モードは,日本語では最頻値と言われている.表1.1では悪性新生 物がモードとなる.
モードは,データの分布において山が1つだけであるようなデータに 対して有効である.
順序尺度のデータや間隔尺度のデータを大きさの順に整列 させたとき,ちょうど中央に位置する測定値をメディアン また は中央値という.名義尺度のデータに対しては,メディアンが 定義できないことに注意されたい.
表 1.3 の 1 月のメディアンは, 10 日の 4.3 ℃が小さい方から 16 番目のデータであるので 4.3 ℃がメディアンとなる. 2 月の メディアンは,小さい方から 14 番目の 7 ℃と 15 番目の 6.5 ℃ の値が中央になる.このように計測値が偶数個ある場合に は,中央になる 2 つの値の平均をメディアンとする.つまり,
が 2 月のメディアンということである.
75℃ . 6 )
5 . 6 7
2 (
1
表 1.3 2006 年東京地区の平均気温(気象庁)
52
一般的には、平均値になる確率が一番高くなることを 保証しているわけでもなく、平均値を境に出現確率が 50%になっていることを保証しているわけでもない。
つまり、データに偏りが存在した場合、平均値は 真ん中の値と呼べない場合もある。
平均値について
53
そこで、数値的な意味以外で真ん中となるような値を 次のように定義している。
中央値と最頻値
中央値:その値を境に出現確率が50%となる値
(推定値は大きさの順に並べて中央に来る値)
最頻値:出現確率が一番高い値
(推定値は一番多く出てきた値)
54
例. 20人の年収が次のようなとき、平均値・中央値 最頻値はそれぞれいくらになるか。
平均値・中央値・最頻値
100万: 1名 200万: 1名 300万: 2名 400万: 3名 500万: 4名 600万: 3名 700万: 3名 800万: 1名
1000万: 1名 1億: 1名
55
平均値・中央値・最頻値
0 1 2 3 4 5
平均値:990万円
中央値:500万円
最頻値:500万円
56
左右対称でないデータに対して、平均は「真ん中」を 表す数字として適当でないことが多い。 特に平均は、
他のデータに比べてあまりにも大きい(もしくは小さい)
値があると、その値に引きずられてしまう。 そのため、
所得の例ように一部の人間が大きな収入がある場合、
平均値は感覚よりも大きな値となってしまう。この場合 は中央値・最頻値の方が感覚と一致している。
平均値・中央値について
57
分散
58