• 検索結果がありません。

モードとメディアン

ドキュメント内 Blue circle & gradation (ページ 49-58)

2 データの縮約値

2.1 モードとメディアン

データの特徴・傾向を知りたいと考えたとき,データの特徴を表す代 表的な値として縮約値が用いられる.このように述べるとすぐに"

"を思い浮かべるかも知れないが,質的データの場合には前述の

ように平均を求めることができない.

質的なデータの場合,観測頻度が最も高いカテゴリーを モードという.

離散型の量的データの場合も最も頻度の高い測定値をモードという.

モードは,日本語では最頻値と言われている.表1.1では悪性新生 物がモードとなる.

モードは,データの分布において山が1つだけであるようなデータに 対して有効である.

順序尺度のデータや間隔尺度のデータを大きさの順に整列 させたとき,ちょうど中央に位置する測定値をメディアン また は中央値という.名義尺度のデータに対しては,メディアンが 定義できないことに注意されたい.

表 1.3 の 1 月のメディアンは, 10 日の 4.3 ℃が小さい方から 16 番目のデータであるので 4.3 ℃がメディアンとなる. 2 月の メディアンは,小さい方から 14 番目の 7 ℃と 15 番目の 6.5 ℃ の値が中央になる.このように計測値が偶数個ある場合に は,中央になる 2 つの値の平均をメディアンとする.つまり,

が 2 月のメディアンということである.

75℃ . 6 )

5 . 6 7

2 (

1  

表 1.3 2006 年東京地区の平均気温(気象庁)

52

一般的には、平均値になる確率が一番高くなることを 保証しているわけでもなく、平均値を境に出現確率が 50%になっていることを保証しているわけでもない。

つまり、データに偏りが存在した場合、平均値は 真ん中の値と呼べない場合もある。

平均値について

53

そこで、数値的な意味以外で真ん中となるような値を 次のように定義している。

中央値と最頻値

中央値:その値を境に出現確率が50%となる値

(推定値は大きさの順に並べて中央に来る値)

最頻値:出現確率が一番高い値

(推定値は一番多く出てきた値)

54

例. 20人の年収が次のようなとき、平均値・中央値 最頻値はそれぞれいくらになるか。

平均値・中央値・最頻値

100万: 1名 200万: 1名 300万: 2名 400万: 3名 500万: 4名 600万: 3名 700万: 3名 800万: 1名

1000万: 1名 1億: 1名

55

平均値・中央値・最頻値

0 1 2 3 4 5

平均値:990万円

中央値:500万円

最頻値:500万円

56

左右対称でないデータに対して、平均は「真ん中」を 表す数字として適当でないことが多い。 特に平均は、

他のデータに比べてあまりにも大きい(もしくは小さい)

値があると、その値に引きずられてしまう。 そのため、

所得の例ように一部の人間が大きな収入がある場合、

平均値は感覚よりも大きな値となってしまう。この場合 は中央値・最頻値の方が感覚と一致している。

平均値・中央値について

57

分散

58

母集団と標本: 標本調査の例

ドキュメント内 Blue circle & gradation (ページ 49-58)

関連したドキュメント