• 検索結果がありません。

分布の特徴

ドキュメント内 統計学 ktatsuya77 Statistics S1 slide (ページ 30-38)

第2章  分布の特徴を探る

2.1 分布の特徴

収集されたデータを眺めていても何もわからないので,見やすくなるよ うに整理する必要がある。例えば,10人の学生の数学の得点が次のよう に与えられているとしよう。

52 65 42 55 48 62 95 74 58 52

このままでは全体の分布の様子は捉えにくいので,次のように記述して みると,より見やすくなる。

40点台 50点台 60点台 70点台 80点台 90点台

42 48

52 52 55 58 62 65

74 95

4 5 6 7 8 9

2 8 2 2 5 8 2 5 4 5

それぞれの得点範囲に入る個数を数えて表にまとめてみると次のように なる。

階級 度数 40以上50未満 2 50以上60未満 4 60以上70未満 2 70以上80未満 1 80以上90未満 0

90以上 1

これを度数分布表という。各得点範囲を一般に階級といい,各階級に入 るデータの個数を度数という。度数分布表の詳しい説明については後の 章で与えられる。

この度数分布表を棒柱グラフで表したものをヒストグラムといい,図 8(左)のようになる。

31 / 38

0 20 40 60 80 100

01234

0 20 40 60 80 100

0123456

Figure:ヒストグラム(左)10点刻み(右)20点刻み

これは10点刻みで描いたものであるが,このデータを20点刻みでヒス トグラムを描くと図8(右)のようになる。10点刻みではデータ全体を6 個に区切り,20点刻みでは3個に区切ることになる。

分布の特徴をみるには,10点刻みのヒストグラムの方が良さそうであ

1つの方法として提唱されているのが,スタージェスの公式と呼ばれる もので

(分割の個数)=1+3.32×log10(データ数) で与えられる。ここで,log10xは底が10の対数である。

スタージェスの公式の導出については本節の発展的事項に簡単な説明が 与えられている。

上の例では,log10(10) =1だから,4.32となり,5個程度に区切るのが 一つの目安になろう。

33 / 38

図9はヒストグラムの各階級の上底の中点同士を結んだ多角形を描き込 んだ図である。こうすることによって分布の大まかな特徴が捉えやすく なることもある。

20 40 60 80 100

01234

20 40 60 80 100

01234

Figure:ヒストグラムの多角形表示

データ数が大きいときにはヒストグラムの階級(分割)の数を適当に増 やしていくと多角形は滑らかな曲線に近づいていく。例えば,図10(左) は単峰で対称な分布(unimodal)を表している。測定誤差の分布は0を中 心に単峰で対称な分布になると想定してよいかもしれない。たいていの 分布は対称でないかもしれないが単峰であることが自然である。

これに対して図10(右)は2つの峰があるので双峰な分布(bimodai)と呼 ばれる。この場合,2つの峰ができる原因があると考えてその理由を突き 詰めていくと,データのもっている貴重な情報を引き出すことができる。

1章の例1で取り上げた予備校の受験生500人の数学の得点分布は図1 のように2つの峰がある双峰な分布であった。その理由として現役生と 浪人生の2つの集団から取られたデータであることがあげられた。

Figure:分布の形状(左)単峰対称(右)双峰 35 / 38

図11の左の図は右に歪んだ分布,右の図は左に歪んだ分布と呼ばれる。

平均点の高い得点分布は左に歪んだ分布,平均点の低い得点分布は右に 歪んだ分布の形状をとることが多いかもしれない。

所得の分布は1章例1の図3で示されているように右に歪んだ分布にな ることが多い。職種,年齢,性別に分けると,個々の集団の分布は図3 ほどは大きな歪みはないが,合算することにより,大きく右に歪んだ分 布として合成されることになる。

このようにデータが収集された後の最初の統計分析としてヒストグラム を描いてみることが重要である。

そこから分布の特徴や疑問点を視覚的に捉えることができ,これからど のように解析を進めたらよいか,解析の方向性を検討するに役立つ。

また統計分析結果に大きな影響を与えかねない異常値の存在の有無を確 認することもできる。異常値とは全体的な分布から離れた値のことを いう。

37 / 38

ドキュメント内 統計学 ktatsuya77 Statistics S1 slide (ページ 30-38)

関連したドキュメント