第
1
章 統計学とは何か
自然現象、社会現象は多数の要因が複雑にからみあい、さまざまな出来事が生じている.私 たちは、これらの現象を客観的に理解するために、いろいろなデータを収集し分析している. この授業では、データ分析の方法を身につけ,統計学の基礎を理解し,実際に分析を.各自の 研究でデータ分析ができるようになることを目標とする。まずデータの基礎的な分析法(代表 値、ばらつき、散布図、回帰分析)を学び(4,5月)、次に確率および確率変数を学ぶ(6,7月). その後(9月以降)確率に基礎とした統計的分析を学ぶ。
1.1
データの種類
1.1.1
測定の尺度による分類
測定の尺度は、Stevens による4つの分類が良く知られている.この分類は、名義尺度、順 序尺度、間隔尺度、比尺度1である。
名義尺度は、性別「男、女」や、産業の分類「第一次、第二次、第三次産業」などのように 複数カテゴリーに分類されるような尺度。男性=1, 女性=2のように便宜的に数値を付与する場 合もあるが、本来数値的意味はない尺度である。
順序尺度は成績の「不可、可、良、優」のように順序に意味のあるような尺度である.満足度 などのアンケート調査で「とても不満、不満、どちらとも言えない、満足、とても満足」のよう に5段階で評価することがあるが、これも順序尺度の例である.順序尺度に対して、「1,2,3,4,5」
のような数値を割り当てることもあるが、便宜的なものであり、使い方には注意が必要である.
間隔尺度は、ある対象が他よりある単位によって∼だけ多い(少ない)といえる尺度.間隔 のみが意味を持つ.摂氏、華氏などの温度が間隔尺度の例である.気温10℃が5℃の2倍熱い
という意味はない。
比尺度(比例尺度)とは、ある対象が他の何倍である、といえる尺度である.長さ、重さ、広 さ、金額などのような量を測る尺度は比尺度である.
測定の尺度が名義尺度あるいは順序尺度であるような変数を質的変数といい、そのような変 数について得られたデータを質的データという。また、測定の尺度が間隔尺度あるいは比尺度 であるような変数を量的変数といい、そのような変数について得られたデータを量的データと いう。
第
2
章
1
変数データ分析
この章では,1変数データの分析手法を学ぶ.量的データの分布状況を見る手段である度数
分布表とヒストグラム,データの代表値,データの散らばりの尺度,の順に説明する.ここで 学ぶ方法は統計学の中でも最も基本的である.
2.1
ヒストグラム
1変数データの分析で最も基本的なのが,データの分布の状況を見ることである.図 2.1は,
2010年7月−2011年2月の日経平均株価の収益率1のヒストグラムである.
度数分布表 : まずデータが含まれる範囲を複数の区間に分ける. この各区間のことを階級とい い, 各区間の長さを階級幅という. 次に各区間に含まれるデータの個数(度数という)を数え る. 階級毎に度数を表示したのが度数分布表である.
ヒストグラムの描き方: 度数分布表の数値を用いて,横軸の各階級を底辺とし度数が面積に比 例するように柱を描いた図がヒストグラムである. 日経平均収益率の分布がおおよそ左右対称 であることがわかる.
Histogram of Nikkei$return
Nikkei$return
Frequency
−0.04 −0.03 −0.02 −0.01 0.00 0.01 0.02 0.03
0
5
10
15
20
25
30
図 2.1: 日経平均収益率のヒストグラム
経済・経営データでは,分布が左右対称でないものも多い.図 2.2は,平成22年の23区住
居地域の公示価格データ(単位は円/m2)のヒストグラムである.20−80万円の範囲に多く
のデータがあるが,100万円を超えるデータもそれなりにあり,右側に伸びている.このよう
な分布は右に歪んだ分布という.経済データでは分布が右に歪んでいることがよくある(所得,
貯蓄など).逆に左側にすそが伸びている場合,左に歪んだ分布という.
Histogram of kouji_23ku$kakaku
kouji_23ku$kakaku
Frequency
0 500000 1000000 2000000 3000000
0 50 100 150 200 250
図 2.2: 23区住居地域の公示価格データのヒストグラム
準備:シグマ記号について
数列の和を意味するシグマ記号の定義を説明する.
x1, x2, . . . , xnを数列とする.統計学では,これらは数値データを意味する.
定義
✓ ✏
n
∑
i=1
xi =x1+x2+· · ·+xn
✒ ✑
つまり
n
∑
i=1
xiはiが1,2, . . . , nと変わるときの xiの和を意味する.
また,数aに対して
n
∑
i=1
a=a+a+· · ·+a
| {z }
n個
=na
と定義する.
シグマ記号の性質
✓ ✏
(1)
n
∑
i=1
(xi +yi) = n
∑
i=1
xi+ n ∑ i=1 yi (2) n ∑ i=1
axi =a n
∑
i=1
xi
✒ ✑
以下の問題を解き,ノートに書きなさい.
問題1 シグマ記号の定義をノートに書きなさい.
問題2 シグマ記号の性質(1),(2)の証明をしなさい.
n
∑
i=1
(axi+byi) = a n
∑
i=1
xi+b n
∑
i=1
yi
2.2
データの代表値
:
平均
,
メディアン
,
モード
ヒストグラムよりもさらにデータを要約して,データの特徴を表すいくつかの数値を求める ことも多い.まず,1つの数値でデータを代表させようとする場合,これをデータの代表値と いう.まず,データをx1, x2. . . . , xn で表そう.
2.2.1
平均
データx1, x2. . . . , xnの平均は,
¯ x= 1
n
n
∑
i=1
xi
で定義される.平均は平均値とも呼ばれる.
平均の性質1
n
∑
i=1
(xi−x¯) = 0
次のような思考実験を考えてみる. ものさしの形の板があり,目盛が記入されている. この板の
x1, x2. . . . , xnの各位置に同じ重さのおもりを一つずつ置く. 平均の性質1から,平均x¯の位置に
支点をおけば, この板はちょうど釣り合うことがわかる. つまり, ¯xの位置は重心になっている ことがわかる. このことを知っていると,平均の位置の見当がつくことがある.
平均の性質2 平均は外れ値に引っ張られやすい.
ただし,外れ値とは他のデータの値からかけ離れて大きい値,あるいは小さい値のことをいう.
例 2.1. 以下の数値はある会社の従業員の年間所得(万円)が以下であるとする.
330,280,230,240,390,290,340,1580
このときx¯= 460(万円)と計算できる.この会社の従業員8人のうち7人は所得が平均460
万円よりも小さい.平均が1つの大きな値1580万円に引っ張られてしまっていることがわかる.
2.2.2
メディアン
メディアン(中央値)は,データを小さいものから大きいものへ順番に並べた時に中央に位置
する値である.大きさの順に並べたデータを
で表す.メディアンは
M d=
{
x(n+1
2 ) nが奇数の場合,
1 2
{
x(n/2)+x(n/2+1) }
nが偶数の場合.
で定義される.メディアンは外れ値に影響を受けにくい特徴がある.たとえば, データ5,10,2
のメディアンは5であり,データ2,6,9,12のメディアンは7.5 である. 例2.1では, 年間所得の メディアンは290万円である. メディアンが外れ値の影響を受けにくいことを,メディアンはロ
バスト(頑健)であるということがある.
2.2.3
モード
モード(最頻値)とは,ヒストグラムを描いた時に高さが最も高い階級の階級値(階級の真ん
中の値)のことをいう.したがって,モードは階級の選び方によって変わる.モードが含まれ る階級の度数が一番多いことになる.
2.3
モード,メディアン,平均の関係
ヒストグラムを描くことによってデータの分布の形を知ることができる.峰が一つの分布を
単峰型の分布という.また,峰が二つの分布を双峰型の分布という.単峰型で,右に歪んだ分 布ではモード<メディアン<平均,の関係がある2.左に歪んだ分布では,平均<メディアン
<モード,の順番になる.
図 2.3は平成23年度の世帯所得の相対度数のヒストグラムである.世帯所得の分布は単峰型 で,右に歪んだ分布であることがわかる.図の上に示されているように,モードは350万,メ
ディアンは427万,平均は528万である.
図 2.3: 平成23年度の世帯所得のヒストグラム(厚生労働省HPより転載)
2.4
四分位数
データの分布の特徴をとらえるのに四分位数が使われることがある.データを大きさの順番 に並べ,メディアンを境にデータを2つの部分に分ける.2つに分けたうち,小さい値の方の データのメディアンを第1四分位数という.2つに分けたうち,大きい値の方のデータのメディ アンを第3四分位数という.データのメディアンを第2四分位数ともいう.これらを四分位数
という.つまり, 第1四分位数以下のデータの数は全体の1/4, 第2四分位数以下のデータの数 は全体の1/2,第3四分位数以下のデータの数は全体の3/4である.
2.5
箱ひげ図
四分位数と最小値, 最大値を用いた図2.4を箱ひげ図(box-and-whisker plot)という. 箱ひげ
図により分布の様子を大ざっぱにみることができる. 特に,複数の分布を比較するときに便利で
ある(図2.5).
図 2.4: 賃貸マンションの家賃の箱ひげ図
sapporo
naha
toky
o
−10 0 10 20 30
図 2.5: 東京,那覇,札幌の気温の箱ひげ図
2.6
データのばらつきの尺度
データの特徴を把握する時に,代表値とともに重要なのがばらつきの尺度(散らばりの尺度)
である.
2.6.1
範囲,四分位範囲
データの最大値と最小値の差を範囲(レンジ)という.範囲は意味がわかりやすいが,外れ 値に影響を受けやすい.
外れ値の影響を受けにくい尺度として四分位範囲がある.四分位範囲は以下で定義される.
2.6.2
分散,標準偏差
平均は代表値の一つであった.個々の観測値の平均からの差を偏差という.
偏差=観測値−平均=xi−x¯
偏差を用いてばらつきの程度を測ることが可能である. ばらつきの尺度として用いられるのが分散で,
Sx2 =1 n
{
(x1−x¯)2+ (x2−x¯)2+· · ·+ (xn−x¯)2
}
= 1
n
n
∑
i=1
(xi−x¯)2 (2.1)
で定義される.(xi−x¯)2は,観測値xiが平均x¯から離れている程度を測っている.分散は,観
測値が平均的にどの程度離れているかを求めた値である. 分散の正の平方根
Sx =
√
S2
x
を標準偏差という.標準偏差の単位は元のデータの単位と同じであり,使いやすい.
2.7
一次式と平均
,
分散の性質
a, bを定数とする. 統計学では, データx1, x2, . . . , xnにbを乗じてaを加えて得られるデータ
bx1+a, bx2 +a, . . . , bxn+aがよく現れる. このデータに対して以下の性質がある.
(1) x1+a, x2+a, . . . , xn+aの平均はx¯+aである.
(2) bx1, bx2, . . . , bxnの平均はbx¯である.
(3) bx1 +a, bx2+a, . . . , bxn+aの平均はbx¯+aである.
分散と標準偏差については以下の性質がある.
(1) x1+a, x2+a, . . . , xn+a の分散はSx2,標準偏差はSxである.
(2) bx1, bx2, . . . , bxn の分散はb2Sx2,標準偏差は|b|Sxである.
(3) bx1 +a, bx2+a, . . . , bxn+a の分散はb2Sx2,標準偏差は|b|Sxである.
これらの性質は以下のようにまとめられる.
✓ ✏
データx1, x2, . . . , xnをa+bxi,i= 1,2, . . . , nのように一次式で変換することを考える.デー
タa+bx1, a+bx2, . . . , a+bxnの平均,分散,標準偏差はそれぞれ以下のようになる.
平均: a+bx¯
分散: b2Sx2
標準偏差: |b|Sx
である.
データの一次式による変換で特に有用なのが以下の変換である. データの標準化
✓ ✏
zi =
xi−x¯
Sx
i= 1,2, . . . , n (2.2)
この変換を標準化あるいは基準化という.標準化された値を標準化得点ということもある.
✒ ✑
標準化されたデータz1, z2, . . . , znの平均,分散,標準偏差をそれぞれz¯, Sz2,Szで表せば,z¯=
0, S2
z = 1, Sz = 1 となる. 標準化されたデータは,各観測値の全体における位置を知りたいと
きに便利である.
問題
2
問題 2.7.1.
以下は,あるたい焼き屋さんのたい焼き5つの重量である. 100,105,110,115,120
平均, 分散, 標準偏差を求めなさい.
問題 2.7.2.
5人の学生から構成されるクラスの英語の試験の点数は以下であった.
A君 B君 C君 D君 E君
英語 85, 86, 87, 88, 89
英語の点の標準偏差を求めなさい.また英語の点数の標準化したデータを求めなさい.
参考:偏差値
標準化された観測値に10をかけ50を足した値を偏差値と呼んでいる(統計学の用語ではな
い).すなわち
xi の偏差値= 50 + 10×
xi−x¯
Sx