統計学の目的:データの要約
統計学は、与えられたデータを整理し、有用な情報を取り出すための 方法論である。
例: Hitomi’s English Tests
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 1 0 1 1 0 1 0 0 0 1 0 0 1 0 2 0 0 1 1 0 0 0 0 0 1 1 1 1 0 3 1 1 0 0 0 0 1 0 1 0 1 0 1 1 4 1 1 0 1 0 1 1 1 1 0 0 0 1 1 5 1 1 0 1 1 1 1 0 0 1 0 1 0 0 6 0 0 0 0 0 1 1 0 0 1 1 0 1 0 7 1 1 0 1 0 1 1 0 0 1 0 0 0 1 8 1 0 1 0 0 0 1 0 0 0 1 0 0 1 9 0 0 1 1 1 1 1 0 0 1 1 0 1 1
統計学の目的:データの要約
True Scores of 1000 Tests
Scores of randomly chosen tests
Density −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4
量的データと質的データ 定義 1 (量的データ) 表??のように、定量的な値で表しているデー タを量的データと呼ぶ。量的データには、長さ、重さ、体積、面積、 金額、温度、時間など数値でその値を測定できるものが含まれる。 統計学を履修した学生15人の身長 学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168
質的データ 定義 2 (質的データ) 表??のように、数値として観測することでは なく、あるカテゴリーに属していることや、ある状態にあることだ けがわかるデータを質的データと呼ぶ。質的データには、性別(男・ 女)、学歴(大卒・高卒・中卒)、天気(晴・曇・雨・雪)、居住地域 (都市・農村)など多くのものが含まれる。 統計学を履修した学生15人の性別 学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 性別 男 男 男 女 男 男 男 女 女 男 男 女 女 女 男
1次元データと多次元データ 定義 3 (1次元データ) 前の表のように、一人の学生に対して、1つ の観測値(身長)だけが与えられている場合、このようなデータを1 次元データ one-dimensional data と呼ぶ。 1次元データに関しては、度数分布表を描いたり平均などの代表値や 分散を求めて分析を行う。
多次元データ 定義 4 (多次元データ) 前の表のように、1つの観測対象に対して、 2つの観測値(身長・体重など)が与えられているとき、このような データを2次元データ two-dimensional data と呼ぶ。一般に、1つの 対象に対して、1つ以上の観測値、例えば、身長・体重・血圧、が与え られているとき、このようなデータを多次元データ high-dimensional data と呼ぶ。 統計学を履修した学生15人の身長 学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 体重 63 62 69 41 71 61 62 48 52 55 69 48 44 49 69
時系列データ
定義 5 (時系列データ) 表??のように、同一の対象の異なった時点で
の観測値からなるデータを時系列データ time series data と呼ぶ。時
系列データは、経済分析や気象学・天文学の現象の分析などに幅広く 利用されている。 日本の人口(単位:1000人) 年次(昭和) 15 20 25 30 35 40 45 50 55 60 人口 71,933 72,147 83,200 89,276 93,419 98,275 103,720 111,940 117,060 121,049
時系列データの例 日本の人口(単位:1000人) 20 30 40 50 60 Year 80000 90000 100000 110000 120000 Population
時系列データの例 筋電データ(握り) 0 2000 4000 6000 8000 10000 -1.5 -1 -0.5 0 0.5 1 1.5
度数分布とヒストグラム 受験者373人の統計学の試験における得点の度数分布表 階 級 階級値 度 数 相対 累積 累積 度数 度数 相対度数 0点以上 10点未満 5 12 0.032 12 0.032 10 〃 20 〃 15 10 0.027 22 0.059 20 〃 30 〃 25 19 0.051 41 0.110 30 〃 40 〃 35 42 0.113 83 0.223 40 〃 50 〃 45 72 0.193 155 0.416 50 〃 60 〃 55 82 0.220 237 0.635 60 〃 70 〃 65 54 0.145 291 0.780 70 〃 80 〃 75 38 0.102 329 0.882 80 〃 90 〃 85 25 0.067 354 0.949 90 〃 100点以下 95 19 0.051 373 1.000 合 計 373 1.00
度数分布について • 階級値:階級を代表する値で、通常階級の中間値とする。 • 度数 frequency:各階級に属する観測値の個数 • 相対度数 relative frequency:各階級に属する観測値の割合 • 累積度数 cumulative frequency:度数を下の階級から順に積み上 げたときの度数
• 累積相対度数 cumulative relative frequency:度数を下の階級か ら順に積み上げたときの相対度数
度数分布・ヒストグラム 定義 6 (度数分布) 観測値のとりうる値をいくつかの階級 class に分 け、それぞれの階級で観測値がいくつあるか度数 frequency を数え て、表にしたものを度数分布(frequency distribution)という。 定義 7 (ヒストグラムとは) 度数分布をグラフにしたものをヒストグ ラ histogram ムという。
ヒストグラムの作り方 • 階級に対して階級幅を横幅とし、柱の高さを度数とするように 定める。 • 階級数、階級幅を変化させることによって、ヒストグラムの様 子が大きく変わる。 • スタージェスの公式: 観測値の数をnとするとき、階級数を次の ように決める公式 k ≈ 1 + log n/ log 2 例えば、試験の得点の場合、 n = 373 −→ k = 9.543 · · ·
ヒストグラムの例 統計学の得点データのヒストグラム:階級数が10の場合 20 40 60 80 100 Score 0 20 40 60 80 Frequency
ヒストグラムの例(つづき) 統計学の得点データのヒストグラム:階級数が5の場合 20 40 60 80 100 Score 0 25 50 75 100 125 150 Frequency
代表値: 標本平均 定義 8 (標本平均) n 個の観測値の算術平均 ¯ y = 1 n n i=1yi = 1 n(y1+ y2 +· · · + yn−1 + yn) を標本平均 sample mean という。
代表値(つづき) 定義 9 (順序統計量) order statistics: 標本 y1, y2, · · · , yn−1, yn を小さ いものの順に y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n) 並べ替えられたものを順序統計量という。 定義 10 (メディアン(中央値、中位数)) median: 標本数 nが偶数 と奇数の場合に分ける ⎧ ⎪ ⎨ ⎪ ⎩ ymed = y(m+1) 奇数の場合: n = 2m + 1 ymed = y(m)+y2(m+1) 偶数の場合: n = 2m
代表値(つづき) 定義 11 (百分位点) percentile: ある 0 ≤ p ≤ 1 に対し、順序統計量 y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n) の 100p 番目の値を、100p% 分位点という。 定義 12 (四分位点) quantile: 順序統計量 y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n) を4等分したときの三つの分割点。 25%分位点 −→ 第1四分位点 50%分位点 −→ 第2四分位点(メディアン) 75%分位点 −→ 第3四分位点
代表値(つづき) 定義 13 (モード) mode: 度数分布表において、その度数が最大である階級の階級値。 定義 14 (ミッド・レンジ) mid-range: ymid = y(1)+ y2 (n) 注意: 最もよく使われるのが • 平均 • メディアン • モード
散らばりの尺度: 分散 定義 15 (標本分散) variance: 最もよく使われるのが標本分散である Sn2 = 1 n n i=1(yi− ¯y) 2 = 1 n
(y1 − ¯y)2 + (y2 − ¯y)2 +· · · + (yn− ¯y)2
次の計算式が便利である。 Sn2 = 1 n ⎧ ⎨ ⎩ n i=1y 2 i − n¯y2 ⎫ ⎬ ⎭
散らばりの尺度: 標準偏差/変動係数 定義 16 (標準偏差) standard deviation: 標本分散の平方根: Sn = Sn2 = 1 n n i=1(yi− ¯y) 2 標準偏差の利点: 観測値と同じ単位をもつこと。 定義 17 (変動係数) coefficient of variation: 標準偏差と平均の比: CV = 標準偏差 平均 = Sn ¯ y 変動係数の利点: 単位を持たないため、異なる母集団を比較するの に便利である。
データの標準化 • データ y1, · · · , yn に対して、一次変換を行ったもの z1 = y1 − ¯y Sn , z2 = y2− ¯y Sn , · · · zn = yn− ¯y Sn を標準化standardizationといい、z1, · · · , zn を標準得点(Z得点) standard score という。 • 標準得点z1, · · · , znの平均は0、分散は1。 • 平均50、標準偏差10となるように、標準得点に一次変換 z1 = 10z1 + 50, · · · , zn = 10zn+ 50 を便宜的に施したものが偏差値得点である。
2次元データ・散布図 定義 18 (2次元データ) two-dimensional data 1つの観測対象に対し て、2つの測定値が得られている。 例 1 (身長・体重) 表??のように、一人の学生に対して、(身長, 体 重)が測定されている。 統計学を履修した学生15人の身長と体重 学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 体重 63 62 69 41 71 61 62 48 52 55 69 48 44 49 69
2次元データ・散布図(つづき) 数学的記法: 記号で書くと、次のようになる。 (x1, y1), (x2, y2), · · · , (xn, yn) 定義 19 (散布図) scattergram 2次元データ (x1, y1), (x2, y2), · · · , (xn, yn) は、(x, y)平面上のn個の点で表せる。このような図を散布図という。
2次元データの例 統計学を履修した学生15人の身長と体重 155 160 165 170 175 Height 45 50 55 60 65 70 Weight
2次元データの例 筋電データ(握り):チャンネル1 vs. チャンネル2 -4 -2 0 2 -4 -3 -2 -1 0 1 2 3 C2
相関係数 • 変数 x の標本分散: sxx = 1 n n i=1(xi − ¯x) 2 = 1 n n i=1x 2 i − ¯x2 • 変数 y の標本分散: syy = 1 n n i=1(yi − ¯y) 2 = 1 n n i=1y 2 i − ¯y2 • 変数 (x, y) の共分散( covariance ): sxy = 1 n n
i=1(xi − ¯x)(yi− ¯y) = 1 n n i=1xiyi − ¯x¯y
相関係数(つづき) 定義 20 相関係数(correlation coefficient) 2次元データ (x1, y1), (x2, y2), · · · , (xn, yn) が与えられたとき、変数 x とy の間の相関係数は次のように定義さ れる。 r = √sxy sxxsyy = n
i=1(xi − ¯x)(yi− ¯y)
n
i=1(xi− ¯x)2ni=1(yi− ¯y)2
定理 1 (相関係数の性質: )
−1 ≤ r ≤ 1
−1 ≤ r ≤ 1 の証明
証明 定義より
r =
n
i=1(xi − ¯x)(yi− ¯y)
n
i=1(xi − ¯x)2 ni=1(yi − ¯y)2
したがって、 ai = (xi − ¯x), bi = (yi− ¯y) i = 1, · · · , n と置けば、次式を証明すればよい。 Schwarz の不等式: ⎧ ⎨ ⎩ n i=1aibi ⎫ ⎬ ⎭ 2 ≤ n i=1a 2 i n i=1b 2 i Schwarz の不等式を証明するのに、次の実数 t に関する2次関数を考 えればよい。 n i=1(ai+ bit) 2 ≥ 0
相関係数の性質: 相関係数はデータの線形変換に対して不変である。すなわち、 ui = axi+ b, vi = cyi+ d (i = 1, 2, · · · , n) に対して、 sxy √ sxxsyy = suv √ suusvv (ac > 0) ⇓ ⇓ ⇓ 演習問題
みかけ上の相関と偏相関係数 例 2 血圧の高い人は給料が高い? 事実: 血圧と給料の間に正の相関がある! ある会社で何十人かの社員に給料と血圧のアンケート調査をしたと しましょう。この結果から血圧を横軸、給料を縦軸にとって散布図を 描くと、きれいな正の相関があることが分かります。 取るべき行動(?): 給料を上げるために塩辛い味噌汁を飲み続ける? これが真の関連であるとするならば、給料を上げるためには塩辛い味 噌汁を毎日飲めば良いことになりますが、そんなことをする人はいな いと思います。
血圧と給料の関係:真実 真実: 年齢が邪魔している! 日本は年功序列社会です。基本的には年齢の上昇と共に給料は増加す るはずです。また年齢と共に血圧が上がるというのは医学的な事実で す。したがって年齢が高い人は、血圧も給料も共に高くなり、見かけ 上の相関が生じます。 定義 21 (交絡) confounding このように第3の変数が、2つの変数 両方に関連して、見かけ上の関連を生じさせる現象のことを交絡とい います。
交絡:他の例 例 3 耳たぶのしわのある人は冠動脈疾患にかかり易い? 耳たぶのしわと冠動脈疾患に相関があると一時騒がれた。 耳たぶのしわも冠動脈疾患も肥満と相関があり,肥満という第3の因 子を介して冠動脈疾患との相関を見ていたに過ぎない。 例 4 身長の高い人は成績がよい? 小学校の全学年の児童に対して、身長と成績のデータをとると,「高 い相関がある」。 交絡要因は年齢。
みかけ上の相関・偏相関係数
定義 22 (みかけ上の相関) spurious correlation: xとyに相関関係が
認められても,実際には第3要素を介しての相関である。
定義 23 (偏相関係数) partial correlation coefficient:
rxy : xとyの相関 rxz : xとzの相関 ryz : yとzの相関 変数 z の影響を取り除いたときの、x とy の偏相関係数 rxy·z = rxy − rxz ryz 1− rxz2 1− ryz2
橈骨の長い人は身長が高い?
例 5 (橈骨と身長) K. Pearson (1898)が50人の男性の身長(stature),
大腿(だいたい, femur)の長さ、上腕(じょうわん, humerus)の長さ、 脛骨(けいこつ, tibia)の長さ;橈骨(とうこつ, radius)の長さに基づ いて、次のような相関行列を得た( Krzanowski and Marriott, 1994, p.23) 大腿F 上腕H 脛骨T 橈骨R 身長S 大腿F 1 0.8421 0.8058 0.7439 0.8105 上腕H 1 0.8601 0.8451 0.8091 脛骨T 1 0.7804 0.7769 橈骨R 1 0.6956 身長S 1
橈骨の長さと身長(続き) • 相関行列によれば、身長と橈骨の相関 rSR = 0.6956 となる。 • 大腿の影響を取り除いた後の相関行列は次のようになる。 上腕H 脛骨T 橈骨R 身長S 上腕H 1 0.5682 0.6068 0.4007 脛骨T 1 0.4574 0.3569 橈骨R 1 0.2367 身長S 1 例えば、 r −r r √ √
橈骨の長さと身長(続き) さらに上腕の影響を取り除いた後の相関行列は次のようになる。 脛骨T 橈骨R 身長S 脛骨T 1 0.1772 0.1714 橈骨R 1 −0.0088 身長S 1 例えば、 rSR·HF = √rSR·F1−r2−rSH·FrRH·F SH·F √ 1−r2 RH·F = √0.2367−0.4007×0.60681−0.40072√1−0.60682 = −0.0088