untitled

(1)

(2)

統計学の目的：データの要約

統計学は、与えられたデータを整理し、有用な情報を取り出すための方法論である。

例： Hitomi’s English Tests

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 1 0 1 1 0 1 0 0 0 1 0 0 1 0 2 0 0 1 1 0 0 0 0 0 1 1 1 1 0 3 1 1 0 0 0 0 1 0 1 0 1 0 1 1 4 1 1 0 1 0 1 1 1 1 0 0 0 1 1 5 1 1 0 1 1 1 1 0 0 1 0 1 0 0 6 0 0 0 0 0 1 1 0 0 1 1 0 1 0 7 1 1 0 1 0 1 1 0 0 1 0 0 0 1 8 1 0 1 0 0 0 1 0 0 0 1 0 0 1 9 0 0 1 1 1 1 1 0 0 1 1 0 1 1

(3)

統計学の目的：データの要約

True Scores of 1000 Tests

Scores of randomly chosen tests

Density −3 −2 −1 0 1 2 3 0.0 0.1 0.2 0.3 0.4

(4)

量的データと質的データ定義 1 (量的データ) 表??のように、定量的な値で表しているデータを量的データと呼ぶ。量的データには、長さ、重さ、体積、面積、金額、温度、時間など数値でその値を測定できるものが含まれる。統計学を履修した学生15人の身長学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168

(5)

質的データ定義 2 (質的データ) 表??のように、数値として観測することではなく、あるカテゴリーに属していることや、ある状態にあることだけがわかるデータを質的データと呼ぶ。質的データには、性別（男・女）、学歴（大卒・高卒・中卒）、天気（晴・曇・雨・雪）、居住地域（都市・農村）など多くのものが含まれる。統計学を履修した学生15人の性別学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 性別男男男女男男男女女男男女女女男

(6)

1次元データと多次元データ定義 3 (1次元データ) 前の表のように、一人の学生に対して、1つの観測値（身長）だけが与えられている場合、このようなデータを1 次元データ one-dimensional data と呼ぶ。 1次元データに関しては、度数分布表を描いたり平均などの代表値や分散を求めて分析を行う。

(7)

多次元データ定義 4 (多次元データ) 前の表のように、１つの観測対象に対して、 2つの観測値（身長・体重など）が与えられているとき、このようなデータを2次元データ two-dimensional data と呼ぶ。一般に、1つの対象に対して、１つ以上の観測値、例えば、身長・体重・血圧、が与えられているとき、このようなデータを多次元データ high-dimensional data と呼ぶ。統計学を履修した学生15人の身長学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 体重 63 62 69 41 71 61 62 48 52 55 69 48 44 49 69

(8)

時系列データ

定義 5 (時系列データ) 表??のように、同一の対象の異なった時点で

の観測値からなるデータを時系列データ time series data と呼ぶ。時

系列データは、経済分析や気象学・天文学の現象の分析などに幅広く利用されている。日本の人口（単位：1000人）年次（昭和） 15 20 25 30 35 40 45 50 55 60 人口 71,933 72,147 83,200 89,276 93,419 98,275 103,720 111,940 117,060 121,049

(9)

時系列データの例日本の人口（単位：1000人） 20 30 40 50 60 Year 80000 90000 100000 110000 120000 Population

(10)

時系列データの例筋電データ（握り） 0 2000 4000 6000 8000 10000 -1.5 -1 -0.5 0 0.5 1 1.5

(11)

度数分布とヒストグラム受験者373人の統計学の試験における得点の度数分布表階級階級値度数相対累積累積度数度数相対度数 0点以上 10点未満 5 12 0.032 12 0.032 10 〃 20 〃 15 10 0.027 22 0.059 20 〃 30 〃 25 19 0.051 41 0.110 30 〃 40 〃 35 42 0.113 83 0.223 40 〃 50 〃 45 72 0.193 155 0.416 50 〃 60 〃 55 82 0.220 237 0.635 60 〃 70 〃 65 54 0.145 291 0.780 70 〃 80 〃 75 38 0.102 329 0.882 80 〃 90 〃 85 25 0.067 354 0.949 90 〃 100点以下 95 19 0.051 373 1.000 合計 373 1.00

(12)

度数分布について • 階級値：階級を代表する値で、通常階級の中間値とする。 • 度数 frequency：各階級に属する観測値の個数 • 相対度数 relative frequency：各階級に属する観測値の割合 • 累積度数 cumulative frequency：度数を下の階級から順に積み上げたときの度数

• 累積相対度数 cumulative relative frequency：度数を下の階級から順に積み上げたときの相対度数

(13)

度数分布・ヒストグラム定義 6 (度数分布) 観測値のとりうる値をいくつかの階級 class に分け、それぞれの階級で観測値がいくつあるか度数 frequency を数えて、表にしたものを度数分布（frequency distribution）という。定義 7 (ヒストグラムとは) 度数分布をグラフにしたものをヒストグラ histogram ムという。

(14)

ヒストグラムの作り方 • 階級に対して階級幅を横幅とし、柱の高さを度数とするように定める。 • 階級数、階級幅を変化させることによって、ヒストグラムの様子が大きく変わる。 • スタージェスの公式: 観測値の数をnとするとき、階級数を次のように決める公式 k ≈ 1 + log n/ log 2 例えば、試験の得点の場合、 n = 373 −→ k = 9.543 · · ·

(15)

ヒストグラムの例統計学の得点データのヒストグラム：階級数が10の場合 20 40 60 80 100 Score 0 20 40 60 80 Frequency

(16)

ヒストグラムの例(つづき) 統計学の得点データのヒストグラム：階級数が5の場合 20 40 60 80 100 Score 0 25 50 75 100 125 150 Frequency

(17)

代表値: 標本平均定義 8 (標本平均) n 個の観測値の算術平均 ¯ y = 1 n n i=1yi = 1 n(y1+ y2 +· · · + yn−1 + yn) を標本平均 sample mean という。

(18)

代表値(つづき) 定義 9 (順序統計量) order statistics: 標本 y1, y2, · · · , yn−1, yn を小さいものの順に y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n) 並べ替えられたものを順序統計量という。定義 10 (メディアン（中央値、中位数）) median: 標本数 nが偶数と奇数の場合に分ける ⎧ ⎪ ⎨ ⎪ ⎩ ymed = y(m+1) 奇数の場合： n = 2m + 1 ymed = y(m)+y2(m+1) 偶数の場合： n = 2m

(19)

代表値(つづき) 定義 11 (百分位点) percentile: ある 0 ≤ p ≤ 1 に対し、順序統計量 y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n) の 100p 番目の値を、100p% 分位点という。定義 12 (四分位点) quantile: 順序統計量 y(1) ≤ y(2) ≤ · · · ≤ y(n−1) ≤ y(n) を4等分したときの三つの分割点。 25%分位点 −→ 第1四分位点 50%分位点 −→ 第2四分位点（メディアン） 75%分位点 −→ 第3四分位点

(20)

代表値(つづき) 定義 13 (モード) mode: 度数分布表において、その度数が最大である階級の階級値。定義 14 (ミッド・レンジ) mid-range: ymid = y(1)+ y₂ (n) 注意: 最もよく使われるのが • 平均 • メディアン • モード

(21)

散らばりの尺度: 分散定義 15 (標本分散) variance: 最もよく使われるのが標本分散である S_n2 = 1 n n i=1(yi− ¯y) 2 = 1 n

(y1 − ¯y)2 + (y2 − ¯y)2 +· · · + (yn− ¯y)2

次の計算式が便利である。 S_n2 = 1 n ⎧ ⎨ ⎩ n i=1y 2 i − n¯y2 ⎫ ⎬ ⎭

(22)

散らばりの尺度: 標準偏差/変動係数定義 16 (標準偏差) standard deviation: 標本分散の平方根: Sn = S_n2 = 1 n n i=1(yi− ¯y) 2 標準偏差の利点：観測値と同じ単位をもつこと。定義 17 (変動係数) coeﬃcient of variation: 標準偏差と平均の比: CV = 標準偏差平均 = Sn ¯ y 変動係数の利点：単位を持たないため、異なる母集団を比較するのに便利である。

(23)

データの標準化 • データ y1, · · · , yn に対して、一次変換を行ったもの z1 = y1 − ¯y Sn , z2 = y2− ¯y Sn , · · · zn = yn− ¯y Sn を標準化standardizationといい、z1, · · · , zn を標準得点(Z得点) standard score という。 • 標準得点z1, · · · , znの平均は0、分散は１。 • 平均50、標準偏差10となるように、標準得点に一次変換 z1 = 10z1 + 50, · · · , zn = 10zn+ 50 を便宜的に施したものが偏差値得点である。

(24)

(25)

2次元データ・散布図定義 18 (2次元データ) two-dimensional data 1つの観測対象に対して、2つの測定値が得られている。例 1 (身長・体重) 表??のように、一人の学生に対して、（身長, 体重）が測定されている。統計学を履修した学生15人の身長と体重学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 身長 178 165 168 152 175 175 165 162 164 170 169 155 153 162 168 体重 63 62 69 41 71 61 62 48 52 55 69 48 44 49 69

(26)

2次元データ・散布図(つづき) 数学的記法：記号で書くと、次のようになる。 (x1, y1), (x2, y2), · · · , (xn, yn) 定義 19 (散布図) scattergram 2次元データ (x1, y1), (x2, y2), · · · , (xn, yn) は、(x, y)平面上のn個の点で表せる。このような図を散布図という。

(27)

2次元データの例統計学を履修した学生15人の身長と体重 155 160 165 170 175 Height 45 50 55 60 65 70 Weight

(28)

2次元データの例筋電データ（握り）：チャンネル１ vs. チャンネル２ -4 -2 0 2 -4 -3 -2 -1 0 1 2 3 C2

(29)

相関係数 • 変数 x の標本分散： sxx = 1 n n i=1(xi − ¯x) 2 ₌ 1 n n i=1x 2 i − ¯x2 • 変数 y の標本分散： syy = 1 n n i=1(yi − ¯y) 2 ₌ 1 n n i=1y 2 i − ¯y2 • 変数 (x, y) の共分散( covariance )： sxy = 1 n n

i=1(xi − ¯x)(yi− ¯y) = 1 n n i=1xiyi − ¯x¯y

(30)

相関係数(つづき) 定義 20 相関係数(correlation coeﬃcient) 2次元データ (x1, y1), (x2, y2), · · · , (xn, yn) が与えられたとき、変数 x とy の間の相関係数は次のように定義される。 r = √sxy sxxsyy = n

i=1(xi − ¯x)(yi− ¯y)

n

i=1(xi− ¯x)2ni=1(yi− ¯y)2

定理 1 (相関係数の性質: )

−1 ≤ r ≤ 1

(31)

−1 ≤ r ≤ 1 の証明

証明定義より

r =

n

i=1(xi − ¯x)(yi− ¯y)

n

i=1(xi − ¯x)2 ni=1(yi − ¯y)2

したがって、 ai = (xi − ¯x), bi = (yi− ¯y) i = 1, · · · , n と置けば、次式を証明すればよい。 Schwarz の不等式: ⎧ ⎨ ⎩ n i=1aibi ⎫ ⎬ ⎭ 2 ≤ n i=1a 2 i n i=1b 2 i Schwarz の不等式を証明するのに、次の実数 t に関する2次関数を考えればよい。 n i=1(ai+ bit) 2 _{≥ 0}

(32)

相関係数の性質: 相関係数はデータの線形変換に対して不変である。すなわち、 ui = axi+ b, vi = cyi+ d (i = 1, 2, · · · , n) に対して、 sxy √ sxxsyy = suv √ suusvv (ac > 0) ⇓ ⇓ ⇓ 演習問題

(33)

みかけ上の相関と偏相関係数例 2 血圧の高い人は給料が高い？事実：血圧と給料の間に正の相関がある！ある会社で何十人かの社員に給料と血圧のアンケート調査をしたとしましょう。この結果から血圧を横軸、給料を縦軸にとって散布図を描くと、きれいな正の相関があることが分かります。取るべき行動（？）：給料を上げるために塩辛い味噌汁を飲み続ける？これが真の関連であるとするならば、給料を上げるためには塩辛い味噌汁を毎日飲めば良いことになりますが、そんなことをする人はいないと思います。

(34)

血圧と給料の関係：真実真実：年齢が邪魔している！日本は年功序列社会です。基本的には年齢の上昇と共に給料は増加するはずです。また年齢と共に血圧が上がるというのは医学的な事実です。したがって年齢が高い人は、血圧も給料も共に高くなり、見かけ上の相関が生じます。定義 21 (交絡) confounding このように第３の変数が、２つの変数両方に関連して、見かけ上の関連を生じさせる現象のことを交絡といいます。

(35)

交絡：他の例例 3 耳たぶのしわのある人は冠動脈疾患にかかり易い？耳たぶのしわと冠動脈疾患に相関があると一時騒がれた。耳たぶのしわも冠動脈疾患も肥満と相関があり，肥満という第3の因子を介して冠動脈疾患との相関を見ていたに過ぎない。例 4 身長の高い人は成績がよい？小学校の全学年の児童に対して、身長と成績のデータをとると，「高い相関がある」。交絡要因は年齢。

(36)

みかけ上の相関・偏相関係数

定義 22 (みかけ上の相関) spurious correlation: xとyに相関関係が

認められても，実際には第3要素を介しての相関である。

定義 23 (偏相関係数) partial correlation coeﬃcient:

rxy : xとyの相関 rxz : xとzの相関 ryz : yとzの相関変数 z の影響を取り除いたときの、x とy の偏相関係数 rxy·z = rxy − rxz ryz 1− r_xz2 1− r_yz2

(37)

橈骨の長い人は身長が高い？

例 5 (橈骨と身長) K. Pearson (1898)が50人の男性の身長(stature),

大腿(だいたい, femur)の長さ、上腕(じょうわん, humerus)の長さ、脛骨（けいこつ, tibia）の長さ;橈骨(とうこつ, radius)の長さに基づいて、次のような相関行列を得た( Krzanowski and Marriott, 1994, p.23) 大腿F 上腕H 脛骨T 橈骨R 身長S 大腿F 1 _{0.8421 0.8058 0.7439 0.8105} 上腕H 1 _{0.8601 0.8451 0.8091} 脛骨T 1 _{0.7804 0.7769} 橈骨R 1 0.6956 身長S 1

(38)

橈骨の長さと身長（続き） • 相関行列によれば、身長と橈骨の相関 rSR = 0.6956 となる。 • 大腿の影響を取り除いた後の相関行列は次のようになる。上腕H 脛骨T 橈骨R 身長S 上腕H 1 _{0.5682 0.6068 0.4007} 脛骨T 1 _{0.4574 0.3569} 橈骨R 1 0.2367 身長S 1 例えば、 r −r r √ √

(39)

橈骨の長さと身長（続き）さらに上腕の影響を取り除いた後の相関行列は次のようになる。脛骨T 橈骨R 身長S 脛骨T 1 _0.1772 _0.1714 橈骨R 1 −0.0088 身長S 1 例えば、 rSR·HF = √rSR·F_1−r₂−rSH·FrRH·F SH·F √ 1−r2 RH·F = √0.2367−0.4007×0.6068_1−0.4007₂√_1−0.6068₂ = −0.0088