• 検索結果がありません。

統計学

N/A
N/A
Protected

Academic year: 2021

シェア "統計学"

Copied!
57
0
0

読み込み中.... (全文を見る)

全文

(1)

統計学

   茅野光範 

(

かやの みつのり

)!

1!

H28

年度後期 週1コマ2単位

第3回  相関係数と回帰直線

      教科書 1.4節

(2)

講義の予定  第 1 回〜第 8 回

• 

10/3 [茅野]  ガイダンス

• 

10/17 [茅野] データのとりまとめと        基本統計値の計算

•  10/24 [茅野] 相関関係と回帰直線

•  10/31 [姜] 確率の基本概念

•  11/7 [姜] 確率の計算

•  11/14 [姜] 確率変数と確率分布

•  11/21 [姜] 二項分布

•  11/28 [姜] 正規分布 

2

推測統計学の 基礎

教科書第2、3章

記述統計学

教科書第1章

(3)

前回の内容

• 

データの種類

  量的データ(数字)と質的データ(名前など)

• 

データの整理

  度数分布表、ヒストグラム、箱ひげ図

• 

データの特性値

  平均値、メディアン(中央値)、モード(最頻値)

  分散、標準偏差

3!

(4)

0 2 4 6 8 10 12

度数

階  級

データをとったら

最初に何をするべきか?

まず、データを見る

見やすくするために整理する

4!

データ

50

人の統計学の点数:

4, 8, 9, 10, 17, 21, 21, 25, 26, 28, 29, 31, 33, 33, 36, 36, 36, 37, 39, 42, 43, 44, 51, 51, 53, 54,58, 59, 61, 61, 62, 62, 62, 65, 67, 67, 68, 69, 75, 75, 76, 77, 78, 81, 83, 85, 86, 93, 94, 99

点数

人数

教科書P.3のデータ

前回の復習

(5)

次にすること

データ全体の特徴を表す数値を求める

そうすると他のデータと比較することも簡単!

 

中心

はどこか?

 平均値

= 51.6

 中央値

= 53.5

 最頻値

= 65

 

ばらつき具合

?

 範囲

= 4

から

99

 分散

= 660.16

 標準偏差

= 25.69

5!

0 2 4 6 8 10 12

度数

階  級 点数

人数

前回の復習

(6)

分散と標準偏差

分散 データから平均を引いて      (偏差)、

2乗して       (偏差2乗)、平均を取る  , 標準偏差は分散の平方根(√)のこと  

• 

分散や標準偏差が大きいほど,

  データのばらつきは大きい

(xix )2

s2 = 1

n "# (x1 x)2 +(x2 x)2 ++(xn x)2 $% = 1

n (xi x)2

i=1 n

,

s = s2 = 1

n (xi x)2

i=1 n

s

2

s

xix

6!

重要!

前回の復習

(7)

記号の復習

Σ :シグマ 足し算をまとめる記号

i=1

から始めて、

i=n

まで、

xi

を足す。

n n

i

i x x x

x = + + +

=

2 !

1 1

7!

前回の復習

(8)

分散の計算方法 × 2(どちらも同じ)

1. 

普通に求める(定義通りに)

2.

以下の式を使う

s2 = 1

n (xi x)2

i=1 n

s2 = 1

n xi2 x 2

i=1 n

分散

=データの2乗の平均-平均の2乗

s2 = 1

n (xi x)2

i=1 n

= 1n (xi2 2xxi + x2)

i=1 n

= 1

n xi2 1

n 2xxi + 1

n x2

i=1 n

i=1 n

i=1 n

= 1

n xi2 (2x)1

n xi + x2 =

i=1 n

i=1 n

1n xi2 x2

i=1 n

[

参考

]

 

2

の導出

8!

前回の復習

(9)

今日学ぶこと   教科書 1.4 節

数学と英語の点数の関係の強さは?

[

相関

]

 具体的な関係は?

[

回帰

]

9!

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

(3, 8)

(9, 5)

数学の点数 (x)

英語の点数 (y)

教科書P.12のデータ

r=0.38

y=0.4x + 3.4

数学の点数と英語の点数の散布図

(10)

今日の目標

1. 

散布図を描く

2.

相関関係を学ぶ

3.

共分散を求める

4.

相関係数を求める

5.

回帰直線を求める

10!

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

r=0.38

y=0.4x + 3.4

(11)

相関の強さを表す特性値

      相関係数 共分散

の平均 の平均

の積の平均 と

の共分散 と

偏差との積の平均 偏差と

y x

y x

y x

y n x

y x

y x y

x y

n x

y y

x x

y y

x x

y y

x n x

s

y x

y x

y y

x n x

s

n i

i i

n n

n n

xy

n i

i i

xy

×

=

+

+ +

=

+

+

+

=

=

=

=

1

2 2 1

1

2 2

1 1

1

1

) 1 (

)}

)(

( )

)(

( ) )(

1{(

) (

) )(

1 (

!

!

11!

y x

xy

s s r = s

1 r 1

重要!

今日の予習

(12)

最小二乗法による回帰直線

) (

ˆ ˆ , ˆ

ˆ ˆ

2

2

x s x

y s y

x a y

b

s a s

b x

a y

x xy

x xy

=

⎪ ⎩

⎪ ⎨

=

← = +

=

を通る 点

で,

傾きが ) ,

(

ˆ y x

a

12!

重要!

今日の予習

(13)

相関係数と回帰直線(回帰分析)

13!

r = 0.66

y = 3.1x - 66.2

450 460 470 480 490 500 510 520 530

170 175 180 185 190

x:

胸囲

(cm)

y:

体重

(kg)

オス牛の胸囲と体重の関係

相関係数

2変数の

関係の強さを表す

回帰分析

回帰式がわかれば、

y

を測らなくていい!

今日の予習

(14)

1. 散布図を描く

(15)

数学と英語のデータ(2変数のデータ)

2つの変数(変量)について個体ごとにペアで測定した 値を2変数(2変量、2次元)のデータという

 【例

1.4.1

】 学生

10

人の数学と英語の成績

学生

No 1 2 3 4 5 6 7 8 9 10

数学

(x) 5 3 6 10 4 7 7 3 9 6

英語

(y) 7 8 4 8 3 6 10 2 5 5

ポイント: 同じ学生のデータがある!

15!

(16)

数学と英語のデータ (散布図)

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

数学の点数 (x)

英語の点数 (y)

学生

No 1 2 3 4 5 6 7 8 9 10

数  学

5 3 6 10 4 7 7 3 9 6

英  語

7 8 4 8 3 6 10 2 5 5

図にする

No1 No2

重要!

(17)

参考: 散布図と相関表

0 2 4 6 8 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

数学の点数 (x)

英語の点数 (y)

数学 0

2 2

4 4

6 6

8 8 10

02 0 0 0 0 0 0

24 0 1 0 0 1 2

46 0 1 0 1 0 2

68 0 0 2 1 1 4

810 0 0 1 0 1 2

0 2 3 2 3 10

英語

散布図上のそれぞれのマスに いくつデータが入っているか?

17!

散布図の各軸に適当に階級をとり、

度数を求めれば、2変数の度数分布表、

つまり、相関表が求められる

(18)

2. 相関関係

正の相関

負の相関

(19)

正の相関と負の相関の例:

マンション価格

  右上がりに増える     右下がりに減る

19!

0 1000 2000 3000 4000 5000 6000 7000 8000

0 50 100 150

価格(万円)

面積(平米)

マンションの面積と価格

(JR目黒駅周辺)

0 10 20 30 40 築年数

マンションの築年数と価格

(JR目黒駅周辺)

(20)

正の相関の例: 出席回数と評点

強めの正の相関がある

出席回数

評点(仮)

20!

出席回数が多いほど

評点が高い傾向がある

(21)

負の相関の例:ハーフマラソンのタイム

21!

タイム予測式 hCp://run.dot-whim.com/predicKon

強めの負の相関がある 最近になるほど

タイムが良い傾向がある

(22)

相関の強さと散布図

弱い

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -3 -2 -1 0 1 2

-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

強い

22!

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

相関が強いほど直線的になる

(23)

相関(関係)とその種類

2つの変数の間に相関(関係)がある:1つの変数が 増加すれば他も一緒に増加する(または減少する)

そうでない場合は、相関がない(無相関)という

相関 関係

正の相関:2変数が 右上がりに増える

負の相関:2変数が 右下がりに増減する

強い正の相関:

明確な傾向

弱い正の相関:

曖昧な傾向

強い負の相関:

明確な傾向

弱い負の相関:

曖昧な傾向

23!

(24)

3. 共分散

4. 相関係数

(25)

相関の強さを表す特性値

相関係数   (共分散と標準偏差から求める)

復習:1変数の場合の平均値や分散、標準偏差  分布の広がりを表す特性値  :散布度(分散など)

2変数データの表記

 2つの変数(変量)

x, y

についての,

n

人のデータ

(x1, y1), (x2, y2), , (xn, yn ) or

(xi, yi ) (i =1, 2, , n)

1人目のデータ

25!

(26)

相関係数の定義

y x

xy

s s r = s :

相関係数

) (

) 1 (

, ) 1 (

) (

) )(

1 (

1

2 1

2 1

の標準偏差 と

は と

の共分散 と

y x

s s

y n y

s x

n x s

y x

y y

x n x

s

y x

n i

i y

n i

i x

n i

i i

xy

=

=

=

=

=

=

1 r 1

26!

重要!

(27)

相関の強さを表す特性値

      相関係数 共分散

の平均 の平均

の積の平均 と

の共分散 と

偏差との積の平均 偏差と

y x

y x

y x

y n x

y x

y x y

x y

n x

y y

x x

y y

x x

y y

x n x

s

y x

y x

y y

x n x

s

n i

i i

n n

n n

xy

n i

i i

xy

×

=

+

+ +

=

+

+

+

=

=

=

=

1

2 2 1

1

2 2

1 1

1

1

) 1 (

)}

)(

( )

)(

( ) )(

1{(

) (

) )(

1 (

!

!

27!

y x

xy

s s r = s

1 r 1

重要!

(28)

相関係数を求める手順( x と y の)

1.  x

y

の平均値、分散、標準偏差を求める

2.  x

y

の共分散を求める

3.  x

y

の相関係数を求める!

y x

y n x

y y

x n x

s n

i

i i n

i

i i

xy =

=

=

=1 1

) 1 )(

1 (

y x

xy

s s r = s

) (

) 1 (

, ) 1 (

1

2 1

2

の標準偏差 と

s x y s

y n y

s x

n x s

y x

n i

i y

n i

i

x

∑ ∑

=

=

=

=

28!

重要!

(29)

共分散の符号と散布図のパターン

正の相関の場合:

共分散が正

-6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

交差積が正

交差積が正

交差積が負 交差積が負

-6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

負の相関の場合:

共分散が負

交差積が負

交差積が負 交差積が正

交差積が正

X X

y y

=

=

n i

i i

xy x x y y

s n

1

) )(

1 (

交差積

x

y

x y

参考

(30)

散布図と相関係数の対応

30!

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -3 -2 -1 0 1 2

-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

r

0.3 r

0.6

r

0.9

r

-0.3 r

-0.6

r

-0.9

(31)

相関係数 r の解釈

r=0

: 相関がない(無相関) (

-0.3<r<0.3

など)

r>0

: 正の相関があるかもしれない

    

r

が大きいほど相関が強い  (

r

0.3,

0.4

など)

r=1

: 全てのデータが右上がりの直線上にある

r<0

: 負の相関があるかもしれない

    

r

の絶対値が大きいほど相関が強い

r=-1:

 全てのデータが右下がりの直線上にある

31!

0

r

-0.3,

-0.4

など)

(32)

例題(相関係数の計算)

【例

1.4.3

1.4.1

の数学

(x)

と英語

(y)

の相関係数を求めよ.

【解】

379 . 2726 0

. 5

2 8

. 27

2 56

. 5 5

2 56

. 5 5

2

2 8 . 5 6 ) 5 6 7

5 10(

1 10

1

56 . 5 8

. 5 ) 5 8

7 10 (

1 10

1

5 6

) 6 3

5 10 (

1 10

1

8 . 5 10 / ) 5 8

7 ( ,

6 10 / ) 6 3

5 (

10 1

2 2

2 2

10 2 1 2 2

2 2

2 2

10 2 1 2 2

=

=

× =

× =

=

=

=

+ +

=

=

=

+

+ +

=

=

=

+

+ +

=

=

= +

+ +

=

= +

+ +

=

=

=

=

y x

xy i

i i xy

i

i y

i i x

s s r s

y x y

x s

y y

s

x x

s

y x

!

!

!

!

!

32!

(33)

数学と英語のデータ(2変数のデータ)

2つの指標(変量、変数)について個体ごとにペアで 測定した値を2変量(2変数、2次元)のデータという

 【例

1.4.1

】 学生

10

人の数学と英語の成績

学生

No 1 2 3 4 5 6 7 8 9 10

数学

(x) 5 3 6 10 4 7 7 3 9 6

英語

(y) 7 8 4 8 3 6 10 2 5 5

33!

) , , 2 , 1 (

) , (

) ,

(, ),

, ( ), ,

( 1 1 2 2

n i

y x or

y x y

x y

x

i i

n n

!

!

=

1人目のデータ

(34)

数学と英語の点数の相関関係の強さ

[ 相関係数 ]

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

数学の点数 (x)

英語の点数 (y)

r=0.38

数学の点数と英語の点数の散布図

34!

弱い正の相関がある。

つまり、数学の点数が高い人は

英語の点数も高い傾向がある。

(35)

正の相関の例: 出席回数と評点

r=0.71

強めの正の相関がある

出席回数

評点(仮)

35!

(36)

負の相関の例:ハーフマラソンのタイム

36!

r=

0.88

強めの負の相関がある

タイム予想式 hCp://run.dot-whim.com/predicKon

(37)

5. 回帰直線と共分散

(38)

今日学ぶこと   教科書 1.4 節

数学と英語の点数の関係の強さは?

[

相関

]

 具体的な関係は?

[

回帰

]

38!

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

(3, 8)

(9, 5)

数学の点数 (x)

英語の点数 (y)

教科書P.12のデータ

r=0.38

y=0.4x + 3.4

数学の点数と英語の点数の散布図

(39)

共分散は回帰直線にも使える

39!

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

数学の点数 (x)

英語の点数 (y)

教科書P.12のデータ

y=0.4x + 3.4

(40)

一番いい回帰直線はどれか?

40!

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

数学の点数 (x)

英語の点数 (y)

(41)

回帰直線の求め方(最小二乗法)

データの

中心

を通るようにする、つまり、

  の長さ(誤差

d

)の合計が最小になるように

a

b

を決める

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

数学の点数 (x)

英語の点数 (y)

y=ax + b

未知量 切片

と 傾き 回帰直線

: ) (

) (

: y b a

b ax

y = +

41!

(42)

最小二乗法による回帰直線

) (

ˆ ˆ , ˆ

ˆ ˆ

2

2

x s x

y s y

x a y

b

s a s

b x

a y

x xy

x xy

=

⎪ ⎩

⎪ ⎨

=

← = +

=

を通る 点

で,

傾きが ) ,

(

ˆ y x

a

42!

重要!

(43)

誤差 d

i

の2乗和 の最小化

b ax

y = +

y

x

) ,

(xi yi

O

b ax

y ˆ

i

=

i

+

) ( ax b y

d

i

=

i

i

+

誤差

回帰直線

y の推定値 ˆ )

, (xi yi

43!

= =

+

=

n i

i i

n i

i

y ax b

d

1

2 1

2

{ ( )}

参考

(44)

  の最小化の方法

         

 の形に変形する         ここには も も入らないとする

di2

i=1 n

= (a a)ˆ 2 +(b b)ˆ 2 +

a b di2

i=1 n

di2

i=1 n

= {yi (axi +b)}2

i=1 n

= {b(yi axi)}2

i=1 n

= {b2 2b(yi axi)+(yi axi)2}

i=1 n

= nb2 2b (yi axi)

i=1 n

+ (yi axi)2

i=1 n

= nb2 2nb y( ax)+ (yi axi)2

i=1 n

まず、

b

について変形する

=n b{ 2 2b y( ax)}

=n b"#${ (yax)}2 (yax)2%&'

=n b{ (yax)}2 n y( ax)2

di2

i=1 n

= n b

{

(

yax

) }

2

n y

(

ax

)

2 + (yi axi)2

i=1 n

したがって、

についても、同様に変形する

a

参考

(45)

最小2乗法の結果

の分散 の分散,

との共分散 と

の平均 の平均

y s

x s

y x

s

y y x

x x

a y

b

x n x

y x n y

a x y

y x

n x s

s s ns s

a a

ns b

b n d

y x

xy

n

i i

n

i i i

n i

i i

xy

y x

xy y

x n

i

i

: :

, :

: ,

: ˆ ,

ˆ

, ˆ ) )(

1 (

) ) 1 (

( ˆ)

( ˆ)

(

2 2

2 1

2 1

1

2 2

2 2

2 2

2 1

2

=

=

=

+

+

=

∑ ∑

=

=

=

=

a = aˆ, b = bˆ のとき、       が最小 di2

i=1 n

= sxy sx2

45!

参考

(46)

  の最小化の別解

• 

   を

a, b

それぞれで偏微分して、 

=0

を解く

偏微分

•  y=ax+b

a

で偏微分すると、

x

になる        

b

で偏微分すると、

1

になる

di2

i=1 n

di2

i=1 n

a

b

46!

参考

復習:

2次関数の頂点では

接線の傾き

=

微分が

0

になる

(47)

参考解答

47!

(48)

最小二乗法による回帰直線

) (

ˆ ˆ , ˆ

ˆ ˆ

2

2

x s x

y s y

x a y

b

s a s

b x

a y

x xy

x xy

=

⎪ ⎩

⎪ ⎨

=

← = +

=

を通る 点

で,

傾きが ) ,

(

ˆ y x

a

48!

重要!

(49)

例題(回帰直線を求める)

【例

1.4.2

】 例

1.4.1

のデータについて,

  英語

(y)

の数学

(x)

に対する回帰直線を求めよ.

【解】

x = 6, y = 5.8

sx2 = 1

10 xi2

i=1 10

x2 = 5

sy2 = 1

10 yi2

i=1 10

y2 = 5.56

sxy = 1

10 xiyi

i=1 10

x y = 2

aˆ = sxy

sx2 = 2

5 = 0.4

bˆ = y aˆ x = 5.8 0.4× 6 = 3.4

y = 0.4x + 3.4, or y 5.8 = 2

5 (x 6)

49!

(50)

回帰直線 数学と英語の点数

50!

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

数学の点数 (x)

英語の点数 (y)

教科書P.12のデータ

y=0.4x + 3.4

(51)

回帰直線(ハーフマラソンのタイム)

y=-3.73 x + 7626

(52)

回帰直線の注意点 未来の 予測は難しい

y=-3.73 x + 7626

(今あるデータの範囲外の当てはめ)

2030

年には

60

分を切る

!?

参考: 6025秒(男子アジア記録, 2007

(53)

レポート 提出: 11/7 講義開始時

右の表のデータについて 以下を行ってください。

(1) 

散布図を描く

  (横軸

x

に体重、縦軸

y

に胸囲)

(2)

体重と胸囲の平均値、分散、

  標準偏差をそれぞれ求める

(3)

相関係数を求める(共分散が必要)

(4)

回帰直線を求める(共分散が必要)

牛 体重 x (kg)

胸囲 y (cm) 1 490 180

2 490 170

3 520 190

4 460 170

5 470 170

6 500 180

オス牛の体重と胸囲

*データは人工的に生成した

データの参考資料:

Biosta*s*cs for Animal Science C a B Int, 2009, Sec. 9.1.1

(54)

相関係数の弱点: 外れ値に弱い

全てのデータで計算した 相関係数

r = 0.05

外れ値を除いて計算した 相関係数

r = 0.67 !

こちらの方がデータ全体の 傾向を適切に表している

160.00 165.00 170.00 175.00 180.00 185.00 190.00

440.00 460.00 480.00 500.00 520.00 540.00 560.00

体重 (kg)

胸囲 (cm)

54!

別のデータ(16頭分)の結果です

参照

関連したドキュメント

C−1)以上,文法では文・句・語の形態(形  態論)構成要素とその配列並びに相互関係

This study aimsto developefficientmethodsfor an estimationof wave pressures under irregularwaves by using time series ofwater surfaceelevations.Twomethods are presentedin

東京都は他の道府県とは値が離れているように見える。相関係数はこう

平成18年6月30日、新潟県佐渡市両津小学校(中略)関係法

・関  関 関税法以 税法以 税法以 税法以 税法以外の関 外の関 外の関 外の関 外の関係法令 係法令 係法令 係法令 係法令に係る に係る に係る に係る 係る許可 許可・ 許可・

2014 年度に策定した「関西学院大学

EC における電気通信規制の法と政策(‑!‑...

3 学位の授与に関する事項 4 教育及び研究に関する事項 5 学部学科課程に関する事項 6 学生の入学及び卒業に関する事項 7