• 検索結果がありません。

2 変量データと相関係数と回帰分析

N/A
N/A
Protected

Academic year: 2021

シェア "2 変量データと相関係数と回帰分析"

Copied!
32
0
0

読み込み中.... (全文を見る)

全文

(1)

2 変量データと相関係数と回帰分析

樋口さぶろお

龍谷大学理工学部数理情報学科

確率統計☆演習

I L04(2014-10-17 Fri)

今日の目標

共分散

,

相関係数が手で計算できる 散布図が手で描ける

(2)

略解:箱ひげ図・分散の応用

L03-S5 Quiz

解答

:

標準得点と偏差値 平均値

= 90,

標準偏差

= 2.

標準得点

= 3/2 = 1.5.

偏差値

= 50 + (−1.5) × 10 = 35.

(3)

2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

ここまで来たよ

1

略解

:

箱ひげ図・分散の応用

2 2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

2

変量データの相関

回帰

3

箱ひげ図とヒストグラム

ヒストグラムと箱ひげ図の対応

(4)

2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

2 変量データ

これまでやってたのはぜんぶ

1

変量データ

.

2

変量データはこんな例

. (x, y)

などと書く

. x, y

は各チームのデータ

. x

フリーキック回数

y

被シュート回数 データの個数

n = 18.

(

チーム名

) x y

失点

z

コンサドーレ札幌

389 464 .. .

ベガルタ仙台

491 246

.. . .. . .. . .. .

· · · · · · · · ·

平均値

· · · · · · · · ·

J League Division 1. 2012-10-06. http://www.j-league.or.jp/data/

他にも…

(x, y) =(

身長

,

体重

), (

人口

,

面積

), (

打率

,

本塁打数

), (

カロリー

,

糖分含有量

(5)

2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

散布図 y(

縦軸

)

被シュート回数

400 420 440 460 480 500 520

250300350400450

FK

shoot.received

x(

横軸

)

フリーキック回数

フリーキック回数が多い

被シュート回数が少ない

?

(6)

2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

クロス集計表と周辺分布 x=

フリーキック回数

y =

被シュート回数

クロス集計表

上の表では…になってる

18

チーム全部のデータから作りました

.

y \x

の階級

400

未満

450

未満

500

未満

550

未満

200

以上

250

未満

1 2 1 4

300

未満

4 1 5

350

未満

2 2 1 1 6

400

未満

2 2

450

未満

0

500

未満

1 1

3 5 7 3 18

周辺分布

(7)

2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

L04-Q1

Quiz(クロス集計表)

1

散布図を描こう

.

2

クロス集計表を作ろう

. x

の階級は

0

以上

2

未満

,

, y

の階級は

0

以上

5

未満

,

… で

.

x y

1 5

3 15

4 14

5 11

7 20

(8)

2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

散布図と周辺分布

(

)

から

, x:

フリーキック回数

, z:

失点

, y:

被シュート回数

FK

30 40 50 60 70

400440480520

3040506070

lost

400 440 480 520 250 300 350 400 450

250300350400450

shoot.received

対角線上にあるのは

,

周辺分布のヒストグラム 周辺分布のヒストグラムは

,

散布図から

自分の言葉で

して作れる

.

(9)

2

変量データと相関係数と回帰分析

2

変量データの相関

ここまで来たよ

1

略解

:

箱ひげ図・分散の応用

2 2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

2

変量データの相関

回帰

3

箱ひげ図とヒストグラム

ヒストグラムと箱ひげ図の対応

(10)

2

変量データと相関係数と回帰分析

2

変量データの相関

正の相関・負の相関・無相関

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

強い正の相関 弱い正の相関 無相関 弱い負の相関 強い負の相関

r = 0.99 r = 0.55 r = 0 r = 0.55 r = 0.99

相関

正の相関

’: x

が大きい

y

が大きい

負の相関

’: x

が大きい

y

が小さい

r:

相関係数

(11)

2

変量データと相関係数と回帰分析

2

変量データの相関

共分散

相関の強さを数で表したい

x

の平均値

x = 1 n

n i=1

x i

x

の分散

s 2 x = 1 n

n i=1

(x i x) 2

共分散 (covariance)

x, y

の共分散

C xy = 1 n

n i=1

(x i x) × (y i y)

(12)

2

変量データと相関係数と回帰分析

2

変量データの相関

共分散の意味

X Y

(+,+)

(−,−) (−,+)

(+,−) X

の平均値

Y

平均値

(+, ) = (x i x

の符号

, y i y

の符号

).

共分散が正に

/

負に大きい

正の

/

負の相関が強い

(?)

なぜなら

自分の言葉で

しか〜し

.

(13)

2

変量データと相関係数と回帰分析

2

変量データの相関

L04-Q2 Quiz(共分散)

1 x, y

の共分散を求めよう

2 x, y

の相関係数を求めよう

.

ただし

, y

の標準偏差

=

√ 122

5 = 4.94

は 使っちゃっていい

.

x y

1 5

3 15

4 14

5 11

7 20

(14)

2

変量データと相関係数と回帰分析

2

変量データの相関

相関係数

共分散は

次元のある量なので単位を変えると

値が変わる

比較に 不便

広い範囲にばらついていたほうが

大きくなる

相関係数は

,

これらの影響を受けずに

,

相関の強さをそのまま表す

. 相関係数 (correlation coefficient)

x, y

の相関係数

r = C xy

s x × s y

(15)

2

変量データと相関係数と回帰分析

2

変量データの相関

相関係数の性質

相関係数は

無次元の量

1 r +1 r = 0

無相関

r = ±1

散布図の点が傾き正

/

負の一直線上

y

x

1

次関数

.

散布図の点が傾き正

/

負の一直線上

r = ± 1

であることの証明

y i = ax i + b

とすると

. C xy = 1

n

n i=1

(x i x) · ((ax i + b) (ax + b)) = as 2 x

ところで

, s y = | a | s x

なので

,

as 2 x

±

(16)

2

変量データと相関係数と回帰分析

2

変量データの相関

Quiz( 相関係数 )

次のうち

,

相関係数

r

がもっとも大きいものはどれ

?

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

0 2 4 6 8 10

0246810

X

Y

(17)

2

変量データと相関係数と回帰分析

2

変量データの相関

相関係数 =0 にだまされるな

相関係数

r = 0 x

y

の間に

関係

がない

?

相関係数

r = 0 x

が増えた

y が増えるとも減るとも

言えない

相関係数

r = 0

だから

x, y

は無関係な量

,

というわけではない

(18)

2

変量データと相関係数と回帰分析

2

変量データの相関

L04-Q3

Quiz(相関係数)

次のうち

, x i , y

の相関係数

r

について本当はどれ

?

1 x i

を一斉に

−2

倍すると

, r

−2

倍になる

.

2 x i

を一斉に

2

倍すると

, r

2

倍になる

.

3 x i

を一斉に

2

倍すると

, r

1

倍になる

.

4 x i

を一斉に

−2

倍すると

, r

+1

倍になる

(

かわらない

).

5 x i

を一斉に

2

倍すると

, r

1/2

倍になる

.

6 x i

を一斉に

2

倍すると

, r

1/2

倍になる

.

(19)

2

変量データと相関係数と回帰分析

2

変量データの相関

にせの因果関係にだまされるな

被シュートと失点は正の相関

原因

:

被シュートが多い

,

結果

:

失点が多い

?

原因

:

失点が多い

,

結果

:

被シュートが多い

?

フリーキックと被シュートは負の相関

原因

:

フリーキックが多い

,

結果

:

被シュートが少ない

?

原因

:

被シュートが少ない

,

結果

:

フリーキックが多い

?

原因

:???,

結果

:

被シュートが少ない

,

かつ

,

フリーキックが多い

?

相関が強くても

因果関係があるとはかぎらない

因果関係があっても

原因と結果を区別できない

(20)

2

変量データと相関係数と回帰分析 回帰

ここまで来たよ

1

略解

:

箱ひげ図・分散の応用

2 2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

2

変量データの相関

回帰

3

箱ひげ図とヒストグラム

ヒストグラムと箱ひげ図の対応

(21)

2

変量データと相関係数と回帰分析 回帰

回帰分析

回帰

(regression),

単回帰分析

=1

変数回帰分析

2

変量データ

(x, y)

相関係数

r = ±1

に近い

散布図上のデータ点

(x, y)

がほぼ直線に載っ ている

その直線

(

回帰直線

)

の式

y = ax + b

を知りたい

!

つまり

回帰係数

a, b

を決めたい

.

250300350400450

shoot.received 250300350400450

shoot.received

何でそんなことしたいの

?

法則を見つけたい

(22)

2

変量データと相関係数と回帰分析 回帰

回帰直線の決め方

1

定規をあてて

真ん中

を通るように

2

最小

2

乗法で

.

最小

2

乗法

直線からのずれの

2

d 2

の合計

f (a, b) =

n i=1

d 2 i =

n i=1

(y i (ax i + b)) 2

の最小条件

∂f ∂a = ∂f ∂b = 0

a, b

を決める

.

微積分・演習

I

X Y

物理実験

(23)

2

変量データと相関係数と回帰分析 回帰

最小 2 乗法の公式

回帰直線

x, y

の平均値を

x, y,

標準偏差を

s x , s y ,

相関係数を

r

とする

.

回帰直線は

,

傾き

a = r × s s y

x

,

(x, y)

を通る

切片

b y = r × s y

s x × (x x) + y

250300350400450

shoot.received

(24)

2

変量データと相関係数と回帰分析 回帰

回帰直線の傾きのおぼえ方 (x, y)

(m,kg)

だとする

.

傾きは

r

みたいなもの

. r

は無次元の数

(

単位がない

)

だが 傾き

a

の単位は

kg/m

.

調整するためには

r

s s y

x (

単位

kg/m

)

をかけて傾き

a

にする

.

なんで

s x , s y

とかつくの

?

なかったら

x, y

いれかえても同じ傾きになっ ちゃうじゃん

.

(25)

2

変量データと相関係数と回帰分析 回帰

L04-Q4

来週の非参照

Quiz

はこんな感じ

Quiz( 共分散と相関係数 )

下のデータを考える

.

x y

2 4

2 6

4 11

5 9

7 15

1

共分散を求めよう

.

2

相関係数を求めよう

.

3

回帰直線の式を求めよう

.

ただし

,

平均値

x = 4, y = 9,

標準偏差

s x = 1.90, s y = 3.85 (

四捨五入し

(26)

2

変量データと相関係数と回帰分析 回帰

(27)

箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応

ここまで来たよ

1

略解

:

箱ひげ図・分散の応用

2 2

変量データと相関係数と回帰分析

2

変量データとクロス集計表・散布図

2

変量データの相関

回帰

3

箱ひげ図とヒストグラム

ヒストグラムと箱ひげ図の対応

(28)

箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応

幹葉図 = ヒストグラムの簡易版

169, 158, 162, 163, 163, 155, 158, 172, 172, 172, 170, 164

1 1 5 0| 8 5 8

2 1 6 0 | 9 2 3 3 4

3 1 7 0| 2 2 2 0

清書

1 1 5 0 | 5 8 8

2 1 6 0| 2 3 3 4 9

3 1 7 0 | 0 2 2 2

(29)

箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応

Quiz( ヒストグラムと箱ひげ図 )

このヒストグラムに対応する箱ひげ図はどれ

?

frequency

0 2 4 6 8 10

051015

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

左に歪んだ分布 左に裾が長い分布

(30)

箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応

Quiz( ヒストグラムと箱ひげ図 )

このヒストグラムに対応する箱ひげ図はどれ

?

frequency

0 2 4 6 8 10

051015

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10

右に歪んだ分布

=

右に裾が長い分布

(31)

箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応

Quiz( ヒストグラムと箱ひげ図の対応 )

この箱ひげ図に対応するヒストグラムはどれ

?

0 2 4 6 8 10

Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234 Frequency

0 2 4 6 8 10

01234

箱ひげ図のほうが情報が少ない

(32)

箱ひげ図とヒストグラム ヒストグラムと箱ひげ図の対応

連絡

次回

2014-10-24

2

1-542

実習室

. Excel

で標準偏差求めたり

,

ヒ ストグラム描いたり

,

回帰分析したりする方法やります

.

イヤフォン 持参

.

2014-10-01

水昼 からチューターやってます

. 1

号館

6

1-614.

2014-10-28

4, 29

14:00-17:00

数理情報学科特別講義

.

2014-11-06

木 数学検定団体受検申込締切

.

http://www.math.ryukoku.ac.jp/suken/

で受付中

. 2014-12-06

34

数学検定団体受検

.

来週の非参照 Quiz

データから共分散と相関係数を求めよう データから回帰直線を求めよう

参照

関連したドキュメント

This study aimsto developefficientmethodsfor an estimationof wave pressures under irregularwaves by using time series ofwater surfaceelevations.Twomethods are presentedin

今回チオ硫酸ナトリウム。クリアランス値との  

カウンセラーの相互作用のビデオ分析から,「マ

劣モジュラ解析 (Submodular Analysis) 劣モジュラ関数は,凸関数か? 凹関数か?... LP ニュートン法 ( の変種

不変量 意味論 何らかの構造を保存する関手を与えること..

テューリングは、数学者が紙と鉛筆を用いて計算を行う過程を極限まで抽象化することに よりテューリング機械の定義に到達した。

東京都は他の道府県とは値が離れているように見える。相関係数はこう

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,