• 検索結果がありません。

生物統計学演習

N/A
N/A
Protected

Academic year: 2021

シェア "生物統計学演習"

Copied!
32
0
0

読み込み中.... (全文を見る)

全文

(1)

生物統計学演習

担当 茅野 光範  

(かやの みつのり)!

      帯広畜産大学!

      グローバルアグロメディシン研究センター!       研究室: 総合研究棟号館 N2302-6!

      E-mail: kayano@obihiro.ac.jp

1

2

回目: 散布図と相関係数、回帰直線

(2)

講義の予定 全 4 回

1回目 ガイダンス&エクセルに慣れる

     (ヒストグラムを描く、平均や分散を求める)

2回目 散布図と相関係数、回帰直線 3回目 確率分布と信頼区間、t-検定

4回目 いろいろな検定: カイ二乗検定と分散分析

2

(3)

先週の内容:

ガイダンス&エクセルに慣れる

3!

ヒストグラム、棒グラフを描く、平均や分散を求める

年ごとの乳量(kg/日・頭)

個体 90年(1) 95年(2) 00年(2) 1 31.1 20.7 32.6 2 23.1 36.5 41.4 3 20.7 33.5 36.3 4 25.2 31.7 41.9 5 25.0 32.4 32.1 6 16.1 35.8 26.4 7 25.8 34.7 40.3 8 32.5 32.0 34.3 9 27.2 25.6 34.0 10 27.9 41.4 34.6

*データは仮のものです

0 1 2 3 4 5

20 25 30 35 45 次の級

頻度

乳量

90

15.00 20.00 25.00 30.00 35.00 40.00

1 2 3

乳量

(4)

今日学ぶこと: 例

• 

数学と英語の点数に関係があるか

[

相関

]

  あるとすれば、どんな関係があるか

[

回帰

]

4!

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

(3, 8)

(9, 5)

数学の点数 (x)

英語の点数 (y)

「初歩からの統計学」P.12のデータ

r=0.38

y=0.4x + 3.4

数学の点数と英語の点数の散布図

(5)

今日の内容

散布図と相関係数   散布図を描く

  相関係数を求める

  (

Pearson

相関係数と

Spearman

相関係数)

回帰直線

  回帰直線を求める、解釈する

重回帰分析を行う、解釈する

5

(6)

散布図と相関係数 散布図を描く

相関係数を求める

     

6

(7)

今日前半で使うデータ:

数学と英語のデータ

 学生10人の数学と英語の成績

学生No 1 2 3 4 5 6 7 8 9 10 数学 (x) 5 3 6 10 4 7 7 3 9 6 英語 (y) 7 8 4 8 3 6 10 2 5 5

7!

) , , 2 , 1 (

) , (

) ,

(, ),

, ( ), ,

( 1 1 2 2

n i

y x or

y x y

x y

x

i i

n n

!

!

=

1人目のデータ

「初歩からの統計学」【例1.4.1

=5

=7

=3

=8

=6

=4

(8)

散布図を描く

8!

2変数の関係の強さは? → 相関係数       関係式は?   → 回帰分析

1. データを選択する

2. 「挿入」タブから   「散布図」を選ぶ

(9)

復習: 相関係数の定義

Pearson

(ピアソン)相関係数とも呼ばれる

y x

xy

s s r = s :

相関係数

) (

) 1 (

, ) 1 (

) (

) )(

1 (

1

2 1

2 1

の標準偏差

の共分散

y x

s s

y n y

s x

n x s

y x

y y

x n x

s

y x

n i

i y

n i

i x

n i

i i

xy

=

=

=

=

=

=

− 1 ≤ r ≤ 1

9!

標準偏差(SD; Standard Devia;on)

(10)

相関の強さを表す値

      相関係数 共分散

の平均 の平均

の積の平均

の共分散

偏差との積の平均 偏差と

y x

y x

y x

y n x

y x

y x y

x y

n x

y y

x x

y y

x x

y y

x n x

s

y x

y x

y y

x n x

s

n i

i i

n n

n n

xy

n i

i i

xy

×

=

+

+ +

=

+

+

+

=

=

=

=

1

2 2 1

1

2 2

1 1

1

1

) 1 (

)}

)(

( )

)(

( ) )(

1{(

) (

) )(

1 (

!

!

10!

y x

xy

s s r = s

−1≤ r ≤1 重要!

(11)

共分散の符号と散布図のパターン

正の相関の場合:

共分散が正

-6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

交差積が正

交差積が正

交差積が負 交差積が負

-6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

負の相関の場合:

共分散が負 交差積が負

交差積が負 交差積が正

交差積が正

X X

y y

=

=

n i

i i

xy x x y y

s n

1

) )(

1 (

交差積

x

y

x y

参考

(12)

復習: 散布図と相関係数の対応

12!

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -3 -2 -1 0 1 2

-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

r 0.3 r 0.6

r 0.9

r -0.3 r -0.6

r -0.9

(13)

相関係数などを求める

(14)

データの例: オス牛の体重と胸囲

牛 体重 (kg) 胸囲 (cm) 1 494.99 183.34 2 491.70 177.40 3 513.73 182.07 4 460.25 176.99 5 465.70 173.06 6 504.75 179.07 7 503.02 185.02 8 458.49 172.56 9 468.56 176.82 10 517.20 182.69 11 509.43 186.12 12 459.85 172.77 13 506.63 184.04 14 484.68 185.64 15 459.32 183.70 16 550.00 165.00

*データは人工的に生成した

データの参考資料:

Biosta's'cs for Animal Science C a B Int, 2009, Sec. 9.1.1 14!

160.00 165.00 170.00 175.00 180.00 185.00 190.00

440.00 460.00 480.00 500.00 520.00 540.00 560.00

体重 (kg)

胸囲 (cm)

(15)

相関係数の弱点: 外れ値に弱い

全てのデータで計算した 相関係数

r = 0.05

外れ値を除いて計算した 相関係数

r = 0.67 !

こちらの方がデータ全体の 傾向を適切に表している

160.00 165.00 170.00 175.00 180.00 185.00 190.00

440.00 460.00 480.00 500.00 520.00 540.00 560.00

体重 (kg)

胸囲 (cm)

15!

(16)

外れ値の影響を除く:

Spearman (スピアマン)の順位相関係数

Spearman相関係数 or 順位相関係数

Q R

RQ

s s r s

Spearman 相関係数 : =

) (

12 ) 1

1 (

) (

) )(

1 (

2 1

2 1

の標準偏差

の共分散

Q R

s s

R n n R

s s

y x

Q Q

R n R

s

Q R

n i

i Q

R

n i

i i

RQ

=

=

=

=

=

=

− 1 ≤ r ≤ 1

16!

Ri, Qi は、

xi, yiの順位

データ(x, y)を順位(R, Q)に置き換えて計算した相関係数

(17)

17!

Excel で Spearman 相関係数を計算する

(18)

課題 1

(1) 右のデータのそれぞれの変数   (体重、胸囲)について、平均値、

  分散、標準偏差を求める (2) 散布図を描く

(3) Pearson相関係数を求める

(4) Spearson相関係数を求める

(5)右のデータから16番目のデータを   除き、(1), (2), (3), (4)を行う  

*いずれも

  関数や分析ツールを使ってよい

牛 体重 (kg) 胸囲 (cm) 1 494.99 183.34 2 491.70 177.40 3 513.73 182.07 4 460.25 176.99 5 465.70 173.06 6 504.75 179.07 7 503.02 185.02 8 458.49 172.56 9 468.56 176.82 10 517.20 182.69 11 509.43 186.12 12 459.85 172.77 13 506.63 184.04 14 484.68 185.64 15 459.32 183.70 16 550.00 165.00

オス牛の体重と胸囲

*データは人工的に生成した

データの参考資料:

Biosta's'cs for Animal Science C a B Int, 2009, Sec. 9.1.1 18!

(19)

回帰直線

  回帰直線を求める、解釈する

重回帰分析を行う、解釈する

     

19

(20)

復習:一番いい回帰直線はどれか?

20!

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

数学の点数 (x)

英語の点数 (y)

(21)

復習:回帰直線の求め方 (最小二乗法)

データの中心を通るようにする、つまり、

  の長さ(誤差d)の合計が最小になるようにabを決める

0 1 2 3 4 5 6 7 8 9 10

0 2 4 6 8 10

英語の点数  (y)

数学の点数 (x)

数学の点数 (x)

英語の点数 (y)

y=ax + b

未知量 切片

傾き 回帰直線

: ) (

) (

: y b a

b ax

y = +

21!

(22)

復習:最小二乗法による回帰直線

) (

ˆ ˆ , ˆ

ˆ ˆ

2

2

x s x

y s y

x a y

b

s a s

b x

a y

x xy

x xy

=

⎪ ⎩

⎪ ⎨

=

← = +

=

を通る 点

で,

傾きが ) ,

(

ˆ y x

a

22!

(23)

Excel で回帰直線を求める方法

1.  定義(最小二乗法の結果)にしたがって求める   ⇒ 手間がかかる。確認用

2.  分析ツール(Data Analysis)の回帰分析(Regression を使う

  ⇒ 回帰の結果を詳しく見たい時に使う

3.  「近似曲線の追加」で「線形近似を選ぶ」

  ⇒ 直線の表示、回帰式を求める、R2値を求める      だけなら、これで十分

23!

(24)

回帰直線を求める 方法 1 (確認用)

(25)

回帰直線を求める 方法 2 : 分析ツールを使う

「分析ツール」(

Data Analysis

)の

「回帰分析」(

Regression

)を使えば良い

25!

(26)

「回帰分析」の結果の解釈

26!

P-値が0.05以下の変数がYに「有意に」効いている

YXの相関係数

(27)

重回帰分析:複数の X で Y を説明する

体重y (kg) 胸囲 X1 高さ X2

Y = a + b X1 + c X2 + e

体重がXの足し算で説明できるとする 複数のXYを説明する、

影響の強い変数Xを見つける

データから、係数a,b,cを推定する

係数の値が大きいものは、Yへの影響が強い これをやるために、まず、

・・・

(推定した)回帰式: Y = a + b X1 + c X2 27!

(28)

重回帰分析をエクセルで行う

回帰直線(単回帰分析)と同様!

つまり、「分析ツール」(Data Analysis)の

     「回帰分析」(Regression)を使えば良い      (ただし、Xの選択範囲を複数列にする)

回帰の当てはまりの良さは、

重相関係数R(実際のyと予測したyの相関係数)や その2乗のR値(決定係数)をみればわかる

*但し、変数が増えるほどR2値は大きくなる傾向がある  ⇒少ない変数で当てはまりを良くするのがいい。

 ⇒補正R2値やAIC(赤池情報量基準)の値が小さいほどいい

 AIC = -2×”当てはまりの良さ(最大対数尤度)” + 2×変数の数

28!

補足

(29)

参考: 重回帰分析の推定

29!

参考資料:「Biosta's'cs for Animal Science C a B Int, 2009, pp163-164

(30)

参考: 重回帰分析の応用

多項式回帰分析も、重回帰分析と同様に行える  回帰直線ではなく、回帰曲線(多項式)を求める   

  X2X3のデータ列を作って、重回帰分析を行えば良い 例: Y = a + b X + c X2 + d X3 + e

データファイル: ファイルサーバーの「生物統計学演習2_data_配布用.xlsx」の「人工データ3

(31)

課題 2

(1)  右のデータにおいて、体重(y) 対する胸囲(x)の回帰直線を求め、

散布図上に表示する

(2) 右のデータから16番目のデータ   を除き、(1) を行う  

*いずれも

  関数や分析ツールを使ってよい

牛 体重 (kg) 胸囲 (cm) 1 494.99 183.34 2 491.70 177.40 3 513.73 182.07 4 460.25 176.99 5 465.70 173.06 6 504.75 179.07 7 503.02 185.02 8 458.49 172.56 9 468.56 176.82 10 517.20 182.69 11 509.43 186.12 12 459.85 172.77 13 506.63 184.04 14 484.68 185.64 15 459.32 183.70 16 550.00 174.00

オス牛の体重と胸囲

*データは人工的に生成した 31!

データファイル: ファイルサーバーの

「生物統計学演習2_data_配布用.xlsx」の「人工データ1

(32)

課題 3

(1)  右のデータのそれぞれの変数に ついて、平均値、分散、標準偏差 を求める

(2)  変数(y, x1, x2)の全ての組み合わ せについて、相関係数を求める

   (Pearson相関係数のみ)

(3) 回帰式を求める

(4) 有意でない変数があれば   それを除き(3)を行う

 (有意な変数だけが残るまで行う)

*いずれも

  関数や分析ツールを使ってよい

牛 体重 (kg) 胸囲 (cm) 高さ (cm)

  y x1 x2

1 494.99 183.34 123.65 2 491.70 177.40 125.85 3 513.73 182.07 126.19 4 460.25 176.99 119.82 5 465.70 173.06 119.59 6 504.75 179.07 124.61 7 503.02 185.02 126.46 8 458.49 172.56 122.38 9 468.56 176.82 119.37 10 517.20 182.69 126.62 11 509.43 186.12 124.53 12 459.85 172.77 124.01 13 506.63 184.04 125.05 14 484.68 185.64 121.31 15 459.32 183.70 118.89 16 488.03 180.54 122.50 17 452.64 174.72 123.70 18 456.06 171.56 123.94 19 518.48 184.82 131.16 20 502.99 182.95 124.39 21 498.35 181.29 126.11 22 490.48 177.91 126.01 23 479.85 178.69 122.78 24 496.11 179.63 126.04 25 477.08 179.47 124.15 26 519.65 178.23 127.33 27 496.91 178.10 126.39 28 491.82 178.12 125.20 29 526.13 186.28 129.15 30 466.89 178.35 122.49

オス牛の体重と胸囲、高さ

データファイル: ファイルサーバーの

「生物統計学演習2_data_配布用.xlsx」の「人工データ2

参照

関連したドキュメント

東京都は他の道府県とは値が離れているように見える。相関係数はこう

・関  関 関税法以 税法以 税法以 税法以 税法以外の関 外の関 外の関 外の関 外の関係法令 係法令 係法令 係法令 係法令に係る に係る に係る に係る 係る許可 許可・ 許可・

(火力発電のCO 2 排出係数) - 調整後CO 2 排出係数 0.573 全電源のCO 2 排出係数

高圧ガス移動防災対策については、事業者によって組織されている石川県高圧ガス地域防災協議

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

(火力発電のCO 2 排出係数) - 調整後CO 2 排出係数 0.521 全電源のCO 2 排出係数

[r]

国では、これまでも原子力発電所の安全・防災についての対策を行ってきたが、東海村ウラン加