生物統計学演習
担当 茅野 光範
(かやの みつのり)!帯広畜産大学!
グローバルアグロメディシン研究センター! 研究室: 総合研究棟Ⅰ号館 N2302-6!
E-mail: [email protected]
1
2
回目: 散布図と相関係数、回帰直線講義の予定 全 4 回
1回目 ガイダンス&エクセルに慣れる
(ヒストグラムを描く、平均や分散を求める)
2回目 散布図と相関係数、回帰直線 3回目 確率分布と信頼区間、t-検定
4回目 いろいろな検定: カイ二乗検定と分散分析
2
先週の内容:
ガイダンス&エクセルに慣れる
3!
ヒストグラム、棒グラフを描く、平均や分散を求める
年ごとの乳量(kg/日・頭)
個体 90年(1) 95年(2) 00年(2) 1 31.1 20.7 32.6 2 23.1 36.5 41.4 3 20.7 33.5 36.3 4 25.2 31.7 41.9 5 25.0 32.4 32.1 6 16.1 35.8 26.4 7 25.8 34.7 40.3 8 32.5 32.0 34.3 9 27.2 25.6 34.0 10 27.9 41.4 34.6
*データは仮のものです
0 1 2 3 4 5
20 25 30 35 45 次の級
頻度
乳量
90年
15.00 20.00 25.00 30.00 35.00 40.00
1 2 3
乳量
今日学ぶこと: 例
•
数学と英語の点数に関係があるか[
相関]
あるとすれば、どんな関係があるか[
回帰]
4!
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
(3, 8)
(9, 5)
数学の点数 (x)
英語の点数 (y)
「初歩からの統計学」P.12のデータ
r=0.38
y=0.4x + 3.4
数学の点数と英語の点数の散布図
今日の内容
散布図と相関係数 散布図を描く
相関係数を求める
(
Pearson
相関係数とSpearman
相関係数)回帰直線
回帰直線を求める、解釈する
重回帰分析を行う、解釈する
5
散布図と相関係数 散布図を描く
相関係数を求める
6
今日前半で使うデータ:
数学と英語のデータ
学生10人の数学と英語の成績
学生No 1 2 3 4 5 6 7 8 9 10 数学 (x) 5 3 6 10 4 7 7 3 9 6 英語 (y) 7 8 4 8 3 6 10 2 5 5
7!
) , , 2 , 1 (
) , (
) ,
(, ),
, ( ), ,
( 1 1 2 2
n i
y x or
y x y
x y
x
i i
n n
!
!
=
1人目のデータ
「初歩からの統計学」【例1.4.1】
=5
=7
=3
=8
=6
=4
散布図を描く
8!
2変数の関係の強さは? → 相関係数 関係式は? → 回帰分析
1. データを選択する
2. 「挿入」タブから 「散布図」を選ぶ
復習: 相関係数の定義
Pearson
(ピアソン)相関係数とも呼ばれるy x
xy
s s r = s :
相関係数
) (
) 1 (
, ) 1 (
) (
) )(
1 (
1
2 1
2 1
の標準偏差 と
は と
の共分散 と
y x
s s
y n y
s x
n x s
y x
y y
x n x
s
y x
n i
i y
n i
i x
n i
i i
xy
∑
∑
∑
=
=
=
−
=
−
=
−
−
=
− 1 ≤ r ≤ 1
9!
標準偏差(SD; Standard Devia;on)
相関の強さを表す値
相関係数 共分散
の平均 の平均
の積の平均 と
の共分散 と
偏差との積の平均 偏差と
y x
y x
y x
y n x
y x
y x y
x y
n x
y y
x x
y y
x x
y y
x n x
s
y x
y x
y y
x n x
s
n i
i i
n n
n n
xy
n i
i i
xy
×
−
⇒
•
−
=
•
− +
+ +
=
−
− +
+
−
− +
−
−
=
⇒
−
−
=
∑
∑
=
=
1
2 2 1
1
2 2
1 1
1
1
) 1 (
)}
)(
( )
)(
( ) )(
1{(
) (
) )(
1 (
!
!
10!
y x
xy
s s r = s
−1≤ r ≤1 重要!
共分散の符号と散布図のパターン
正の相関の場合:
共分散が正
-6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
交差積が正
交差積が正
交差積が負 交差積が負
-6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
負の相関の場合:
共分散が負 交差積が負
交差積が負 交差積が正
交差積が正
X X
y y
∑
=−
−
=
n i
i i
xy x x y y
s n
1
) )(
1 (
交差積
x
y
x y
参考
復習: 散布図と相関係数の対応
12!
-2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -3 -2 -1 0 1 2
-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
正
-2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
負
r ≒ 0.3 r ≒ 0.6
r ≒ 0.9
r ≒ -0.3 r ≒ -0.6
r ≒ -0.9
相関係数などを求める
データの例: オス牛の体重と胸囲
牛 体重 (kg) 胸囲 (cm) 1 494.99 183.34 2 491.70 177.40 3 513.73 182.07 4 460.25 176.99 5 465.70 173.06 6 504.75 179.07 7 503.02 185.02 8 458.49 172.56 9 468.56 176.82 10 517.20 182.69 11 509.43 186.12 12 459.85 172.77 13 506.63 184.04 14 484.68 185.64 15 459.32 183.70 16 550.00 165.00
*データは人工的に生成した
データの参考資料:
「Biosta's'cs for Animal Science」 C a B Int, 2009, Sec. 9.1.1 14!
160.00 165.00 170.00 175.00 180.00 185.00 190.00
440.00 460.00 480.00 500.00 520.00 540.00 560.00
体重 (kg)
胸囲 (cm)
相関係数の弱点: 外れ値に弱い
全てのデータで計算した 相関係数
r = 0.05
外れ値を除いて計算した 相関係数
r = 0.67 !
↑
こちらの方がデータ全体の 傾向を適切に表している
160.00 165.00 170.00 175.00 180.00 185.00 190.00
440.00 460.00 480.00 500.00 520.00 540.00 560.00
体重 (kg)
胸囲 (cm)
15!
外れ値の影響を除く:
Spearman (スピアマン)の順位相関係数
Spearman相関係数 or 順位相関係数
Q R
RQ
s s r s
Spearman 相関係数 : =
) (
12 ) 1
1 (
) (
) )(
1 (
2 1
2 1
の標準偏差 と
は と
の共分散 と
Q R
s s
R n n R
s s
y x
Q Q
R n R
s
Q R
n i
i Q
R
n i
i i
RQ
= −
−
=
=
−
−
=
∑
∑
=
=
− 1 ≤ r ≤ 1
16!
Ri, Qi は、
xi, yiの順位
データ(x, y)を順位(R, Q)に置き換えて計算した相関係数
17!
Excel で Spearman 相関係数を計算する
課題 1
(1) 右のデータのそれぞれの変数 (体重、胸囲)について、平均値、
分散、標準偏差を求める (2) 散布図を描く
(3) Pearson相関係数を求める
(4) Spearson相関係数を求める
(5)右のデータから16番目のデータを 除き、(1), (2), (3), (4)を行う
*いずれも
関数や分析ツールを使ってよい
牛 体重 (kg) 胸囲 (cm) 1 494.99 183.34 2 491.70 177.40 3 513.73 182.07 4 460.25 176.99 5 465.70 173.06 6 504.75 179.07 7 503.02 185.02 8 458.49 172.56 9 468.56 176.82 10 517.20 182.69 11 509.43 186.12 12 459.85 172.77 13 506.63 184.04 14 484.68 185.64 15 459.32 183.70 16 550.00 165.00
オス牛の体重と胸囲
*データは人工的に生成した
データの参考資料:
「Biosta's'cs for Animal Science」 C a B Int, 2009, Sec. 9.1.1 18!
回帰直線
回帰直線を求める、解釈する
重回帰分析を行う、解釈する
19
復習:一番いい回帰直線はどれか?
20!
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
数学の点数 (x)
英語の点数 (y)
復習:回帰直線の求め方 (最小二乗法)
データの”中心”を通るようにする、つまり、
の長さ(誤差d)の合計が最小になるようにaとbを決める
0 1 2 3 4 5 6 7 8 9 10
0 2 4 6 8 10
英語の点数 (y)
数学の点数 (x)
数学の点数 (x)
英語の点数 (y)
y=ax + b
未知量 切片
と 傾き 回帰直線
: ) (
) (
: y b a
b ax
y = +
21!
復習:最小二乗法による回帰直線
) (
ˆ ˆ , ˆ
ˆ ˆ
2
2
x s x
y s y
x a y
b
s a s
b x
a y
x xy
x xy
−
=
−
⎪ ⎩
⎪ ⎨
⎧
−
=
← = +
=
を通る 点
で,
傾きが ) ,
(
ˆ y x
a
22!
Excel で回帰直線を求める方法
1. 定義(最小二乗法の結果)にしたがって求める ⇒ 手間がかかる。確認用
2. 分析ツール(Data Analysis)の回帰分析(Regression) を使う
⇒ 回帰の結果を詳しく見たい時に使う
3. 「近似曲線の追加」で「線形近似を選ぶ」
⇒ 直線の表示、回帰式を求める、R2値を求める だけなら、これで十分
23!
回帰直線を求める 方法 1 (確認用)
回帰直線を求める 方法 2 : 分析ツールを使う
「分析ツール」(
Data Analysis
)の「回帰分析」(
Regression
)を使えば良い25!
「回帰分析」の結果の解釈
26!
P-値が0.05以下の変数がYに「有意に」効いている
YとXの相関係数
重回帰分析:複数の X で Y を説明する
例
体重y (kg) 胸囲 X1 高さ X2
Y = a + b X1 + c X2 + e
体重がXの足し算で説明できるとする 複数のXでYを説明する、
影響の強い変数Xを見つける
データから、係数a,b,cを推定する
係数の値が大きいものは、Yへの影響が強い これをやるために、まず、
・・・
(推定した)回帰式: Y = a + b X1 + c X2 27!
重回帰分析をエクセルで行う
回帰直線(単回帰分析)と同様!
つまり、「分析ツール」(Data Analysis)の
「回帰分析」(Regression)を使えば良い (ただし、Xの選択範囲を複数列にする)
回帰の当てはまりの良さは、
重相関係数R(実際のyと予測したyの相関係数)や その2乗のR2値(決定係数)をみればわかる
*但し、変数が増えるほどR2値は大きくなる傾向がある ⇒少ない変数で当てはまりを良くするのがいい。
⇒補正R2値やAIC(赤池情報量基準)の値が小さいほどいい
AIC = -2×”当てはまりの良さ(最大対数尤度)” + 2×変数の数
28!
補足
参考: 重回帰分析の推定
29!
参考資料:「Biosta's'cs for Animal Science」 C a B Int, 2009, pp163-164
参考: 重回帰分析の応用
多項式回帰分析も、重回帰分析と同様に行える 回帰直線ではなく、回帰曲線(多項式)を求める
X2、X3のデータ列を作って、重回帰分析を行えば良い 例: Y = a + b X + c X2 + d X3 + e
データファイル: ファイルサーバーの「生物統計学演習2_data_配布用.xlsx」の「人工データ3」
課題 2
(1) 右のデータにおいて、体重(y)に 対する胸囲(x)の回帰直線を求め、
散布図上に表示する
(2) 右のデータから16番目のデータ を除き、(1) を行う
*いずれも
関数や分析ツールを使ってよい
牛 体重 (kg) 胸囲 (cm) 1 494.99 183.34 2 491.70 177.40 3 513.73 182.07 4 460.25 176.99 5 465.70 173.06 6 504.75 179.07 7 503.02 185.02 8 458.49 172.56 9 468.56 176.82 10 517.20 182.69 11 509.43 186.12 12 459.85 172.77 13 506.63 184.04 14 484.68 185.64 15 459.32 183.70 16 550.00 174.00
オス牛の体重と胸囲
*データは人工的に生成した 31!
データファイル: ファイルサーバーの
「生物統計学演習2_data_配布用.xlsx」の「人工データ1」
課題 3
(1) 右のデータのそれぞれの変数に ついて、平均値、分散、標準偏差 を求める
(2) 変数(y, x1, x2)の全ての組み合わ せについて、相関係数を求める
(Pearson相関係数のみ)
(3) 回帰式を求める
(4) 有意でない変数があれば それを除き(3)を行う
(有意な変数だけが残るまで行う)
*いずれも
関数や分析ツールを使ってよい
牛 体重 (kg) 胸囲 (cm) 高さ (cm)
y x1 x2
1 494.99 183.34 123.65 2 491.70 177.40 125.85 3 513.73 182.07 126.19 4 460.25 176.99 119.82 5 465.70 173.06 119.59 6 504.75 179.07 124.61 7 503.02 185.02 126.46 8 458.49 172.56 122.38 9 468.56 176.82 119.37 10 517.20 182.69 126.62 11 509.43 186.12 124.53 12 459.85 172.77 124.01 13 506.63 184.04 125.05 14 484.68 185.64 121.31 15 459.32 183.70 118.89 16 488.03 180.54 122.50 17 452.64 174.72 123.70 18 456.06 171.56 123.94 19 518.48 184.82 131.16 20 502.99 182.95 124.39 21 498.35 181.29 126.11 22 490.48 177.91 126.01 23 479.85 178.69 122.78 24 496.11 179.63 126.04 25 477.08 179.47 124.15 26 519.65 178.23 127.33 27 496.91 178.10 126.39 28 491.82 178.12 125.20 29 526.13 186.28 129.15 30 466.89 178.35 122.49
オス牛の体重と胸囲、高さ
データファイル: ファイルサーバーの
「生物統計学演習2_data_配布用.xlsx」の「人工データ2」