. .
.. .
.
.
最小二乗近似
樋口さぶろお
龍谷大学理工学部数理情報学科
数値計算法
L11(2010-07-02)今日の目標
.
.
.
1
共分散・相関係数を計算して
2つの量の関係を イメージできるようになろう
..
.
2
最小二乗近似の仕組みを理解して世の中のデー タの分析に使えるようになろう
.hig3.net
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 1 / 16
最小二乗近似 相関係数
2
変量データ
2変量データ
(xi, yi) (i= 1,2,3, . . . , n).例
: xi:指輪のサイズ
,yi:身長
,出席番号
i= 1,2,3, . . . , n.以下
,∑=∑n
i=1.
一方のデータだけ見て考えると
,y の平均 σ
y2,
y の分散 σ
y2など
µx= 1 n
∑n i=1
xi, σ2x= 1 n−1
∑n i=1
(xi−µx)2
µy = 1 n
∑n i=1
yi, σy2= 1 n−1
∑n i=1
(yi−µy)2
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 2 / 16
最小二乗近似 相関係数
相関
:xiが大きいとき
yiは大きい
(小さい
)傾向があるのか
?統計学入門,東大出版会(1991)図3.3-3.6(p.44)より引用
版では図省略
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 3 / 16
最小二乗近似 相関係数
相関を判定するための量
図
共分散
Cxy = 1 n−1
∑n i=1
(xi−µx)(yi−µy)
x(y)
を
A倍すると
A倍される
.同じ大きさなら同じ相関とはいえない
.そこで
..
相関係数
.
.
.
.. .
.
.
正なら正の相関
,負なら負の相関
.絶対値が大きいと強い相関
.rxy = Cxy σxσy
=
1 n−1
∑(xi−µx)(yi−µy) (n−11∑
(xi−µx)2)1/2(n−11∑
(yi−µy)2)1/2
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 4 / 16
最小二乗近似 相関係数
実は
−1≤rxy ≤+1.以下
∑=∑n
i=1.
.
相関係数の便利な式
.
.
.
.. .
.
.
rxy =
1 n−1
∑(xi−µx)(yi−µy) (n−11∑
(xi−µx)2)1/2(n−11∑
(yi−µy)2)1/2
=
(1
n
∑xiyi
)−µxµy
((1
n
∑x2i)
−µ2x)1/2((1
n
∑yi2)
−µ2y)1/2
次の量がわかればいい
. B =∑x1iyi0, E=∑ x0iyi1, D=∑
x2iy0i, F =∑
x1iyi1, G=∑ x0iy2i.
nµ
x= B, nµ
y= E
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 5 / 16
最小二乗近似 相関係数
.
Quiz
.
.
.
.. .
.
.
次の
2変量データから相関係数を求めよう
. (x, y) = (1,8),(3,8),(4,10),(4,14)樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 6 / 16
最小二乗近似 最小二乗近似
近似
1次式
x, y
間の関係を表すいちばん安易な策
: yは
xの 近似
1次式
a+bxで と書けるとしたら
?中学校的テクニック
散布図で上下へのずれが小さくなるように直線
y=a+bxをひいて傾き
bと切片
aを読み取る
.本来
yが
xの関数
y=f(x)であるはずのとき
,y=a+bxを
回帰
式
,回帰
直線
,a, bのことを
回帰
係数
,式を求める分析 のことを
回帰
分析という
.x
独立変数
y
従属変数
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 7 / 16
最小二乗近似 最小二乗近似
最小二乗近似
:真剣にずれ最小化
ずれが小さいって何が小さいこと
? ¨§栗原§4.1(p.94-100)¥¦近似
1次式を
y=a+bxとする
..
最小二乗近似
.
.
.
.. .
.
.
次の量を最小化するように
a, bを定めよう
Q(a, b) =∑
((a+bxi)−yi)2
極値を与える
(a, b)を探そう
à ∂Q∂a(a, b) = ∂Q∂b(a, b) = 0. 微積分I正規方程式
0 = ∂Q∂a =∑
2(a+bxi−yi) =a·2n+b·2∑
xi−2∑ yi.
0 = ∂Q∂b =∑
2(a+bxi−yi)xi =a·2∑
xi+b·2∑
x2i −2∑ xiyi.
係数が複雑だけど未知数
a, bの連立
1次方程式じゃん
.樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 8 / 16
最小二乗近似 最小二乗近似
未知数
a, bの連立
1次方程式
.Aa+Bb−E =0 Ca+Db−F =0
係数
A=n=∑
x0iy0i =∑ 1
B =C =∑
x1iy0i =∑ xi
D=∑
x2iy0i =∑ x2i
E =∑
x0iy1i =∑ yi
F =∑
x1iy1i =∑ xiyi
相関係数のところと変数名あわせた
.樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 9 / 16
最小二乗近似 最小二乗近似
連立方程式を解こう
.加減法で
,¨
§
¥
栗原p.97,98¦
切片
a=x
i, y
jの式 . 自分で求めてね .
傾き
b= n∑ixiyi−(∑
ixi)(∑
jyj) n∑
x2i −(∑ xi)2
解無しとか不定とか桁落ち
(分母に差がある
)とかが気になる
. Ã待て 次週
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 10 / 16
最小二乗近似 最小二乗近似
.
.
1 i n t main (v o i d){ 2 i n t n =10 , i ;
3 d o u b l e x [ 1 0 ] , y [ 1 0 ] ;
4 d o u b l e s x = 0 . 0 , s y = 0 . 0 ; /∗ P
xi,P yi ∗/ 5 d o u b l e s x x = 0 . 0 , s x y = 0 . 0 , s y y = 0 . 0 ; /∗ P
x2i,P xiyi,P
y2i∗/
6
7 x [ ] , y [ ] をf o p e n , w h i l e( f s c a n f ) , f c l o s e で 読 み 込 む. 8
9 f o r( i =0; i<n ; i ++){
10 s x=s x+x [ i ] ;
11 s x x=s x x+x [ i ]∗x [ i ] ; 12 s x y=s x y+x [ i ]∗y [ i ] ; 13 s y y = . . . . ;
14 }
15 a = . . . ; 16 b = . . . ; 17 r = . . . ; 18
19 p r i n t f ( ”%f %f %f\n ” , a , b , r ) ; 20 r e t u r n 0 ;
21 }
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 11 / 16
最小二乗近似 最小二乗近似
b
と
rxyの関係
rxy =b×((n1 ∑
x2i)−µ2x)1/2 ((n1∑
yi2)−µ2y)1/2
実は
,ぴったり直線に乗る
⇔ Q= 0⇔rxy =±1相関係数
rを求める と
,どの程度よくあっているかがわかる
.樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 12 / 16
最小二乗近似 最小二乗近似
他人をだますための最小二乗近似
Anscombe
の例
.自然科学の統計学
p.53.版では図省略
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 13 / 16
最小二乗近似 最小二乗近似
一般の近似多項式
近似多項式
y=a+bx+cx2+dx3で
,ずれが小さくなるように
a, b, c, dを決める
.Ã
正規方程式は
4元連立
1次方程式
.待て次週
(n元連立
1次方程式の解
)樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 14 / 16
最小二乗近似 連絡
レポート課題
R11(講義
).
.
Web上のある程度信頼できる2変量データの中から自分が興味あるものを探し出し,演習課 題E11ののりで最小二乗近似を用いて近似1次式を求め、グラフを描こう(E111ができてれ ばそのまま使えばいいでしょ).また、そのグラフから読み取れること説明しよう. ただし、
テーマはなるべく他の人と違うものにすること。他の人とほとんど同じテーマである場合 は,後から提出した人は採点の対象にならない.
2変量データの例 気温とビールの売上 気温と発電所の最大電力 テレビ視聴時間と学力 男性の年収と既婚率 年収と学習費
レポートはWordで作成し, A4のPDFでアップロード. 枚数は1枚以上で自由(多いほどよ いわけではない).次の要素を含むこと.
氏名と学籍番号
何のデータかの説明. データの出典(URL).
近似1次式と相関係数
データおよび近似1次式のグラフ
考察(読み取れること)
プログラムのソース(e111.cをそのままWord文書に貼り付ければいい) 科目の成績100点中の日常活動点20点のうちの5点分.提出期間
2010-07-18—2010-07-26. eラーニングシステム(講義)に.レポートは受 講者に公開されることがあります.
樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 15 / 16
最小二乗近似 連絡
演習の課題チェックについての大事な連絡
演習での課題のチェックは
,時間が余っていても
12:15までの予約の 分で終了します
.チェックの結果不完全であっても再度のチェックは しません
.演習での
12:15以降に予約された質問は
, 12:15以前の予約すべてに
対応した後
,余裕がある場合のみ対応します
.ただし
,質問のみで チェックは行いません
.2010-07-16
金に最後の講義
. 2010-07-17土 に任意参加の演習の補講
を行う予定
.これ以降はチェックを行いません
.最後は課題完成が忙 しくなっているので注意
.課題はすでに最後のものまで公開済み
.今回以降の演習の課題完成チェックの
,未チェック訂正リクエストは
,チェックした
TAの名前をあわせて報告するようにお願いしていま す
.これまでは名前がなくても該当
TAを探して照会していました が
,今回以降は
,チェックした
TAの名前が不明な場合は対応しませ ん
.かならず記録しておいてね
.介護実習
,教育実習などへの対応
→先週の配布資料
.樋口さぶろお (数理情報学科) 最小二乗近似 数値計算法L11(2010-07-02) 16 / 16