2018年4月17日@統計モデリング
担当:田中冬彦
統計モデリング
第二回 配布資料
文献:
A. J. Dobson and A. G. Barnett:
An Introduction to Generalized Linear Models 3rd ed.,
CRC Press.
配布資料のPDFは以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8
今後の予定
Google map から転載 Location 第二回(今回) 線形モデル 第三回 一般化線形モデル *ニュースの内容の信ぴょう性には言及しません (たとえば, 日本住血吸虫の場合, 経口感染でないことが実験で示されています。) 画像はYou tube, 【新唐人日本2011年5月5日付ニュース】より 第四回 ベイズ統計(導入) ガンバ大阪ホームページより http://www2.gamba-osaka.net/stadium/ Google map から転載 第五回 ベイズファクター今日の内容
0. (統計の復習) 分布記号&データの分類 1.統計分析の流れ 2.統計モデル 3.線形モデル (4.グループ分けアンケート)本日の主役
線形モデル(回帰モデル)
n
i
=
1
,
2
,
,
)
,
0
(
N
~
σ
2ε
ii
i
i
x
Y
=
α
+
β
+
ε
統計の復習1
~分布記号
分布記号
統計モデル
=
モデル式で表現
↑ 分布記号を使う 本講義でモデル式を使う理由 1. 統計・機械学習などのテキストで標準的に利用 2. WinBUGS, Stan などのツールで利用分布記号の例1
ツボの中にk
色の小さいボールを大量に入れる. その比率は 多項分布 意味: kq
q
q
1,
2,
,
1 2 1 + q + + qk = q n
個のボールを取り出す試行を考えるとき, 各色のボールの個数を kX
X
X
1,
2,
,
とする. これらは確率変数であり, 多項分布に従うことを以下のように記載.)
,
,
;
(
~
)
,
,
,
(
X
1X
2
X
kM
n
q
1
q
k)
,
,
;
(
n
q
1q
kM
ツボに赤(R)・青(B)・白(W)のボールを、5:3:2 の割合でいれてよく 混ぜた. 100個のボールを取り出す試行を考えるとき, 各色のボール の個数を
練習してみよう!
問1:~
)
,
,
(
X
RX
BX
W W B R X X X , , とする.)
2
.
0
,
3
.
0
,
5
.
0
;
100
(
M
問2: サイコロを10回ふって出た目の数を数える.(1~6は1/6 の確率で出る.) j の目が出る回数を X j とする (j=1,2,3,4,5,6).~
)
,
,
,
,
,
(
X
1X
2X
3X
4X
5X
6
6
1
,
6
1
,
6
1
,
6
1
,
6
1
,
6
1
;
10
M
分布記号の例2
二項分布 意味: 多項分布で k=2 (二色のボール)を二項分布と呼ぶ. この場合, 片方の色のボールの個数のみに注目. (成功か失敗かの試行を n 回繰り返す) 1 0 ≤ q ≤ 以下と同じ意味.)
1
,
;
(
~
)
,
(
X
Y
M
n
q
−
q
)
;
(
n
q
Bin
)
;
(
~
Bin
n
q
X
n Y X + =分布記号の例3
正規分布 意味:)
,
(
N
~
,
,
,
2 1X
X
m
v
X
n 確率変数 が正規分布に従うことを以下のように記載.)
,
(
N
m
v
平均 m, 分散 v (>0) の正規分布(ガウス 分布)X
)
,
(
N
~
m
v
X
確率変数 が同一の正規分布に独立に従うこと を以下のように記載. (n 標本を独立に抽出, サンプリングする) nX
X
X
1,
2,
,
. . . di i平均 162, 分散 25 の正規分布から10個の標本 を抽出
練習してみよう!
問3: 10 2 1, X , , X X ~
,
,
,
2 10 1X
X
X
i. di. .N
(
162
,
25
)
1.分布記号のバリエーション ) , ( N ~ m v X j n j =1,, はすべて独立で以下の確率分布に従う j X 補足 2.確率変数は通常、大文字だが、小文字で書いたり、混同して用いる統計の復習2
~データの分類
ここでの目標
データの形式と区別
を理解
→ 統計モデルとデータの形式は密接に関連
& モデルを紹介する際に
データのイメージと実例
変量(変数)とは k変量データも同様に定義 (k次元データとよぶことも) (英語の点数, 統計の点数) (88, 90) (45, 78) (56, 100) (77, 85) 1変量データ 学食での摂取カロリー (kcal) 879 1047 760 779 845 n x x x1, 2,, 2変量データ (x1, y1),(x2, y2),,(xn, yn) n を標本数 (サンプルサイズ)とよぶ (データサイズとよんだりすることもある)
データの分類(1/3)
データの分類(2/3)
データの区分 (統計モデルを考える際の目安) 量的データ (連続データ) 質的データ (カテゴリカルデータ) ・名義尺度 ・間隔尺度 男、女(性別)や職業など ◎、〇、△、×(評価)など;順 序に意味があるが, 等間隔とは 限らない *参考: 永田 靖. 他 著: 多変量解析入門. サイエンス社, 1-1節. 東京大学教養学部統計学教室編: 統計学入門, 東京大学出版会, pp. 27-28. 温度のように順序も間隔も意味 があるが原点はどこでもよい ・比率尺度 ・順序尺度 間隔尺度だが原点が定まって いる. (重さ、長さなど)モデリングする上での分類 連続データ カウントデータ ・上限あり ・正負をとる ある条件下での種子の発芽数 交通事故件数;ツイート数; いいねの数 3種類のラーメンの注文数 (みそ、しお、とんこつ) ・正値のみ ・上限なし 温度 その他のカテゴリカルデータ 製品の寿命
データの分類(3/3)
理想論
実際には, 1,2,3,4 の順に進んで終了することはほとんどない!! ← 狭義にはここで「統計 モデリング」 1.分析課題 3.データの統計分析 4.結論 2.データ収集実際の所
IT関係では大量のデータ・記録を保存 → そこから、面白い関係を見つけ出してほしい (むちゃぶりデータマイニング!) 例1: まずはじめにデータありき 例2: 課題のすりかえ 分析したら、当初予定した結果が出なかった → 「1.課題」も変更することに! 1,2,4は完全に切り離して考えることはできない! 参考: 松浦健太郎: StanとRでベイズ統計モデリング, 共立出版, Chap.3 「統計モデリングを始める前に」この解釈により, 確率論と統計学が結びついた! 標本の例: あるクラスの模試の点数 (72, 92, 91, 81, 73) 確率変数の実現値 (未知の分布 F から無作為に5つ取り出した値) と解釈 0 20 40 60 80 100 0. 00 0. 01 0. 02 0. 03 0. 04 0. 05 クラス B の受講者の点数分布(仮想 点数
F
72 92 91 81 73
標本と母集団【統計学の復習】
~
,
,
,
2 1X
X
nX
i.i.d.F
標本と母集団
記法 母集団(分布) 観測される値の分布 (仮想的なものでもよい) 問題点 Fの動く範囲は広すぎる → ある程度, 分布の形を制限して考える (だいたいの形がわかればよい) 統計の究極的な目標 観測値からFが正確に把握できればよい0 20 40 60 80 100 0. 00 0. 01 0. 02 0. 03 0. 04 0. 05 クラス B の受講者の点数分布(仮想 点数
)
|
(
x
θ
p
統計モデル: いくつかのパラメータ で指定される 確率分布の集合統計モデルの設定
確率分布の未知パラメータθ
i.i.d. 1,
,
n~ ( | )
X
X
p x
θ
記法( | )
p x
θ
( | )d 1, ( | ) 0 p x θ x = p x θ ≥∫
( | ) 1, ( | ) 0 x p x θ = p x θ ≥∑
確率密度/ 確率関数最初の統計モデリング
2種類の方法A, Bで金を回収[g]. 廃棄携帯の基盤 ひと山あた りの回収量がA, Bで以下のようになった. シチュエーションA: 73, 72, 66, 80, 75
B: 71, 67, 68, 57, 68, 75, 60, 69
基本的な統計量全体の平均 69.3
全体の分散
38.4
Aの平均
73.2
Aの分散 25.7
Bの平均
66.9
Bの分散 33.5
なんとなくAの方が回収量が多い?(金なので、差は無視できない)最初の統計モデリング
二つとも連続値→ とりあえず, 正規分布からの標本と仮定 モデル式 (独立な2変量ガウスモデル)~
,
,
,
2 5 1X
X
X
i.i.d.)
,
(
N
µ
A
v
8 2 1,
Y
,
,
Y
Y
~
i.i.d.)
,
(
N
µ
B
v
統計モデルの設定 σ µ, 注意:統計モデルのパラメータは, p, q, f, t, など何を用いてもよい. ただし, 異なるものは µA,µB のように区別すること. 分散は等しい(解析を簡単化する仮定)最初の統計モデリング
モデルパラメータ(母数)の推定値* 可視化の例,
2
.
73
ˆ
A=
µ
*計算公式は省略(統計のテキストに掲載) パラメータの推定値を代入して 分布を眺める9
.
66
ˆ
B=
µ
v
ˆ
=
30
.
7
Aの方がBより回収量が多め(本来はこの後, t 検定) 40 50 60 70 80 90 100 0. 00 0. 02 0. 04 0. 06 0. 08 Ambition of TKK yields P opul at ion 注:パラメータの推定量(値)はハットをつけるここまでのまとめ
1. データ(数値)の背後に母集団分布を想像 2. 母集団分布を統計モデルで表現 → パラメータ推定(点推定)や信頼区間、仮説検定、予測 統計モデリングの基本的な考え方 課題が先か手法が先か 分析手法: (ガウスモデルでの)平均の差の仮説検定 分析課題: 方法A, Bで回収量に差があるか? 仮説検定(統計手法)を知っていると、それに応じた課題 設定が可能練習してみよう!
O大学(数千人規模)から無作為に100人の学生を選び出し, A, B,C三択のアンケートを行い以下のような結果を得た. 分析のためのモデル式を設定しなさい.A: 85
B: 13
C: 2
合計: 100
1) O大学でA, B,Cと回答する人たちの割合を以下のように 表す(分析者にとって未知のパラメータ)(
)
,
,
,
1
A B C A B Cq q q
q
+
q
+
q
=
2) 無作為に一人を選んだ場合, その人がBと回答する確率 はいくらか? パラメータで書きなさい.
(
A0,
B1,
C0
)
P X
=
X
=
X
=
=
q
B
3) 無作為に 三人を選んだ場合, 一人がA, 二人がBと回答 する確率はいくらか? パラメータで書きなさい.(
A1,
B2,
C0
)
P X
=
X
=
X
=
=
3
q q
A
B
2
さらに、無作為に選んだ学生がアンケートでA, B, Cと回答 する人数をそれぞれ とすると、これは確率 変数と考えることができる,
,
A B CX
X
X
5) 4)の結果を分布記号を使ってモデル式で表しなさい
(
X
A,
X
B,
X
C)
~
(100;
,
,
)
A
B
C
M
q q q
4)同様に 100人選んだ場合 , それぞれの回答が のようになる確率はいくらか?(
)
,
,
,
100
A B C A B Cx
x
x
x
+
x
+
x
=
(
A A,
B B,
C C)
P X
=
x X
=
x X
=
x
=
!
100!
!
!
xA xB xC A B C A B Cq
q
q
x
x
x
【参考】 学部1年で習う母比率の差の仮説検定の公式は 上のような3項モデルで導出している.補足
思想的な注意点 1. 通常, モデルに正解はない/ 検証のしようがない 物理などの自然科学 2. 独立同一性(i.i.d.)の仮定も含め、作業仮説 3. 「よいモデル」は目的・課題依存 1. 母集団分布の正確な形状は知り得ない, だいたいの形で十分 2. 実験結果から分布の形状が既知の場合, 正当化できる(*) 3. 仮説検定や信頼区間 【初等統計では, このことをあまり表に出さない】、 ベイズ分析で必要 モデルを設定する理由 *精密科学/実験科学の状況だが, 本講義ではあまり考えないシチュエーション,ここでの目標
ある変数を別の変数で説明するモデルを提案
& モデルパラメータの推定
回帰分析(B-2/C-2資料より)
O大学 新入生のみずほさんは賃貸情報を ネットで検索. 以下のようなデータを得ました. 例題: みずほの部屋探し → 傾向をみるため, 横軸に距離, 縦軸に賃料をとりプロット(点を打つ)最寄り駅からの距離 (徒歩): 3 5 6 10 11 17
一カ月の賃料 (万円):
8 7.3 6.2 4 4.2 3.5
豊中キャンパス近くの賃貸物件(1K)データのプロット
0 5 10 15 20 0 2 4 6 8 10 Kaiki Min Walk 10^ 4 Y E N x <- c(3, 5,6, 10, 11, 17); y <- c(8, 7.3, 6.2, 4, 4.2, 3.5);plot(x,y, pch=18, col=2, xlim=c(0, 20), ylim=c(0, 10), main="Kaiki", xlab="Min Walk", ylab="10^4 YEN"); abline(h=0, lty=2, col="gray"); # hori line
abline(v=0, lty=2, col="gray"); # vert line
R プログラム例
ペアになっている2変量データは
プロットしておおまかな傾向をつかむ! ワンポイント
説明変数と目的変数
0 5 10 15 20 0 2 4 6 8 10 Kaiki Min Walk 10^ 4 Y E N (データのばらつきはいったん無視) 簡単な関数 f で変数に以下のような関係が期待される時 説明変数と目的変数)
( x
f
y
≈
y
目的変数x
説明変数 とよぶ. (因果関係が既知の) 統計モデリング 今回はx, y は1次元(1変量)のみ扱う.)
,
,
(
x
1x
kf
y
≈
この f をうまく与える(モデル化)のがひとつの目標x
y
統計モデルの導入
)
(
:
i i iy
α
β
x
ε
=
−
+
統計モデルの設定 ?? ) ( x f y ≈ なんとなく右肩下がり → とりあえず, f として直線(一次式)を仮定 本来のモデル式~
,
,
,
2 6 1ε
ε
ε
i.i.d.N
(
0
,
σ
2)
分散は等しい(解析を簡単化する仮定) → とりあえず, 平均0の正規分布を仮定 x x f ( ) =α
+β
6 , , 2 , 1 = i x: 最寄駅からの距離(分:徒歩換算), y:一か月の家賃 (万円)
線形モデル
)
,
0
(
~
σ
2ε
iN
i i ix
Y
=
α
+
β
+
ε
モデルのパラメータ,α
,
β
;
σ
2 パラメータは最尤推定法などで推定 (Rコマンドでできる)x
x
y
=
α
ˆ
+
β
ˆ
=
8
.
5
−
0
.
34
線形モデル(回帰モデル) 通常は, 以下のような形で記載 ( f(x) の形を明示)5
.
8
ˆ
=
α
β
ˆ
=
−
0
.
34
推定値を代入した f(x) (回帰直線という)回帰直線
0 5 10 15 20 0 2 4 6 8 10 Kaiki Min Walk 10^ 4 Y E N x <- c(3, 5,6, 10, 11, 17); y <- c(8, 7.3, 6.2, 4, 4.2, 3.5); res <- lm(y~x); ahat <- res$coefficients[1]; bhat <- res$coefficients[2]; R プログラム例 (回帰分析)plot(x,y, pch=18, col=2, xlim=c(0, 20), ylim=c(0, 10), main="Kaiki", xlab="Min Walk",
ylab="10^4 YEN");
abline(h=0, lty=2, col="gray"); # hori line abline(v=0, lty=2, col="gray"); # vert line abline(a=ahat, b=bhat);
R プログラム例 (回帰直線)
x x
ここまでのまとめ
・1Kの家賃は、最寄駅からの距離(徒歩換算)が増える ほど、減少する傾向がみてとれた。 ・だいたい一次式に従っている 今の例について より踏み込んだ分析に向けて ・あてはまりのよさも議論(仮説検定) ・最寄駅からの距離で、だいたいの家賃を予測さまざまな拡張のアイディア
1.目的変数Y の期待値を x で表現 (確率の要素なし!) 参考: たとえば, 多項式回帰など. f (x) =α
+β
x +γ
x2 2~
(
,
)
i iY
N
α β σ
+
x
:
[ ]
( )
iE Y
if x
iµ
=
=
ix
α β
= +
2.Yの分布のモデル 解釈無視で, x, y をlog, べき乗で変換する方法もある 注:確率変数の期待値複数のモデルがある場合*
本講義では, AIC, BICなどの情報量規準を機械的に 使用してよいp
L
AIC
=
−
2
(
θ
ˆ
)
+
2
赤池情報量規準 (Akaike Information Criterion) を用いたモデル選択
尤度関数の最大値 (最尤推定は尤度関数を最大化)とパラ メータ数からAICを計算; 相対的にAICの小さいモデルを選ぶ p パラメータ数 ) ( max ) ˆ (θ θ θ L L = ) (θ L 尤度関数 θˆ 最尤推定での推定値 グループタスクでは統計研究室の学生に聞こう!