• 検索結果がありません。

スライド 1

N/A
N/A
Protected

Academic year: 2021

シェア "スライド 1"

Copied!
42
0
0

読み込み中.... (全文を見る)

全文

(1)

2018年4月17日@統計モデリング

担当:田中冬彦

統計モデリング

第二回 配布資料

文献:

A. J. Dobson and A. G. Barnett:

An Introduction to Generalized Linear Models 3rd ed.,

CRC Press.

配布資料のPDFは以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8

(2)

今後の予定

Google map から転載 Location 第二回(今回) 線形モデル 第三回 一般化線形モデル *ニュースの内容の信ぴょう性には言及しません (たとえば, 日本住血吸虫の場合, 経口感染でないことが実験で示されています。) 画像はYou tube, 【新唐人日本2011年5月5日付ニュース】より 第四回 ベイズ統計(導入) ガンバ大阪ホームページより http://www2.gamba-osaka.net/stadium/ Google map から転載 第五回 ベイズファクター

(3)

今日の内容

0. (統計の復習) 分布記号&データの分類 1.統計分析の流れ 2.統計モデル 3.線形モデル (4.グループ分けアンケート)

(4)

本日の主役

線形モデル(回帰モデル)

n

i

=

1

,

2

,

,

)

,

0

(

N

~

σ

2

ε

i

i

i

i

x

Y

=

α

+

β

+

ε

(5)

統計の復習1

~分布記号

(6)

分布記号

統計モデル

モデル式で表現

↑ 分布記号を使う 本講義でモデル式を使う理由 1. 統計・機械学習などのテキストで標準的に利用 2. WinBUGS, Stan などのツールで利用

(7)

分布記号の例1

ツボの中に

k

色の小さいボールを大量に入れる. その比率は 多項分布 意味: k

q

q

q

1

,

2

,

,

1 2 1 + q + + qk = q

n

個のボールを取り出す試行を考えるとき, 各色のボールの個数を k

X

X

X

1

,

2

,

,

とする. これらは確率変数であり, 多項分布に従うことを以下のように記載.

)

,

,

;

(

~

)

,

,

,

(

X

1

X

2

X

k

M

n

q

1

q

k

)

,

,

;

(

n

q

1

q

k

M

(8)

ツボに赤(R)・青(B)・白(W)のボールを、5:3:2 の割合でいれてよく 混ぜた. 100個のボールを取り出す試行を考えるとき, 各色のボール の個数を

練習してみよう!

問1:

~

)

,

,

(

X

R

X

B

X

W W B R X X X , , とする.

)

2

.

0

,

3

.

0

,

5

.

0

;

100

(

M

問2: サイコロを10回ふって出た目の数を数える.(1~6は1/6 の確率で出る.) j の目が出る回数を X j とする (j=1,2,3,4,5,6).

~

)

,

,

,

,

,

(

X

1

X

2

X

3

X

4

X

5

X

6

6

1

,

6

1

,

6

1

,

6

1

,

6

1

,

6

1

;

10

M

(9)

分布記号の例2

二項分布 意味: 多項分布で k=2 (二色のボール)を二項分布と呼ぶ. この場合, 片方の色のボールの個数のみに注目. (成功か失敗かの試行を n 回繰り返す) 1 0 ≤ q ≤ 以下と同じ意味.

)

1

,

;

(

~

)

,

(

X

Y

M

n

q

q

)

;

(

n

q

Bin

)

;

(

~

Bin

n

q

X

n Y X + =

(10)

分布記号の例3

正規分布 意味:

)

,

(

N

~

,

,

,

2 1

X

X

m

v

X

n 確率変数 が正規分布に従うことを以下のように記載.

)

,

(

N

m

v

平均 m, 分散 v (>0) の正規分布(ガウス 分布)

X

)

,

(

N

~

m

v

X

確率変数 が同一の正規分布に独立に従うこと を以下のように記載. (n 標本を独立に抽出, サンプリングする) n

X

X

X

1

,

2

,

,

. . . di i

(11)

平均 162, 分散 25 の正規分布から10個の標本 を抽出

練習してみよう!

問3: 10 2 1, X , , X X

~

,

,

,

2 10 1

X

X

X

i. di. .

N

(

162

,

25

)

1.分布記号のバリエーション ) , ( N ~ m v X j n j =1,, はすべて独立で以下の確率分布に従う j X 補足 2.確率変数は通常、大文字だが、小文字で書いたり、混同して用いる

(12)

統計の復習2

~データの分類

(13)

ここでの目標

データの形式と区別

を理解

→ 統計モデルとデータの形式は密接に関連

& モデルを紹介する際に

データのイメージと実例

(14)

変量(変数)とは k変量データも同様に定義 (k次元データとよぶことも) (英語の点数, 統計の点数) (88, 90) (45, 78) (56, 100) (77, 85) 1変量データ 学食での摂取カロリー (kcal) 879 1047 760 779 845 n x x x1, 2,, 2変量データ (x1, y1),(x2, y2),,(xn, yn) n を標本数 (サンプルサイズ)とよぶ (データサイズとよんだりすることもある)

データの分類(1/3)

(15)

データの分類(2/3)

データの区分 (統計モデルを考える際の目安) 量的データ (連続データ) 質的データ (カテゴリカルデータ) ・名義尺度 ・間隔尺度 男、女(性別)や職業など ◎、〇、△、×(評価)など;順 序に意味があるが, 等間隔とは 限らない *参考: 永田 靖. 他 著: 多変量解析入門. サイエンス社, 1-1節. 東京大学教養学部統計学教室編: 統計学入門, 東京大学出版会, pp. 27-28. 温度のように順序も間隔も意味 があるが原点はどこでもよい ・比率尺度 ・順序尺度 間隔尺度だが原点が定まって いる. (重さ、長さなど)

(16)

モデリングする上での分類 連続データ カウントデータ ・上限あり ・正負をとる ある条件下での種子の発芽数 交通事故件数;ツイート数; いいねの数 3種類のラーメンの注文数 (みそ、しお、とんこつ) ・正値のみ ・上限なし 温度 その他のカテゴリカルデータ 製品の寿命

データの分類(3/3)

(17)
(18)

理想論

実際には, 1,2,3,4 の順に進んで終了することはほとんどない!! ← 狭義にはここで「統計 モデリング」 1.分析課題 3.データの統計分析 4.結論 2.データ収集

(19)

実際の所

IT関係では大量のデータ・記録を保存 → そこから、面白い関係を見つけ出してほしい (むちゃぶりデータマイニング!) 例1: まずはじめにデータありき 例2: 課題のすりかえ 分析したら、当初予定した結果が出なかった → 「1.課題」も変更することに! 1,2,4は完全に切り離して考えることはできない! 参考: 松浦健太郎: StanとRでベイズ統計モデリング, 共立出版, Chap.3 「統計モデリングを始める前に」

(20)
(21)

この解釈により, 確率論と統計学が結びついた! 標本の例: あるクラスの模試の点数 (72, 92, 91, 81, 73) 確率変数の実現値 (未知の分布 F から無作為に5つ取り出した値) と解釈 0 20 40 60 80 100 0. 00 0. 01 0. 02 0. 03 0. 04 0. 05 クラス B の受講者の点数分布(仮想 点数

F

72 92 91 81 73

標本と母集団【統計学の復習】

(22)

~

,

,

,

2 1

X

X

n

X

i.i.d.

F

標本と母集団

記法 母集団(分布) 観測される値の分布 (仮想的なものでもよい) 問題点 Fの動く範囲は広すぎる → ある程度, 分布の形を制限して考える (だいたいの形がわかればよい) 統計の究極的な目標 観測値からFが正確に把握できればよい

(23)

0 20 40 60 80 100 0. 00 0. 01 0. 02 0. 03 0. 04 0. 05 クラス B の受講者の点数分布(仮想 点数

)

|

(

x

θ

p

統計モデル: いくつかのパラメータ で指定される 確率分布の集合

統計モデルの設定

確率分布の未知パラメータ

θ

i.i.d. 1

,

,

n

~ ( | )

X

X

p x

θ

記法

( | )

p x

θ

( | )d 1, ( | ) 0 p x θ x = p x θ ≥

( | ) 1, ( | ) 0 x p x θ = p x θ ≥

確率密度/ 確率関数

(24)

最初の統計モデリング

2種類の方法A, Bで金を回収[g]. 廃棄携帯の基盤 ひと山あた りの回収量がA, Bで以下のようになった. シチュエーション

A: 73, 72, 66, 80, 75

B: 71, 67, 68, 57, 68, 75, 60, 69

基本的な統計量

全体の平均 69.3

全体の分散

38.4

Aの平均

73.2

Aの分散 25.7

Bの平均

66.9

Bの分散 33.5

なんとなくAの方が回収量が多い?(金なので、差は無視できない)

(25)

最初の統計モデリング

二つとも連続値→ とりあえず, 正規分布からの標本と仮定 モデル式 (独立な2変量ガウスモデル)

~

,

,

,

2 5 1

X

X

X

i.i.d.

)

,

(

N

µ

A

v

8 2 1

,

Y

,

,

Y

Y

~

i.i.d.

)

,

(

N

µ

B

v

統計モデルの設定 σ µ, 注意:統計モデルのパラメータは, p, q, f, t, など何を用いてもよい. ただし, 異なるものは µA,µB のように区別すること. 分散は等しい(解析を簡単化する仮定)

(26)

最初の統計モデリング

モデルパラメータ(母数)の推定値* 可視化の例

,

2

.

73

ˆ

A

=

µ

*計算公式は省略(統計のテキストに掲載) パラメータの推定値を代入して 分布を眺める

9

.

66

ˆ

B

=

µ

v

ˆ

=

30

.

7

Aの方がBより回収量が多め(本来はこの後, t 検定) 40 50 60 70 80 90 100 0. 00 0. 02 0. 04 0. 06 0. 08 Ambition of TKK yields P opul at ion 注:パラメータの推定量(値)はハットをつける

(27)

ここまでのまとめ

1. データ(数値)の背後に母集団分布を想像 2. 母集団分布を統計モデルで表現 → パラメータ推定(点推定)や信頼区間、仮説検定、予測 統計モデリングの基本的な考え方 課題が先か手法が先か 分析手法: (ガウスモデルでの)平均の差の仮説検定 分析課題: 方法A, Bで回収量に差があるか? 仮説検定(統計手法)を知っていると、それに応じた課題 設定が可能

(28)

練習してみよう!

O大学(数千人規模)から無作為に100人の学生を選び出し, A, B,C三択のアンケートを行い以下のような結果を得た. 分析のためのモデル式を設定しなさい.

A: 85

B: 13

C: 2

合計: 100

1) O大学でA, B,Cと回答する人たちの割合を以下のように 表す(分析者にとって未知のパラメータ)

(

)

,

,

,

1

A B C A B C

q q q

q

+

q

+

q

=

(29)

2) 無作為に一人を選んだ場合, その人がBと回答する確率 はいくらか? パラメータで書きなさい.

(

A

0,

B

1,

C

0

)

P X

=

X

=

X

=

=

q

B

3) 無作為に 三人を選んだ場合, 一人がA, 二人がBと回答 する確率はいくらか? パラメータで書きなさい.

(

A

1,

B

2,

C

0

)

P X

=

X

=

X

=

=

3

q q

A

B

2

さらに、無作為に選んだ学生がアンケートでA, B, Cと回答 する人数をそれぞれ とすると、これは確率 変数と考えることができる

,

,

A B C

X

X

X

(30)

5) 4)の結果を分布記号を使ってモデル式で表しなさい

(

X

A

,

X

B

,

X

C

)

~

(100;

,

,

)

A

B

C

M

q q q

4)同様に 100人選んだ場合 , それぞれの回答が のようになる確率はいくらか?

(

)

,

,

,

100

A B C A B C

x

x

x

x

+

x

+

x

=

(

A A

,

B B

,

C C

)

P X

=

x X

=

x X

=

x

=

!

100!

!

!

xA xB xC A B C A B C

q

q

q

x

x

x

【参考】 学部1年で習う母比率の差の仮説検定の公式は 上のような3項モデルで導出している.

(31)

補足

思想的な注意点 1. 通常, モデルに正解はない/ 検証のしようがない 物理などの自然科学 2. 独立同一性(i.i.d.)の仮定も含め、作業仮説 3. 「よいモデル」は目的・課題依存 1. 母集団分布の正確な形状は知り得ない, だいたいの形で十分 2. 実験結果から分布の形状が既知の場合, 正当化できる(*) 3. 仮説検定や信頼区間 【初等統計では, このことをあまり表に出さない】、 ベイズ分析で必要 モデルを設定する理由 *精密科学/実験科学の状況だが, 本講義ではあまり考えないシチュエーション,

(32)
(33)

ここでの目標

ある変数を別の変数で説明するモデルを提案

& モデルパラメータの推定

(34)

回帰分析(B-2/C-2資料より)

O大学 新入生のみずほさんは賃貸情報を ネットで検索. 以下のようなデータを得ました. 例題: みずほの部屋探し → 傾向をみるため, 横軸に距離, 縦軸に賃料をとりプロット(点を打つ)

最寄り駅からの距離 (徒歩): 3 5 6 10 11 17

一カ月の賃料 (万円):

8 7.3 6.2 4 4.2 3.5

豊中キャンパス近くの賃貸物件(1K)

(35)

データのプロット

0 5 10 15 20 0 2 4 6 8 10 Kaiki Min Walk 10^ 4 Y E N x <- c(3, 5,6, 10, 11, 17); y <- c(8, 7.3, 6.2, 4, 4.2, 3.5);

plot(x,y, pch=18, col=2, xlim=c(0, 20), ylim=c(0, 10), main="Kaiki", xlab="Min Walk", ylab="10^4 YEN"); abline(h=0, lty=2, col="gray"); # hori line

abline(v=0, lty=2, col="gray"); # vert line

R プログラム例

ペアになっている2変量データは

プロットしておおまかな傾向をつかむ! ワンポイント

(36)

説明変数と目的変数

0 5 10 15 20 0 2 4 6 8 10 Kaiki Min Walk 10^ 4 Y E N (データのばらつきはいったん無視) 簡単な関数 f で変数に以下のような関係が期待される時 説明変数と目的変数

)

( x

f

y

y

目的変数

x

説明変数 とよぶ. (因果関係が既知の) 統計モデリング 今回はx, y は1次元(1変量)のみ扱う.

)

,

,

(

x

1

x

k

f

y

この f をうまく与える(モデル化)のがひとつの目標

x

y

(37)

統計モデルの導入

)

(

:

i i i

y

α

β

x

ε

=

+

統計モデルの設定 ?? ) ( x f y ≈ なんとなく右肩下がり → とりあえず, f として直線(一次式)を仮定 本来のモデル式

~

,

,

,

2 6 1

ε

ε

ε

i.i.d.

N

(

0

,

σ

2

)

分散は等しい(解析を簡単化する仮定) → とりあえず, 平均0の正規分布を仮定 x x f ( ) =

α

+

β

(38)

6 , , 2 , 1  = i x: 最寄駅からの距離(分:徒歩換算), y:一か月の家賃 (万円)

線形モデル

)

,

0

(

~

σ

2

ε

i

N

i i i

x

Y

=

α

+

β

+

ε

モデルのパラメータ,

α

,

β

;

σ

2 パラメータは最尤推定法などで推定 (Rコマンドでできる)

x

x

y

=

α

ˆ

+

β

ˆ

=

8

.

5

0

.

34

線形モデル(回帰モデル) 通常は, 以下のような形で記載 ( f(x) の形を明示)

5

.

8

ˆ

=

α

β

ˆ

=

0

.

34

推定値を代入した f(x) (回帰直線という)

(39)

回帰直線

0 5 10 15 20 0 2 4 6 8 10 Kaiki Min Walk 10^ 4 Y E N x <- c(3, 5,6, 10, 11, 17); y <- c(8, 7.3, 6.2, 4, 4.2, 3.5); res <- lm(y~x); ahat <- res$coefficients[1]; bhat <- res$coefficients[2]; R プログラム例 (回帰分析)

plot(x,y, pch=18, col=2, xlim=c(0, 20), ylim=c(0, 10), main="Kaiki", xlab="Min Walk",

ylab="10^4 YEN");

abline(h=0, lty=2, col="gray"); # hori line abline(v=0, lty=2, col="gray"); # vert line abline(a=ahat, b=bhat);

R プログラム例 (回帰直線)

x x

(40)

ここまでのまとめ

・1Kの家賃は、最寄駅からの距離(徒歩換算)が増える ほど、減少する傾向がみてとれた。 ・だいたい一次式に従っている 今の例について より踏み込んだ分析に向けて ・あてはまりのよさも議論(仮説検定) ・最寄駅からの距離で、だいたいの家賃を予測

(41)

さまざまな拡張のアイディア

1.目的変数Y の期待値を x で表現 (確率の要素なし!) 参考: たとえば, 多項式回帰など. f (x) =

α

+

β

x +

γ

x2 2

~

(

,

)

i i

Y

N

α β σ

+

x

:

[ ]

( )

i

E Y

i

f x

i

µ

=

=

i

x

α β

= +

2.Yの分布のモデル 解釈無視で, x, y をlog, べき乗で変換する方法もある 注:確率変数の期待値

(42)

複数のモデルがある場合*

本講義では, AIC, BICなどの情報量規準を機械的に 使用してよい

p

L

AIC

=

2

(

θ

ˆ

)

+

2

赤池情報量規準 (Akaike Information Criterion) を用いたモデル選択

尤度関数の最大値 (最尤推定は尤度関数を最大化)とパラ メータ数からAICを計算; 相対的にAICの小さいモデルを選ぶ p パラメータ数 ) ( max ) ˆ (θ θ θ L L = ) (θ L 尤度関数 θˆ 最尤推定での推定値 グループタスクでは統計研究室の学生に聞こう!

参照

関連したドキュメント

(質問者 1) 同じく視覚の問題ですけど我々は脳の約 3 分の 1

 海底に生息するナマコ(海鼠) (1) は、日本列島の

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

累積誤差の無い上限と 下限を設ける あいまいな変化点を除 外し、要求される平面 部分で管理を行う 出来形計測の評価範

自閉症の人達は、「~かもしれ ない 」という予測を立てて行動 することが難しく、これから起 こる事も予測出来ず 不安で混乱

どんな分野の学習もつまずく時期がある。うちの

基本目標2 一人ひとりがいきいきと活動する にぎわいのあるまちづくり 基本目標3 安全で快適なうるおいのあるまちづくり..

ぎり︑第三文の効力について疑問を唱えるものは見当たらないのは︑実質的には右のような理由によるものと思われ