(1)(2)導入
導入
問題! 次の主張のどこがおかしい?
問題! 次の主張のどこがおかしい?
「学歴の高さ
と
「学歴の高さ」
と
「大学入試の数学成績」
は
「大学入試の数学成績」
は
比例する
比例する
どうおかしいか、どう直せばいいか
(3)導入
導入
おかしかったところ
(主に)
おかしかったところ
(主に)
・「学歴の高さ」が数値化されていない
→ これは何らかの方法で解決可能
関係が成り立 か
・
Y=aXの関係
が成り立つか?
→
X=0でどうか? 全部の点が直線上か?
・
比例定数は負でも良い
んですけど・・・
→ 言い訳できない
正確な表現は
…
「比例」ではなく、
相関
比例 完全相関(相関係数1)
比例=完全相関(相関係数1)
かつ原点を通る場合
右の例では (注:データは適当!)
右の例では (注:デ タは適当!)
相関係数
R=0.91
決定係数
R
2=0 82
決定係数
R
2=0.82
(4)(5)統計学の基本
統計学の基本
統計(統計学)とは
数多くのデータを集めて数値化し、そのばらつき(分布)などを知る
統計(統計学)とは
データの集まりから、規則性等を発見し、現象を推測する
記述統計
収集したデ タの要約統計量を計算して 分布を明らかに
記述統計・・・収集したデータの要約統計量を計算して、分布を明らかに
する事により、データの示す傾向や性質を知る
推測統計・・・データから その元となっている諸性質を確率論的に推測
推測統計・・・データから、その元となっている諸性質を確率論的に推測
する
歴史的には、国力
の調査が起源。
(6)統計学の基本
統計学の基本
ボウリングのスコアの度数分布表
ボウリングのスコアの度数分布表
度数分布表
それぞれの変量を ある階級幅を取った階級の中に数
それぞれの変量を、ある階級幅を取った階級の中に数
え上げ、順番に並べた表。
階級の数は見やすい程度に、恣意的に決めてよい(ス
タージェスの公式などもあるが 参考程度に)
タ ジェスの公式などもあるが、参考程度に)。
階級幅は通常、一定にする。
(7)統計学の基本
統計学の基本
ボウリングのスコアのヒストグラム
ボウリングのスコアのヒストグラム
ヒストグラム
ヒストグラム
度数分布表を
グラフにしたもの。
(8)統計学の基本
統計学の基本
貯蓄現在高のヒストグラム
(9)統計学の基本
統計学の基本
麻雀における平均順位のヒストグラム
麻雀における平均順位のヒストグラム
(10)統計学の基本
統計学の基本
確率と統計の違い
確率と統計の違い
確率・・・「起こり得る事象の分布が完全にわかっている」
統計 「 部 デ タ(標本)から 全体( 集 ) 性質(統計量 分布など)を推測する
統計・・・「一部のデータ(標本)から、全体(母集団)の性質(統計量、分布など)を推測する」
「サイコロを振って1が出る確率は1/6である」
「サイコロを振って1が出る確率は1/6である」
「実際に1000回サイコロを振って統計をとってみたところ、50回しか1が出なかった・・・
このサイコロは、1が出る確率が1/6ではないと統計的に言える」
「サイコロを売ろうと思っている。実際に製造したサイコロからランダムサンプリングして、
各々のサイコロを試験すると、品質として問題となる偏りはないと統計的にわかった」
推測・検定・要因分析などなど
車の各部品の故障率についての品質管理
車の各部品の故障率についての品質管理
新薬開発における2重盲検法による効果実証
世論調査での賛成・反対の男女別の差の有無の検定
広い湖の全体に何匹の魚がいるかの推測
(11)統計学の基本
統計学の基本
母集団と標本
母集団と標本
母集団の平均と標本平均
母集団の標準偏差と標本の標準偏差
母平均
μ
母集団の標準偏差と標本の標準偏差
これらを明確に分けて理解しよう。
μ
母標準偏差
σ
標本平均
m
標本標準偏差
標本標準偏差
s
「母集団」から一部のサンプル(標本)を抽出し(取り出し)、それをもとに推測を行う。
母集団の例:「東京大学生全員」「無限回マージャンを打った結果」「製造された製品全体」
標本の例:「東京大学生のランダムな50人」「マージャンを1000回打った結果」「ランダムサンプリ
ングした製品(硬度検査など、再現性のない場合に利用)」
ングした製品(硬度検査など、再現性のない場合に利用)」
(12)(13)基本統計量
基本統計量
基本的な統計量
平均値(
)
ば
基本的な統計量
平均値(
mean)・・・
ばらつきの中心の傾向
中央値(
median)
最頻値(
mode)
分散
・・・ばらつきの大きさを表す
分散
ばら きの大きさを表す
標準偏差
・・・分散の平方根(単位がデータの単位と同じ)
変動係数
・・・標準偏差÷平均(無単位でばらつきを表す)
変動係数
・・・標準偏差÷平均(無単位でばらつきを表す)
歪度
・・・分布の非対称性を表す
尖度
分布のとがりを表す
尖度
・・・分布のとがりを表す
データのばらつきの形状(分布)を数値で表したもの
(14)(15)基本統計量
基本統計量
解答!
解答!
平均とは何を表す量でしょうか。
個
値
に対し
( )式 示される値
n個の値x
1,x
2,・・・,x
nに対して、
(1)式で示される値。
統計では、離散確率変数
Xに対し、確率分布がPで与えられて
いて 各々の要素を
x p と書くとき (2)式で示される値
いて、各々の要素を
x
i,p
iと書くとき、(2)式で示される値。
i
n
∑
=
×
i
k
i
i p
x
1
∑
=
n
k
k
n
x
1
(1)
(2)
※算術平均の他にも、加重平均、調和平均など様々な平均があるが、それはまた別の話。
(16)基本統計量
基本統計量
平均の意味を問い直す
平均の意味を問い直す
「真ん中の値」という表現が正しくなるためには、いくつかの前提が必要。
「合計値÷個数の値=算術平均値」は単なる指標にすぎない。
慣れ親しんでいるからイメ ジが湧きやすいだけで
慣れ親しんでいるからイメージが湧きやすいだけで、
「中央値」や「標準偏差」、「相関係数」と同様の統計指標。
「平均」に強い意味が出るのは、左右対称の分布で、
中央値(や最頻値)と近くにある場合。
(17)基本統計量
基本統計量
平均は左右対称の時に有効
(平均は はずれ値に頑健ではない)
平均は左右対称の時に有効
(平均は、はずれ値に頑健ではない)
「右にゆがんだ分布」
実際 この「平均」に大した意味はありますか?
実際、この「平均」に大した意味はありますか?
「全員で貯蓄を山分けしたときにもらえるお金」?
誰もくれません
誰もくれません。
(18)(19)基本統計量
基本統計量
平均 分散と標準偏差の定義
(離散的な場合)
平均(期待値) エクセルでは AVERAGE関数
平均、分散と標準偏差の定義
(離散的な場合)
n
x
分散 エクセルではVAR関数(標本から母分散を推測する場合) VARP関数
∑
=
=
k
k
n
x
X
E
1
)
(
分散 エクセルではVAR関数(標本から母分散を推測する場合)、VARP関数
V(X) = E(X2
) - E(X)2
覚えよう:各々の値から平均を引いたものを2乗して、個数で割った値
標準偏差 エクセルではSTDEV関数(推測する場合)、STDEVP関数
)
(
)
(
X
=
V
X
σ
分散の平方根 単位が平均と同じになるため 扱いやすい
変動係数
標準偏差÷平均
分散の平方根。単位が平均と同じになるため、扱いやすい。
標準偏差÷平均
単位がなくなるので、スケールが違うもの同士でのばらつき方の差を比較可能
(20)(21)(22)確率変数と分布
確率変数と分布
(離散)確率変数と確率分布
(離散)確率変数と確率分布
事象 1の目が出た(x
1) 2~4の目が出た(x
2) 5の目が出た(x
3) 6の目が出た(x
4)
確率変数 X 0 1 8 10 確率変数の値
確率変数 X 0 1 8 10 確率変数の値
確率 P 1/6(p
1) 3/6(p
2) 1/6(p
3) 1/6(p
4) 確率の値
起こり得る事象に対して、ある変数
Xが特定の値xを取る確率pがそれぞ
れ与えられているとき、
Xを
確率変数
と呼ぶ
確率変数
値を
確率
応を表
も
を
確率分布
確率変数
Xと、その値をとる
確率
Pとの対応を表したものを
確率分布
と呼
ぶ。
確率変数
Xが特定の値x
kを取る
確率
を、
P(X=x
k) と書く。
同様に
確率変数
Xが a 以上 b 以下を取る
確率
は
P(a≦X≦b) と書く
同様に、
確率変数
Xが a 以上 b 以下を取る
確率
は、
P(a≦X≦b) と書く。
確率分布が与えられているとき
期待値(母平均)
は
Σ X P(X=x )
である
確率分布が与えられているとき、
期待値(母平均)
は、
Σ X・P(X=x
i)
である。
(23)確率変数と分布
確率変数と分布
(連続)確率変数と確率密度関数
(連続)確率変数と確率密度関数
起こり得る事象に対して、ある変数
Xが特定の値a~bの間の値を取る確
率
P(a≦X≦b)が次式で表されるとき、f(x)を確率密度関数と呼ぶ。
dx
x
f
b
X
a
P
b
a
∫
=
≤
≤
)
(
)
(
a
通常は、特定の値
xを取る確率は0と考える
(幅を取って積分して確率を出す)
期待値(母平均)
は、
∫
x
f
x
dx
である。
∞
∞
−
)
(
・
∞
(24)確率変数と分布
確率変数と分布
図で考えてイメージを
(25)確率変数と分布
確率変数と分布
なぜ 難しく式で書いて 積分などするのか?
確率変数
Xが ちょうど
ある特定の式で表される
場合がある
なぜ、難しく式で書いて、積分などするのか?
確率変数
Xが、ちょうど、
ある特定の式で表される
場合がある。
変形することによって、
同じ式で表す
ことができる場合がある。
そもそも 真の確率が不明なので
特定の式
でモデルにする場合もある
そもそも、真の確率が不明なので、
特定の式
でモデルにする場合もある。
例:同じ性質を持った集団からデータを取った場合、データから得られる
平均値が 真の(集団全体の)平均値の値から離れる度合いとその
平均値が、真の(集団全体の)平均値の値から離れる度合いとその
確率は、特定の式で表されることがわかっている。
共通的に使える式の形がいくつも見つかっている。
また
定積分計算値もすぐに出せるようになっている
また、定積分計算値もすぐに出せるようになっている。
よく知られた式については、その性質が色々研究されている。
個
確率
計算をする
も楽
確 応
性がある
→ 個別に確率の計算をするよりも楽、正確、応用性がある。
(26)確率変数と分布
確率変数と分布
例えば イ ト
例えばコイントス。
確率pで1(表)、1-pで0(裏)となる事象。
出た数を確率変数Xとすると、Xは
出た数を確率変数Xとすると、Xは
2項分布に従う。
(27)確率変数と分布
確率変数と分布
2項分布の特徴
2項分布とは
試行 事象 が起きる確率を とする
2項分布の特徴
1回の試行で事象
Aが起きる確率をp とする。
この試行を
n 回行ったときに事象Aが起きる回数をXとおくとき,
Xは確率変数となり P(X=k) = Ckpkqn-k となる。
Xは確率変数となり, P(X=k) = nCk p q となる。
このような確率分布を二項分布といい,
B(n, p) と書く。
期待値と分散
確率変数
Xが2項分布 B(n,p) に従うとき ( X~B(n,p) のとき)、
期待値
E(X)=np
分散
V(X)=np(1-p)
正規分布による近似
nが十分大きいとき、B(n,p) は、正規分布 N(np,np(1-p)) で近似できる。
nが十分大きいとき、B(n,p) は、正規分布 N(np,np(1 p)) で近似できる。
※いくらくらいが「十分」なのか・・・
np>5 かつ n(1-p)>5 が目安。
(28)確率変数と分布
確率変数と分布
例えば平均値のばらつき
例えば平均値のばらつき。
真の平均値からのばらつきを確
率変数Xとすると、Xは
「正規分布」に従う。
(29)確率変数と分布
確率変数と分布
正規分布の特徴
自然界で生ずる色々な分布(特に平均値について)が当てはまる分布(身長など)。
正規分布の特徴
・大きな数の標本を取り出したときの標本平均と母平均とのずれは正規分布に従う。
・正規分布に従う確率変数同士の和の分布は、正規分布に従う。
れらから 色 な 素が大量 ぼ独立 影響を与 合 る うなも
→ これらから、色々な要素が大量に、ほぼ独立に影響を与え合っているようなものは、
正規分布に従うことが多い。
ただし 正規分布に従う確率変数の積は 正規分布に従わない。体重は正規分布しない。
ただし、正規分布に従う確率変数の積は、正規分布に従わない。体重は正規分布しない。
国語や英語の成績は正規分布に近い形だが、数学の成績はむしろ2山になる。
正規分布近似は、左右対称に近い場合に、大局的に見れば数多くの分布を「それなりに」近
似することができる(ボウリングのスコア、麻雀のプレイヤーの実力分布など)。なによりも、適
宜変数変換をして正規分布に似た形にすれば、数学的に扱いやすい。
ただし! 過信してはならない。特に、はずれ値が大きな影響を与える場合などに注意。
平均付近では「それなりに」適合しても σによるリスク管理は完璧ではない
平均付近では「それなりに」適合しても、σによるリスク管理は完璧ではない。
(30)確率変数と分布
確率変数と分布
起きる確率が非常に低い事象が、連続
的な時間の中で何回起きるか。
起きる回数を確率変数Xとすると、Xは
ポアソン分布に従う。λ=np
正規分布において平均を一定に保ち、
を小さくし を無限大にすると得られる
pを小さくしてnを無限大にすると得られる。
(31)確率変数と分布
確率変数と分布
【余談】 ちょっと面白い分布
【余談】 ちょっと面白い分布
コイントスを繰り返し、表なら
+1円、裏なら-1円とする。
正の金額を持っている時間を費やす割合は、時間とともに額を持 時間を費 す割合 、時間 1/2から遠ざかり、1または0に漸近する。/ 遠 り、 漸近す 。
1/2となる確率がもっとも小さい。
(32)確率変数と分布
確率変数と分布
式を見ておきましょう
式を見ておきましょう
と思いましたが、やめました。
エクセルで計算できればひとまず十分です。
(33)確率変数と分布
確率変数と分布
その他の分布
その他の分布
t分布
Χ2
(カイ二乗)分布 その他色々ありますが(筆者が知らない分布もある)、とにかく
Χ2
(カイ二乗)分布
多項分布
ロジスティック分布
その他色々ありますが(筆者が知らない分布もある)、とにかく
・ある関数の形に表されている
・区間をとって確率密度関数を積分すれば(面積を出せば)確率が表される
は覚える
期待値 分散の性質
F分布 は覚える。
2つの事象A,Bが独立のとき、
期待値、分散の性質
事象
, 独 き、
E(A+B)=E(A)+E(B)
V(A+B)=V(A)+V(B)
が成り立つ。
※独立でない場合は 分散の和については共分散という概念が必要
※独立でない場合は、分散の和については共分散という概念が必要。
この講義では基礎を扱うため、共分散等については触れません。各自で!
(34)(35)(36)標準正規分布
標準正規分布
なぜ多くのものは正規分布に従うのか
【中心極限定理】
なぜ多くのものは正規分布に従うのか
【中心極限定理】
他のあらゆる分布であっても、独立同分布からの多数のサンプリングを繰り返せば、サンプル
(標本)の平均の真の平均からのずれは、正規分布に従う(分散が0の場合を除く)。
→確率変数Xがどんな分布に従う場合であっても、多数のサンプルを取得すれば、指定した精
度で平均値を推測することができる。
※多数って?多数 30などと言われるが、あくまでも目安。な 言われる 、あくま も目安。
【大数の法則】
(法則というよりも 数学的に示された定理)
【大数の法則】
(法則というよりも、数学的に示された定理)
試行回数
nを無限大にすると、サンプルの平均値は母平均値に限りなく近づく。
ある要素が何度も影響→独立同分布からの試行の反復~正規分布
多数の要素が加算的に作用する→正規分布同士の和~正規分布
多数の要素が加算的に作用する
正規分布同士の和
正規分布
(37)標準正規分布
標準正規分布
母平均の推測(母分散が既知の場合)
母集団の平均と標本平均
母集団の標準偏差と標本の標準偏差
母平均の推測(母分散が既知の場合)
母平均
μ
母集団の標準偏差と標本の標準偏差
これらを明確に分けて理解しよう。
μ
母標準偏差
σ
標本平均
m
標本標準偏差
標本標準偏差
s
標本平均の母平均からのずれの分
標本の大きさnが十分に大きいとき、
母平均μに対する信頼区間は、
信頼度95%では σ σ
標本平均の母平均からのずれの分
布は、正規分布に従う。
標本平均 m の期待値 = μ
標本平均 m の標準偏差 σ' σ
信頼度95%では
信頼度99%では
n
m
n
m−1.96 σ ≤ μ ≤ +1.96 σ
σ
σ
58
2
58
2 ≤ ≤
標本平均 m の標準偏差
n
σ'=
n
m
n
m−2.58 ≤ μ ≤ +2.58
(38)標準正規分布
標準正規分布
母分散の最尤推定量
母分散の最尤推定量
母平均
μ
μ
母標準偏差
σ
標本平均
m
標本標準偏差
標本標準偏差
s
母分散の推定値は 2
N 2
母分散の推定値は、 2 2
1
s
n−
=
σ
(39)標準正規分布
標準正規分布
問題!
母比率の区間推定
問題!
十分に大きな
n 標本に、内閣を支持するか否かを問うた。
np人が支持し n(1-p)人が支持しないと答えた (支持率p)
np人が支持し、n(1-p)人が支持しないと答えた。(支持率p)
(1)確率変数 X を、支持している人数とする。Xはどのような分布に従うか
(2)確率変数Yを、標本における支持率(標本比率)とする。Yの標準偏差をn,pを使った式で
表せ。
(3)十分に大きなn,np,n(1-p)をとるとき、Xはどのような分布に近似できるか。
(3)十分に大きなn,np,n(1 p)をとるとき、Xはどのような分布に近似できるか。
(4)十分に大きなサンプルサイズであるから、母集団の支持率Pは、標本の支持率pと一致す
るとしてよい。
95%信頼区間で 母比率(母集団の支持率)を推定せよ
95%信頼区間で、母比率(母集団の支持率)を推定せよ。
※ヒント:この分布で、平均からそれ以上離れる確率が
5%以下となる境界値を考えよう。
(40)標準正規分布
標準正規分布
解答!
解答!
(1)確率変数 X を、支持している人数とする。Xはどのような分布に従うか
二項分布
(2)確率変数Yを 標本における支持率(標本比率)とする Yの標準偏差をn pを使った式で
(2)確率変数Yを、標本における支持率(標本比率)とする。Yの標準偏差をn,pを使った式で
表せ。
n
p
p
n
p
np(1 ) (1− )
=
−
(3)十分に大きなn,np,n(1-p)をとるとき、Xはどのような分布に近似できるか。
正規分布
n
n
正規分布
(4)十分に大きなサンプルサイズであるから、母集団の支持率Pは、標本の支持率pと一致す
るとしてよい。
95%信頼区間で 母比率(母集団の支持率)を推定せよ
95%信頼区間で、母比率(母集団の支持率)を推定せよ。
n
p
p
n
p
P
n
p
p
n
p (1 )
96
.
1
)
1
(
96
.
1 − ≤ ≤ + −
−
n
n
n
n
(41)(42)仮説検定の考え方
仮説検定の考え方
基本の流れ
基本の流れ
帰無仮説
Ho を立てる
対立仮説
Hi を立てる
対立仮説
Hi を立てる
Hooと仮定したとき、検定統計量は仮定 、検定統計
有意水準
αにおいて棄却されるか?
Hoを受容する
(積極的にH
oと主張
Hoを棄却し、
Hiを採択する
(積極的にH
iと主張する)
有意水準
αとしては、0.05(5%),0.01(1%)等を用いることが多い。
できるわけではない) (積極的にHiと主張する)
(
),
(
)
簡単に言えば、「
H
0だとすると、こんなことは
1%でしか起きないことですよ、だからH
0で
はなく
H
1ですよ」と主張することで、
H
1を示す考え方。
平均値の差の検定 分散の比の検定などによって 用いる分布関数が異なるが 基本的にはこの考え方が原
平均値の差の検定、分散の比の検定などによって、用いる分布関数が異なるが、基本的にはこの考え方が原
理である。
(43)仮説検定の考え方
仮説検定の考え方
実例
帰無仮説
Ho を立てる
対立仮説
Hi を立てる
実例
Hoと仮定したとき、検定統計量は
有意水準
αにおいて棄却されるか?
有意水準
αにおいて棄却されるか?
H を受容する
Hoを受容する
(積極的にH
oと主張
できるわけではない)
Hoを棄却し、
Hiを採択する
(積極的にH
iと主張する)
例:麻雀において、n試合の対戦を行った場合の、2名の平均順位(実測値)を調べる。実力順位 x, y とする。
帰無仮説 H
o :x = y 対立仮説 H
i :x ≠ y 。以下の検定統計量は標準正規分布に従う。
各々の平均順位
試合数
検定統計量
,
2
25
.
1
2
y
x
n
Z
n
n
y
x
Z
×
−
=
有意水準5%の両側検定。
(44)仮説検定の考え方
仮説検定の考え方
片側検定と両側検定 第一種の過誤と第二種の過誤
帰無仮説として、 x = y と置いた場合、両側のいずれかにずれれば棄却できる → 両側検定
片側検定と両側検定、第一種の過誤と第二種の過誤
帰無仮説として、 x ≧ y と置いた場合、片側にずれれば棄却できる → 片側検定
棄却域に用いるパーセント点が異なる(例:有意水準5%として、両側なら2.5%、片側なら5%)ので注意する。
第一種の過誤 ・・・ 帰無仮説が真であるのに棄却してしまう
第二種の過誤 ・・・ 対立仮説が真であるのに帰無仮説を採択してしまう。
れら ドオ
これらはトレードオフ。
たとえば罹患検査では、異常値の検出率を高めるべき(再検査ならマシだが見逃すと危険)。
(45)仮説検定の考え方
仮説検定の考え方
例:
Z点が3より大きい
例:
Z点が3より大きい
↓
たまたま起きたと考えるより
そもそも違っていたと考える
方が蓋然性が高い(合理的)
(46)仮説検定の考え方
仮説検定の考え方
どんな検定があるか
どんな検定があるか
検定
使う分布
均値 検定
分散が 知 場合
規分布
平均値の検定:母分散が既知の場合
正規分布
平均値の検定:母分散が未知の場合
t分布
分散の検定
2
分布
分散の検定
χ
2
分布
母分散の比の検定
F分布
平均値の差の検定
t分布
他にも、分布の正規性検定、相関係数の有意性検定、分散分析など様々。
平均値の差の検定
t分布
ここでは紹介だけ(ネット上にも書籍にも膨大に情報がある)。
仮説検定を行うには、
従う分布を知り
・従う分布を知り
・帰無仮説を立てて
・棄却域に入るかを調べる棄却域に入るかを調べる (普通は 棄却域に入れて 対立仮説を採択したい)(普通は、棄却域に入れて、対立仮説を採択したい)
という流れを覚えよう。
(47)データ分析の基礎、回帰分析・多変量解析
デ タ分析の基礎、回帰分析 多変量解析
(48)データ分析の基礎
データ分析の基礎
すべての基本は散布図を描くことから
すべての基本は散布図を描くことから
相関係数は0 96 0 94
散布図を描き、全体の傾向を見る。
相関係数は0.96, 0.94
層別すべき部分(男女別・理系文系別・年度別・・・)は層別する。
(49)データ分析の基礎
データ分析の基礎
はずれ値の影響 系統的誤差の影響
はずれ値の影響、系統的誤差の影響
相関係数 0.77
平均や相関係数などは、
はずれ値に対して頑健ではない
単なる異常値(測定ミス等)なら取り除いて分析
単なる異常値(測定ミス等)なら取り除いて分析
でよいが、それ自体が問題なら考える
(50)データ分析の基礎
データ分析の基礎
正規分布ではないとき
正規分布ではないとき
単峰にならない 別の既知の分布に従う 等
単峰にならない、別の既知の分布に従う、等。
層を分ける、変数変換を行う等で、直線関係に対応づける。
(51)データ分析の基礎
データ分析の基礎
既知の式にできない場合に考えること
既知の式にできない場合に考えること
層を分けて単峰にして正規分布にする(男女別など)
・層を分けて単峰にして正規分布にする(男女別など)
・変数変換する(
logを取ると正規分布したり・・・)
・そのまま力技で分析
(モンテカルロ法なら確率は出せる?)
(52)多変量解析・・・入門
多変量解析・・・入門
回帰分析の例
回帰分析とは、単数または複数の「説明変数」に係数をかけた項と定数項との和によって、
1つの「目的変数」の値を表すことを言う。
回帰分析の例
・予測に使える
・特定の要因がどの程度強い影響を与えるかを調べられる
麻雀の成績
(標準化得点×
1000) =
目的変数
4.134E[Ar] + 4.764E[Ak] + 5.097E[Ad]
-
5.901E[Fr] - 6.953E[Fk] - 3.672E[Fd]-4.987E[T]
(係数×説明変数)の和
(53)多変量解析・・・入門
多変量解析・・・入門
(重)回帰分析の例
やり方は・・・
(重)回帰分析の例
実演しますのでごらんください。
なお、補足資料で、エクセルを用いた方法について参考ページ等を紹介します。
注意点等
・相関と因果は必ずしも対応しない。
・係数の大小がそのまま影響の大きさとは言えない。
・ある変数が1変化したとき、他の変数が不変であれば目的変数が係数分変化する。
→通常 説明変数同士に何らかの相関があるため 多重共線性に注意する
→通常、説明変数同士に何らかの相関があるため、多重共線性に注意する。
・はずれ値に特に注意する。
→最小二乗法によらないロバストな回帰分析もある
・基準化が必要な場合、基準化してから行う。
・モデル選択の目安にはAICなどを使う。
得られた重回帰式を積み重ねてモデルを作成しない
・得られた重回帰式を積み重ねてモデルを作成しない
→誤差項が積み重なっていく。共分散構造分析(SEM)などの手法が必要。
(54)多変量解析・・・入門
多変量解析・・・入門
その他の多変量解析手法 (一例)
その他の多変量解析手法 (一例)
主成分分析
・主成分分析
複数の変数から、第一主成分の分散(情報量)が最大となるよう情報を集約する。
→ 各々の成分は直行する。重回帰分析の前に多重共線性をなくすために使える各 の成分は直行する。重回帰分析の前に多重共線性をなくすために使える
→ 複数の変数を視覚的にグループ分けして特徴を捉えられる
・判別分析
事前に与えられているデータを「うまく」2つの(重判別分析では3つ以上の)グループ
に分け、新しいデータがどちらの(どの)グループに属するかを判別する。
・クラスター分析
デ 特 グ プ ド
与えられたデータの特徴により、いくつかのグループに分類する手法。ウォード法な
どが代表的。