• 検索結果がありません。

基礎統計

N/A
N/A
Protected

Academic year: 2021

シェア "基礎統計"

Copied!
50
0
0

読み込み中.... (全文を見る)

全文

(1)基礎統計 第4回講義資料.

(2) 本日の講義内容 • 第3章:2次元データの整理 [グラフ] • 共分散と相関係数 [数値] • 回帰分析 [数値とグラフ] • 偏相関係数 [数値] • 散布図.

(3) 第3章 2次元のデータ.

(4) 第3章:2次元のデータ • (目的)変数間の関係を探る • 相関と回帰 • (相関)変数を区別せず対等にみる(相関関係) 身長と体重,教科目の成績 • (回帰)一方が他方に影響を与える(因果関係) 年齢と血圧,所得と消費(あるいは貯蓄). • 手法 • 散布図(量的データ) • 各観測対象をXY平面上にプロットしたもの. • 分割表(質的データ) • 2つのカテゴリデータの組み合わせを数え上げて表にしたもの.同時度数分布表 • 質的データ,量的データ(適当な階級に分ければ可能.相関表と呼ばれる).

(5) 3.1 散布図 • 人口と小売業事業所数 人口と小売業事業所数 120,000. 小売業・事業所数. 100,000 80,000 60,000 40,000 20,000 0 0. 2,000. 4,000. 6,000. 8,000. 10,000. 12,000. 14,000. 人口(単位:千人). 出典: 総務省統計局「平成20年10月1日現在推計人口」 経済産業省「平成19年商業統計表 業態別統計編(小売業)」.

(6) その他の散布図の例. 『統計学入門』 p44. • 8月の不快日数とエアコン保有率 • 正の相関. • 1世帯当たりの米の消費支出とパンの消費支出 • 相関関係なし(無相関). • 出生率と死亡率 • 負の相関. 2つの変数の間に直線関係に 近い傾向がみられるとき,「相 関関係がある」という.

(7) 共分散(covariance) S xy. 1  n. n.  (x. i.  x )( y i  y ). i 1. S xy  0 ⇔ 正の相関 S xy  0 ⇔ 負の相関 共分散:相関関係を記述する指標.

(8) 事例:大卒率と平均給与の散布図 450.0. xi  x. 430.0 410.0 390.0. yi  y. 370.0 350.0 330.0. 310.0. 平均給与. 290.0 270.0. 平均値. 250.0 0.0. 5.0. 10.0. 15.0. 20.0. 25.0. 30.0.

(9) 共分散の考え方 Y. ②. ①. 0. X. ③. ④ 左上と右下は偏差積が負となる. 右上と左下は偏差積が正となる.

(10) 共分散の性質 • 2つの変数の関係が最大限に強いとき. → データがすべて直線上に並んでいるとき S xy. 1  n 1  n a  n. n.  (x. i.  x )( y i  y ). i.  x )[(a x i  b)  (a x  b)]. yaxb. i 1 n.  (x i 1 n. . ( xi  x ) 2. i 1.  a S x2  ( S y / S x ) S x2  S x S y 定理より. Sy  a Sx. a0. 完全な正の相関の場合, 共分散はそれぞれの変数 の標準偏差の積と同じ.

(11) 相関係数(correlation coefficient) • 共分散のとりうる値の範囲.  S x S y  S xy  S x S y  1. 相関係数 ピアソンの積率相関係数. S xy SxSy. rxy .  1. S xy. 相関係数のとりうる値の範囲. SxSy. 1  rxy  1.

(12) 相関係数 • 正の相関 ⇔. 0  rxy  1. • 無相関. rxy  0. ⇔ • 負の相関 ⇔.  1  rxy  0. 目安として. 0 < r < 0.2 , -0.2 < r <0 0.2 < r < 0.4, -0.4 < r < -0.2 0.4 < r < 0.7, -0.7 < r < -0.4 0.7 < r < 1.0 , -1.0 < r < -0.7. ほとんど相関なし 弱い相関あり 中程度の相関あり 強い相関あり.

(13) 相関係数の注意点 相関係数のみでの評価は危険. ⇒ 散布図上での分布の様子を確認すべき 外れ値の影響を受けやすい. ⇒ 散布図上で異常値がないか確認すべき 見かけ上の相関(3.4 偏相関係数 p90).

(14) 散布図のチェックポイント ① 分布の状況と異常点の確認  ヒストグラムと同様に全体的な散らばり具合をつかむこと.  大きな集団から離れたデータ ⇒ 記入ミス・測定ミス? 異質な集団(→層別). ② XとYの関係  直線関係、曲線関係、 相関なし等. ③ 層別の検討 ④ 測定範囲 ⑤ 見かけ上の相関. 35 33 31 29 27 25 23 21 19 17 15 15. 20. 25. 30.

(15) ③層別と相関 • 層別の効果: • 特性の異なる集団かどうかを見分ける. • もともとのデータに,特性の異なるいくつかの部分集合を含ん. でいる場合,全体では相関がなくても,各グループでは相関 が表れることがあったり、逆に全体では相関があっても,グ ループに分けるとなかったりすることがある. 『統計学入門』 p53. • 例:1986年のイギリスの総選挙 • 失業率と保守党得票率には負の相関関係がある • 層別した結果,イングランドとスコットランドには強い負の相関関係がみ られるが、ウェールズにはみられないことがわかった..

(16) やや相関があるようにみえるが…. 相関係数 A 0.843 B 0.772. 30 30. 28. 相関係数 0.534. 28. 26 24. 26. 22. 24 22. 20. 20. A. 18. B. 16. 18. 16 14 12 10 12 40. 17. 22. 27. 35. …. 相関係数 0.634. 層 別 し て み る と. 30. 14 12 10 12. 17. 22. 27. 相関係数 A 0.617 B 0.139. 40 35 30. 25. A. 25. 20. B. 20. 15. 15. 10 12. 17. 22. 27. 32. 10 12. 17. 22. 27. 32.

(17) ④選抜効果(測定範囲による相関の違い) 事例: 学力選抜 40. 35. 30. 25. 20. 15. 10. 12. 17. 22. 27. 相関なし. 相関あり. 32.

(18) 見かけ上の相関(3.4 偏相関係数) 実際の相関が低い場合でも,第3の変数の影響によって,相関 関係が強く現れることがある ⇒ 見かけ上の相関 例:出生率と女性の就業率の相関係数 0.4136 男女共同参画が進展すれば出生率は回復するとい えるだろうか?. 都市化度の代理変数として「第三次産業の就業者構成 比」の影響を除去すると,出生率と女性の就業率との 相関係数(偏相関係数と呼ばれる)は 0.1721となった..

(19) 偏相関係数 • 偏相関係数 • 出生率と女性の就業率 • 合計特殊出生率(y)と第三次産業の就業者構成比(z)の相関係数 • 女性の就業率(x)と第三次産業の就業者構成比(z)の相関係数. • 偏相関係数.

(20) 3.3 回帰分析 • 散布図・共分散・相関係数 • 2つの変数の相関関係の有無,正負の強さの指標 • 2つの変数の関係が非対称な場合(因果関係がある場合)には、その現 象を分析するには不十分である. • 回帰分析 • 2変数xとyの間の関係を適当な関数を用いて. と表現し,関数 がどのような性質を持っているかを調べることによ り,2つの変数の関係を明らかにしていく. • データ を利用して を分析する 手法を回帰分析という..

(21) 3.3 回帰分析 • 二変量の定量的な構造(モデル)を求める • モデル: Y を X で定量的に説明するもの 回帰方程式, 回帰関数 • •. Y: 従属変数,被説明変数,内生変数 と呼ばれる X: 独立変数,説明変数,外生変数 と呼ばれる 人口と小売業事業所数. 小売業・事業所数. 回帰方程式(回帰直線). 120,000 100,000. y = 7.1265x + 4848.6 R² = 0.9598. 80,000 60,000 40,000 20,000 0 0. 2,000. 4,000. 6,000 8,000 人口(単位:千人). 10,000. 12,000. 14,000.

(22) 適用例 • 人口と商店数 • 回帰直線 • 相関係数 • 決定係数:説明変数が被説明変数を決定する強弱の度合. 人口と小売業事業所数 120,000. 小売業・事業所数. 100,000. y = 7.1265x + 4848.6 R² = 0.9598. 80,000 60,000 40,000. 20,000 0. 0. 2,000. 4,000. 6,000 8,000 人口(単位:千人). 10,000. 12,000. 14,000.

(23) 3.3.1 回帰モデル • データの背後には定量的な構造(モデル)があると仮定し て,それを関数で表現したもの. • 例:1次関数. y  ( xの1次関数)  [それ以外の要因(誤差 ) ] •. • • •. y: 従属変数,被説明変数,内生変数と呼ばれる x: 独立変数,説明変数,外生変数と呼ばれる.  0 , 1 : 回帰係数  : 誤差項.

(24) 事例:大卒率と平均給与 • 「高等教育への進学率の上昇が人的資本の蓄積を引き起こ. し,生産性(そして給与)が上昇する」と唱えたベーカー(G. Becker)の人的資本理論の考えに立てば,大卒率と平均給 与の間には回帰モデルが想定できる.. (平均給与) i   0  1 (大卒率) i   i. (i  1,2, ,47).

(25) 事例:大卒率と平均給与の散布図(都道府県別) 平均給与額(千円) 450.0 430.0 410.0 390.0 370.0. 平均給与. 350.0. 平均値. 330.0. 線形 (平均給与). 310.0. 290.0 270.0 250.0 0.0. 5.0. 10.0. 15.0. 20.0. 25.0. 30.0. 大卒率(%).

(26) 事例:散布図と回帰直線 450.0 430.0 410.0 390.0 370.0. 平均給与. 350.0. 平均値. 330.0. 線形 (平均給与). 310.0. 290.0 270.0 250.0 0.0. 5.0. 10.0. 15.0. 20.0. 25.0. 30.0.

(27) 3.3.2 最小2乗法 • 直線とデータとの乖離(かいり) • その2乗和をデータと直線の乖離の程度を表す指標として採. 用する. • 2変数関数を最小にする. を求める.. (最小2乗法). •. 最小2乗値 あるいは 最小2乗推定値.

(28)

(29) 最小2乗推定値 • 最小2乗推定値は. で与えられる.. 証明のポイント を追 加して,式にxの偏差 とyの偏差 を作る. • 偏差の和は0であるという性質を利用して,展開後の項を減ら す. 2 2 S S p81の下から nS 2  n xy  n( y  b  b x ) 2  b 2 nS 2  2b nS  n xy y 0 1 1 x 1 xy 5行目の右辺 S x2 S x2 •. に.

(30) 事例:回帰分析 回帰統計 重相関 R 重決定 R2 補正 R2 標準誤差 観測数. 切片 大卒率(%). 0.8466 0.7167 0.7104 18.07 47. 係数 標準誤差 t 244.52 9.03 27.09 7.53 0.71 10.67. P-値 下限 95% 上限 95% 1.67E-29 226.3396 262.6959 6.54E-14 6.106685 8.94832.

(31) おさらい:回帰分析 • Xの値の差異に対応して、Yの値がどの程度異なるか?. → xの値に対してyはいろいろな値を取りうるため、 yの値の平均に注目する (xの値を与えたときのyの条件付き平均) → 回帰直線. 予測値 最小2乗推定値. yˆ i  ˆ 0  ˆ1 x i , (i  1,  , n) ˆ1 . S xy S x2.  S xy   SySx .  Sy Sy   rxy  Sx Sx . ˆ 0  y  ˆ1 x 予測式に代入し て整理すると…. yˆ i  ( y  ˆ1 x )  ˆ1 x i  y  ˆ1 ( x i  x ). 平均値を通る ことがわかる.

(32) 3.3.3 予測値と残差 • 予測値 • 残差 • 定理3.4 残差の性質. 後半の証明のポイントは.

(33) 「定理3.4 残差の性質」の後半の証明 • 次のように. とおき. 前半の証明で0 𝑛. 𝑛. 𝑛. ෍ 𝑥𝑖 𝜀𝑖Ƹ = ෍ 𝑥𝑖 − 𝑥ҧ 𝜀𝑖Ƹ + 𝑥ҧ ෍ 𝜀𝑖Ƹ 𝑖=1. 𝑖=1 𝑛. 𝑖=1. = ෍ 𝑥𝑖 − 𝑥ҧ. 𝑦𝑖 − 𝑦ത − 𝛽መ1 𝑥𝑖 − 𝑥ҧ. 𝑖=1. = 𝑛𝑆𝑥𝑦 − 𝛽መ1 𝑛𝑆𝑥2 = 𝑛𝑆𝑥𝑦 − =0. 𝑆𝑥𝑦 𝑆𝑥2. 𝑛𝑆𝑥2.

(34) 予測値と残差の性質 予測値の平均はyの平均. yˆ  y  ˆ1 ( x  x )  y より、残差の平均は0が示せる. 定理3.4より0. ˆ  y  yˆ  0 残差と独立変数及び残差と予測値の相関係数は0. rxˆ. S xˆ   S x S ˆ. 1 n. n.  x ˆ. i i. i 1. S x S ˆ.  x ˆ 0. ryˆˆ  0.

(35) 大卒率(独立変数)と残差の散布図 大卒率(%) 残差グラフ 40 30. 20 10. 残差. 0 -10 0.0. 5.0. 10.0. 15.0. -20 -30 -40 -50 -60 -70. 大卒率(%). 20.0. 25.0. 30.0.

(36) 変数の直交分解 ryˆˆ  0 から予測値と残差は互いに直交する関係 残差の定義から. y i  yˆ i  ˆ. Xとの相関 係数は1. は直交分解. Xとの相関 係数は0. 独立変数xとは相関のない残差成分 が取り出せる.

(37) 残差が主役となることもある • 身長(x)と体重(y)のデータ • 残差=身長では説明できない部分⇒不健康度. 身長の割には 重い子. 8 90 6 y = 0.4195x + 3.521 R² = 0.5437. 85. 4. 80. 残差. 2. 75. 0 145. 155. 165. 175. 185. -2 70 -4 65 -6 60 145. 155. 165. 175. 185. -8. 身長. 身長の割には 軽い子.

(38) 変動の分解① 2つの変数の和 の分散. 2 Sy. . 2 S A B. 2 S yˆ ˆ. . 2 S yˆ. . 2 SA.  2 S AB .  2 S yˆˆ . 2 S ˆ. 定理3.5 変動の分解(テキスト86p). . 2 SB. 2 S yˆ. . 2 S ˆ.

(39) 変動の分解①(定理3.5) S  S  S 2 y. 全変動. 2 yˆ. 2 ˆ. 残差変動. 回帰変動. 𝑥𝑖 , 𝑦𝑖 𝜀𝑖Ƹ = 𝑦𝑖 − 𝑦ො𝑖 𝑥𝑖 , 𝑦ො𝑖 平均. 𝑥,ҧ 𝑦ത. 𝑦ො𝑖 − 𝑦ത.

(40) 変動の分割② 2 Sy 第1項. 第2項. . 2 S yˆ. S y2ˆ 2 S ˆ. . 2 S ˆ. . ˆ12 S x2. . 2 Sy. 2. . Sy  2   S x  S y2 rxy2   rxy  S x   2 S yˆ. . 2 Sy. . 2 2 S y rxy. . 2 2 S y (1  rxy ). 従属変数 y の分散が rxy2 , (1  rxy2 ) の割合で、 予測値の分散と残差の分散に分割される 2 r この割合 xy が決定係数.

(41) 決定係数 2 • 改めて、 S y. て、. . 2 S yˆ. . 両辺をyの分散で 割ると. 2 S ˆ から、第2項目を左辺に移行し. S y2ˆ  S y2  S 2ˆ 2 S yˆ. S. 2 y. 1. 2 S ˆ 2 Sy. 2. ( R ). の間の値をとり,1に近いほ どモデルの当てはまりがよいと判断する..

(42) 決定係数 𝑛 σ ො𝑖 − 𝑦ത 𝑖=1 𝑦 2 𝑅 = 𝑛 σ𝑖=1 𝑦𝑖 − 𝑦ത. 2 2. σ𝑛𝑖=1 𝜀𝑖Ƹ2 =1− 𝑛 σ𝑖=1 𝑦𝑖 − 𝑦ത. • 大卒率と平均給与(7). 全変動 51893.67, 回帰変動 37194.27 より 決定係数 0.7167. 2.

(43) 今後の展開.

(44) これまでのおさらい データの持つ情報を効率よく引き出すための整理・要約の方法 1次元. 2次元. 図やグラフによる 度数分布表,ヒストグラム,箱ひげ図 方法 数値による方法. 代表値. 平均(算術平均,トリム平均 など),メディアン,モード. その他. 歪度,尖度,(ジニ係数). 散布図,(分割表). 相関係数,共分散, 回帰分析(回帰係数, 散らばり 分散,標準偏差,平均偏差, 決定係数など), 範囲,四分位範囲,変動係数 偏相関係数.

(45) 統計解析とは • 標本(データ)の情報から母集団の性質について推論すること • 母集団:調査対象全体 • 標本:調査のために母集団から抽出されたデータ. 標本. 無作為抽出. 統計的推測. 母集団.

(46) 確率モデル 標本. テキスト p197 参照. 母集団. 無作為抽出. 統計的推測. モデル化. 確率変数. 統計量. i.i.d. 確率分布. 統計的推測 パラメータ.

(47) 正規母集団 • 母集団分布が正規分布の場合. 確率変数. 統計量. i.i.d. 確率分布. 統計的推測. パラメータ. 母平均と母分散がパラメータ.

(48) 推定と検定 • 確率モデルをベースにして,データから母数に関する推測を. 行う方法に推定と検定がある. • 推定 • 点推定. 1つの値によって母数を推定する • 区間推定 ある区間を設けて母数の値はこの区間に ふくまれるだろうという形で推定する. 検定 母数の値に関する仮説を立てて,データに基づいて その仮説を採択するか棄却するかの判断をする.

(49) 回帰分析(9章) • 回帰モデル • 標準的仮定 • 回帰係数の推定(最小2乗推定量) • 最小2乗推定量の性質 • 最小2乗推定量の標本分布(確率分布) • 誤差分散の推定 • 回帰係数のt 検定 • 重回帰モデル • F 検定 • 決定係数 • 分散分析(10章) (テスト範囲外).

(50) 次回の講義内容(5/13) • 第4章:確率モデル • 4.1 標本空間と事象. • 4.2 確率 • 4.3 確率変数. • 4.4 離散型確率分布の代表例 • 4.5 連続型確率分布.

(51)

参照

関連したドキュメント

この見方とは異なり,飯田隆は,「絵とその絵

化し、次期の需給関係が逆転する。 宇野学派の 「労働力価値上昇による利潤率低下」

(問5-3)検体検査管理加算に係る機能評価係数Ⅰは検体検査を実施していない月も医療機関別係数に合算することができる か。

東京都は他の道府県とは値が離れているように見える。相関係数はこう

最も偏相関が高い要因は年齢である。生活の 中で健康を大切とする意識は、 3 0 歳代までは強 くないが、 40 歳代になると強まり始め、

・関  関 関税法以 税法以 税法以 税法以 税法以外の関 外の関 外の関 外の関 外の関係法令 係法令 係法令 係法令 係法令に係る に係る に係る に係る 係る許可 許可・ 許可・

関係会社の投融資の評価の際には、会社は業績が悪化

右の実方説では︑相互拘束と共同認識がカルテルの実態上の問題として区別されているのであるが︑相互拘束によ