• 検索結果がありません。

1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 2

N/A
N/A
Protected

Academic year: 2021

シェア "1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 2"

Copied!
151
0
0

読み込み中.... (全文を見る)

全文

(1)

記述統計と確率変数・確率分布

統計数理研究所 モデリング研究系 坂田綾香

(2)

1日目の内容

【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表

(3)

1日目の内容

【午後】 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値・分散・共分散・相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理

(4)

変数と観測対象

一般的にデータは, 「観測対象」×「変数」 の形式で得られる。 観測対象とは, データを取得する対象 変数とは, 人や物、時間によって値が異なる特性 身長,年齢,性別,株価など

(5)

データの例

立川市の気象データ 降水量(mm) 気温(℃) 日照 年 合計 日最 大 最大 平均 最高 最低 時間 1時間 10分 間 日平 均 日最 高 日最 低 (h) 平成 20 1,994.0 123.0 58.5 21.5 15.4 20.3 11.1 37.4 -5.5 1,863.0 21 1,566.0 130.5 39.5 11.0 15.6 20.3 11.3 34.6 -5.8 1,793.9 22 1,714.0 99.0 41.5 21.0 15.8 20.8 11.2 37.2 -5.2 2,016.2 23 1,427.5 157.0 24.0 10.0 15.3 20.4 10.7 37.2 -6.8 2,073.5 24 1,696.0 117.0 43.0 25.0 14.9 19.8 10.5 36.2 -5.5 2,057.1 http://www.city.tachikawa.lg.jp/somu/shise/toke/nenpo/tokehyo.html

(6)

データの例

立川市のごみ排出量の推移 年 度 総 数 1日当た りの排出 量 小 計 収 集 ご み 持ち込み 資源ごみ 可 燃 物 不 燃 物 粗大ごみ 19 61,844 31,972 29,006 2,116 850 18,867 11,005 169 20 59,826 31,456 28,673 1,951 832 17,736 10,634 164 21 57,391 29,669 26,902 1,935 832 16,160 11,562 157 22 53,399 28,764 25,414 2,538 812 12,901 11,734 146 23 52,334 29,109 25,629 2,675 805 12,054 11,171 143 (単位:トン) http://www.city.tachikawa.lg.jp/somu/shise/toke/nenpo/tokehyo.html

(7)

データの要約の必要性

データは一般的に巨大。 → 眺めているだけではよく分からない そこでデータを要約する必要がある。 図表による要約 度数分布表,棒グラフ,ヒストグラム など 数値要約 最頻値,中央値,平均値,標準偏差,相関係数など データ要約により,必要な情報を簡潔に伝える方法を 記述統計と呼ぶ。

(8)

データの種類

(1) データの型による分類 量的データ 連続データ: 身長、体重、温度、時間など 離散データ: 人数、カウントデータなど 質的データ 名義尺度: 性別、天気、居住地域など 順序尺度: 薬剤の治療効果の判定(悪化、不変、改善)など

(9)

データの種類

(2) データの次元による分類 1次元データ: 変数が1つだけのデータ (例) ある学年全員の数学の点数 多次元データ: 2つ以上の変数が組となっているデータ (例) 2次元データ: ある学年全員の数学と英語の点数 3次元データ: ある学年全員の数学と英語と物理の点数 … 今日の講義では2次元データまでを扱います。

(10)

1日目の内容

【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表

(11)

記述統計学

記述統計学とは データのもっている主要な特性をより鮮明に 表現するために,データを要約したり 作表をしたりすること一般を指す (統計科学事典,清水良一訳)

(12)

ここで扱うデータ

統計数理研究所による「日本人の国民性調査」より 「あなたは結婚していらっしゃいますか?」 「もういちど生まれかわるとしたら、あなたは男と女の、 どちらに、生れてきたいと思いますか?」 「あなたが最後にいらっしゃった学校はなんですか?」 国税庁による 「民間給与実態統計調査」(平成26年実施) これらのデータを以下の図表により可視化する。 (1) 度数分布表(2) 棒グラフ(3) ヒストグラム (4) 折れ線グラフ(5) 円グラフ

(13)

(1) 度数分布表

観測値のとりうる値をいくつかのカテゴリ(階級)に分類

各階級で、観測値がいくつあるかを表にまとめる。

度数:各カテゴリーに所属する観測値の数

(14)

離散変数の度数分布表

「あなたは結婚していらっしゃいますか?」 項目 度数 相対度数 累積相対度数 未婚 17 17 17 死別 7 7 24 離別 5 5 29 既婚 71 71 100 その他 0 0 100 各階級の度数を 全観測数で割ったもの (×100) 最初の階級から 相対度数を足し合わせたもの

(15)

連続変数の度数分布表

連続変数の場合には階級を作り,度数分布を作成する。 男性の給与の度数分布(民間給与実態統計調査) 階級(万円) 度数(万人) 相対度数 累積相対度数 200未満 301.3 10.7 10.7 200~299 371.4 13.2 24.0 300~399 513.8 18.3 42.3 400~499 487.8 17.4 59.7 500~599 358.2 12.8 72.5 600~699 235.6 8.4 80.9 700~799 165.7 5.9 86.8 800~899 112.3 4.0 90.8 900~999 75.2 2.7 93.5 1000以上 183.6 6.5 100.0

(16)

(2) 棒グラフ

棒と棒はくっつけない 0 10 20 30 40 50 60 70 80 未婚 死別 離別 既婚 その他 「あなたは結婚していらっしゃいますか?」 割合 (%)

(17)

(2) 棒グラフ

男性の給与(民間給与実態統計調査より) 0 2 4 6 8 10 12 14 16 18 20 割合 (%)

(18)

棒グラフとヒストグラムの違い

棒グラフ:階級、項目ごとの個体数を表す ヒストグラム:それぞれの柱の「面積(太さ×高さ)」が 度数を表す 例えば、幅が500万円の柱は、幅が100万円の柱の 5倍の太さがあるので、同じ度数でも柱の高さは1/5になる。

(19)

(3) ヒストグラム

男性の給与(民間給与実態統計調査より) 0 1 2 3 4 5 6 1000~1500(万円)の 136.4(万人)を 500×0.2728として表す。 … (万円) (万人) 300~400(万円)の 513.8(万人)を 100×5.138として表す。

(20)

(3) ヒストグラム

幅のとり方で印象が異なるので注意が必要。 0 1 2 3 4 5 0 1 2 3 4 5 6 1000万円以下を100万円刻みにした場合 1000万円以下を200万円刻みにした場合 男性の給与(民間給与実態統計調査より)

(21)

(4) 円グラフ

違いが視覚的に分かる 「あなたが、最後にいらっしゃった学校はなんですか?」 1978年 2008年 高校 大学 中学校 小学校 その他

(22)

(5) 折れ線グラフ

割合 (%) 時系列的変化を示すのに便利 「もう一度生まれかわるとしたら、 あなたは男と女のどちらに生れてきたいと思いますか? 」 0 10 20 30 40 50 60 70 80 90 100 1 9 5 8 1 9 6 3 1 9 6 8 1 9 7 3 1 9 7 8 1 9 8 3 1 9 8 8 1 9 9 3 1 9 9 8 2 0 0 3 2 0 0 8 2 0 1 3 男 女 「男」と回答した人の割合の変化 実施年

(23)

データを特徴づける

分布の性質をどのように説明するか 定量的に分布の特徴を記述したい。 これにより データの背後にある現象の解釈につながる。 異なるデータとの比較を定量的に行うことができる。 0 1 2 3 4 5 6 分布の中心的な位置は? 分布の広さはどれくらい? ピークはどれくらい急なのか? 分布の裾はどんな形なのか? …

(24)

1日目の内容

【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表

(25)

(補足) を使った計算

1.

2.

(26)

(補足) を使った計算

4.

5.

= − 1 + − 1 + − 1 + − 1 + ( − 1)

(27)

記述統計量

データの分布を特徴づける指標を記述統計量と呼ぶ。 「統計量」とは統計学で用いる指標を指す。 ここでは以下の記述統計量について説明する。 代表値: 分布を代表する値 散布度: 分布の広がり、ばらつきを表す指標

(28)

代表値の例

最頻値(mode):最も頻繁に出現する値 外れ値に強い。 一つに決まらない場合がある。 中央値(median) :真ん中の値 外れ値に強い。 全てのデータを考慮できない。 平均値(mean) :個々の値の和÷対象の数(個体数) 全てのデータを考慮できる。 外れ値に弱い。 = 1 個々の値 対象の数

(29)

平均の計算

= 1 1 2 3 4 5 1 2 3 = 10 1 + 3 × 2 + 3 × 3 + 4 + 2 × 5} = 31 人数 ゴールデンウィークの 休暇日数

(30)

代表値の例

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -8 -6 -4 -2 0 2 4 6 8 = 0 = 0 = 0 最頻値 中央値 平均値 左右対称な分布では、最頻値=中央値=平均値となる。

(31)

代表値の例

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0 5 10 15 20 = 5.5 = 5 = 5 最頻値 中央値 平均値 非対称な分布では、3つの値は一致しない。

(32)

代表値の例

多峰性の分布の場合 分布の「中心的な値」を表す指標として解釈できない 0 0.05 0.1 0.15 0.2 0.25 -5 0 5 10 15 = 2.5 = 0 = 1.5 最頻値 中央値 平均値

(33)

代表値だけでは分布を区別できない

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -15 -10 -5 0 5 10 15 = 0, = 0, = 0 どちらの分布も 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -15 -10 -5 0 5 10 15

(34)

代表値だけでは分布を区別できない

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -15 -10 -5 0 5 10 15 データのばらつきを表す指標が必要 → 散布度 どちらの分布も = 0, = 0, = 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -15 -10 -5 0 5 10 15

(35)

分布のばらつきを特徴づける

平均値 と個々の値が、 平均的にどの程度離れているかを表す指標 分散 標準偏差 ! = 1 − ! = 1 − 例えば の単位がkgのとき、分散の単位はkg2となる。 標準偏差の単位は の単位と同じ。

(36)

分散による分布の区別

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -15 -10 -5 0 5 10 15 どちらの分布も = 0, = 0, = 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -15 -10 -5 0 5 10 15 ! = 1 ! = 9

(37)

分散の計算

! = 1 − 1 2 3 4 5 1 2 3 = 3 = 10 # 1 − 3 + 3 × 2 − 3 + 3 × 3 − 3 + 4 − 3 + 2 × 5 − 3 } 1 = 1.6 人数 ゴールデンウィークの 休暇日数

(38)

歪度

分布の左右非対称性を表す % = 1 ∑ ! − 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 -4 -3 -2 -1 0 1 2 3 4 どちらの分布も = 1.13, ! = 0.36 % = 1.66 % = 0

(39)

尖度

分布のとがり具合を表す ' = 1 ∑ ! − 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 -6 -4 -2 0 2 4 6 0 0.05 0.1 0.15 0.2 0.25 0.3 -6 -4 -2 0 2 4 6 どちらの分布も = 0, ! = 1.56, % = 0 ' = 3.82 ' = 3

(40)

その他の散布度指標

分位点 データを昇順に並べ、下側のp%のところにある値を 「p%分位点」と呼ぶ。 第1四分位点:25%分位点,下側四分位点 第2四分位点:50%分位点,中央値 第3四分位点:75%分位点,上側四分位点 範囲:データの最大値ー最小値 四分位範囲: 上側四分位点ー下側四分位点 ※ 中央部で50%のデータが入る範囲

(41)

箱ひげ図による表現

1.5×四分位範囲 中央値 第3四分位 第1四分位 1.5×四分位範囲 ひげの外にあるデータは 点で表す。 ※ ひげの中に全てのデータが収まる場合、 ひげは最大値、最小値までしか延ばさない。 四分位範囲

(42)

1日目の内容

【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表

(43)

標準化・基準化

異なる分布に従うデータを比較するための手続き 例題 Aさんのテストの点数 数学:75点 英語:65点 Aさんは,数学と英語のどちらの方が得意でしょうか? 点数で比較すると、数学の方が得意?

(44)

判断の手がかり

学年の平均点と比較してみる 「Aさんの数学の得点ー数学の平均点」と 「Aさんの英語の得点ー英語の平均点」を比較する。 しかし,数学における平均点との差と 英語における平均点との差が同じ価値とは限らない。 Aさんよりも高い点数を取った人が少ないほど, その得点は貴重だと考える 平均値だけでなく,点数の散らばりも考慮する必要がある。 数学における1点と,英語における1点は同じ価値?

(45)

数学・英語の点の分布

0 1 2 3 4 5 6 7 8 0 20 40 60 80 100 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0 20 40 60 80 100 英語 数学 点数 割合(%) 割合(%) 平均: = 65 標準偏差:! = 8 平均: = 50 標準偏差:! = 5 点数 Aさんより高い点数の人は9.5% Aさんより高い点数の人は1% Aさん(75点) Aさん(65点)

(46)

標準化・基準化

) を標準得点(z得点)・標準化変量・基準化変量と呼ぶ。 標準得点の平均は0, 標準偏差は1になる。 標準化により、変数値の相対的「位置」を把握できる。 難易度の異なる数学と英語のテストにおいて、 数学でX点を取ったことと、英語でY点取ったことを 「全体の中での位置」という観点で比較できる。 を標準化して) とする:

(47)

標準化した数学・英語の点の分布

英語 数学 標準得点 割合(%) 割合(%) 0 0.5 1 1.5 2 2.5 3 3.5 4 -10 -5 0 5 10 − 65 8 標準化得点: − 50 5 標準化得点: 0 0.5 1 1.5 2 2.5 3 3.5 4 -10 -5 0 5 10 標準得点 どちらも平均0、標準偏差1の分布になる。

(48)

Aさんの得点の場合

英語の方が得意と言える。 0 0.5 1 1.5 2 2.5 3 3.5 4 -10 -5 0 5 10 75 − 65 8 = 1.25 数学の標準得点: 65 − 50 5 = 3 英語の標準得点: 数学 英語 標準得点 割合(%)

(49)

注意

ここまでの議論は、 データが正規分布に従うことを仮定している。 平均、分散のみで形を指定できる、左右対称な分布 (午後の講義で詳しく扱います。) データが厳密に正規分布に従わなくても、 正規分布に近い、左右対称な分布をしている場合は 標準化によるデータの比較は有効である。 また標準化はデータの大きさを揃える効果があるため、 回帰分析において重要。

(50)

標準化の実用例

偏差値 点数 を標準化したものを)得点と呼ぶ: ◦ )得点の平均は0、標準偏差は1. 偏差値=10 × ) + 50 ◦ 偏差値の平均は50、標準偏差は10。 ) = !− 0 0.5 1 1.5 2 2.5 3 3.5 4 0 20 40 60 80 100 正規分布を仮定した場合の 偏差値の分布 偏差値 割合(%)

(51)

変動係数

「 1人当たり県民所得」の推移 (内閣府 県民経済計算より) 最も格差が大きい年は? 標準偏差が最も大きいのは2013年。 そもそも平均値が大きく異なる(貨幣価値が異なる)が、 標準偏差を単純に比較してよいのか? 年 平均値(万円) 標準偏差(万円) 1955 7.4 1.4 1975 101.6 14 2013 282.7 39.3

(52)

変動係数

平均値の大きさを考慮したうえで、ばらつきを評価する 相対的な地域格差は1955年が最も大きい。 年 平均値(万円) 標準偏差(万円) 変動係数 1955 7.4 1.4 0.189 1975 101.6 14 0.138 2013 282.7 39.3 0.139 変動係数 = 標準偏差 平均値

(53)

1日目の内容

【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表

(54)

2変数間の関係

統計データの解析では、複数の変数間の関係性に 関心があることが多い。 (例) BMIが大きい人ほど血圧が高いか? 雨が降るほど渋滞が発生しやすいか? ネットでの人気と視聴率の関係は? ここでは2変数の関係性を表すための 記述統計学の方法をまとめる。

(55)

ここで扱うデータ

平成26年 死傷事故件数 (国道交通省より) 都道府県 自動車専 用道路 一般国道 一般都道 府県道等 市町村道 その他 北海道 8.3 56.1 48.6 120.7 宮城県 7.9 109.7 83.9 191.2 新潟県 5.0 77.9 65.8 124.4 東京都 8.4 29.3 105.3 134.7 愛知県 11.9 111.1 183.6 312.2 大阪府 12.3 101.5 147.6 222.1 広島県 12.1 123.3 94.3 210.8 福岡県 11.4 200.7 192.7 379.0 沖縄県 3.8 132.9 134.2 168.3 (人口10万人当たり)

(56)

散布図

0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 0.0 5.0 10.0 15.0 20.0 25.0 一般国道で の事故数 佐賀県 兵庫県 自動車専用道路での事故数

(57)

散布図

0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0 0.0 100.0 200.0 300.0 400.0 市町村道そ の他で の事故数 一般都道府県道等での事故数 香川県 静岡県

(58)

散布図

0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0 0.0 100.0 200.0 300.0 400.0 500.0 一般国道での事故数 市町村道そ の他で の事故数 佐賀県 静岡県

(59)

散布図から読み取れること

+ , + , + , Xが大きいほどYも大きい Yが大きいほどXも大きい Xが大きいほどYは小さい Yが大きいほどXは小さい XとYの大きさに 関連はない XとYの間には 正の相関がある XとYは 無相関である XとYの間には 負の相関がある

(60)

共分散

2変数の関係を表す統計量 +と,の間に 正の相関があるとき、正の値をとる。 相関関係が強いほど、共分散は大きくなる。 負の相関があるとき、負の値をとる。 相関関係が強いほど、共分散の絶対値は大きくなる。 無相関のとき、0に近い値をとる。 !-. = 1 − / − /

(61)

共分散

1 / /

(1)

(2)

(4)

(3)

共分散が正のとき (1), (3)にデータが多い 共分散が負のとき (2), (4)にデータが多い 共分散が0に近いとき 全ての領域にデータが まんべんなく存在

(62)

共分散

平成26年 死傷事故件数の共分散 自動車 専用道路 一般国道 一般都道府 県道等 市町村道 その他 自動車専用 道路 95.12 83.00 168.45 一般 国道 2520.11 3933.28 一般都道府 県道等 4405.79 市町村道 その他 (人口10万人当たり) X Y

(63)

共分散

平成26年 死傷事故件数の共分散 自動車 専用道路 一般国道 一般都道府 県道等 市町村道 その他 自動車専用 道路 9512 8300 16845 一般 国道 252011 393328 一般都道府 県道等 440579 市町村道 その他 (人口100万人当たり) データのスケールが10倍になると 共分散は100倍になる。 X Y

(64)

相関係数

共分散を標準偏差の積で割ったものを相関係数と呼ぶ !-: の標準偏差, !.: /の標準偏差 データのスケールを表す標準偏差で割ることで、 相関係数は−1から1の間に収まる。 正の相関があるとき、0-.は正の値をとる。 無相関のとき、0-.0に近い。 負の相関があるとき、0-.は負の値をとる。 -. - . -. - .

(65)

相関係数と散布図

-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0 -4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0.2 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0.6 0 = 0.4 -4 -3 -2 -1 0 1 2 3 4 0 = 0.8 -4 -3 -2 -1 0 1 2 3 4 0 = 1.0

(66)

相関係数と散布図

-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0 -4-3 0 = −0.4 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −0.2 -4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −0.6 -4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −0.8 -4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −1.0

(67)

平成26年 死傷事故件数の相関係数

自動車 専用道路 一般国道 一般都道府 県道等 市町村道 その他 自動車専用 道路 1.0 0.34 0.30 0.41 一般 国道 1.0 0.67 0.70 一般都道府 県道等 1.0 0.79 市町村道 その他 1.0 X Y 0 0.3 0.5 0.7 1 非常に強い相関 強い相関 中程度の相関 弱い相関 一般に

(68)

相関係数の解釈の注意

(1) 外れ値があるとき 外れ値は相関係数の値を大きく変えてしまう (2) 曲線関係があるとき 変数変換を行う必要がある (3) 異質な集団が含まれる場合 集団ごとに相関係数を求める必要がある 相関係数だけで判断せず、散布図を描くことが大事。

(69)

(1) 外れ値が相関係数に与える影響

-4 -2 0 2 4 6 8 10 -4 -2 0 2 4 6 8 10 0-. = 0.4606 0-. = −0.0222 / データ点A データ点Aを含めた場合の 相関係数 データ点Aを含めない場合の 相関係数 大きく外れたデータは 相関係数の値を変えてしまう。 データ点Aを「外れ値」として 除外してよいのか?

(70)

外れ値の見つけ方

箱ひげ図を用いる + , データ点A データが正規分布に従うと 仮定すると、ひげの外に 値をとる確率は0.7%しかない。 箱ひげ図を描いて ひげの外にあるデータは 外れ値である可能性が高い。 ただし、データが正規分布に 従うとは限らないので、 実際に除外するかどうかは よく検討する必要がある。

(71)

外れ値が発生する理由

確認すべきこと 他データとの測定環境の違い 被観測個体の特殊性 データの入力ミス よほど小規模なデータでない限り、 ヒューマンエラーは避けられない これらの原因による外れ値であると確信できる場合は、 データから外れ値を除いてもよい。

(72)

(2) U字型相関

0 = 0.04 0 = 0.05 U字型相関を示す散布図 逆U字型相関を示す散布図 無相関と考えるのは誤り -8 -6 -4 -2 0 2 4 -3 -2 -1 0 1 2 3 -4 -2 0 2 4 6 8 10 -3 -2 -1 0 1 2 3 / /

(73)

変数変換

U字型相関を示す散布図 逆U字型相関を示す散布図 と/の相関は強い。 / / -4 -2 0 2 4 6 8 10 0 1 2 3 4 5 6 7 -8 -6 -4 -2 0 2 4 0 1 2 3 4 5 6 7 8 0 = 0.78 0 = −0.80

(74)

全体の相関係数 0 = 0.47 層別相関係数 □の集団: 0 = 0.89 ○の集団: 0 = 0.67

(3) 異質な集団が含まれる場合

-6 -4 -2 0 2 4 6 8 10 -3 -2 -1 0 1 2 3 散布図を描き、 データの構造を把握する ことが重要。

(75)

相関関係と因果関係

相関関係があるとき因果関係もあるとは限らない。 (例) 「T市の人口」と「T市の税収」に正の相関がある場合、 次の5通りの可能性が考えられる。 「人口が増えたので税収が増えた。」 「税収が増えたので人口が増えた。」 「人口が増えたので税収が増えたし、 税収が増えたので人口が増えた。」 「T市に大規模工場が出来たので、 人口が増えたし税収も増えた。」 「偶然、人口増と税収増が同時に起きた。」 因果関係がある 擬似相関がある 無関係

(76)

擬似相関

変数1が変数+と変数,の間の相関をもたらすとき、 その相関を擬似相関と呼ぶ。 例:都市の大気汚染の程度+と都市人口に占める若者の割合,の間には 擬似相関がある。変数1は都市の人口である。 豊田秀樹,『原因を探る統計学』より 変数1 (原因) 変数, (結果2) 変数+ (結果1) 擬似相関

(77)

相関係数と偏相関係数

相関係数0-.:変数+と変数,の間の関連性の指標 偏相関係数0-.⋅3: 変数1の影響を変数+と変数,から排除した上での 変数+と変数,の間の関連性の指標 -.⋅3 -. -3 .3 -3 .3 -. - . -. - .

(78)

偏相関係数の例

0-. = −0.71 → ノロウイルスが減ると台風が増える?? +: ノロウイルス食中毒発生件数 (平成23年~27年平均、厚生労働省) ,: 台風の発生個数 (平成23年~27年、気象庁) 0 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10 11 12 0 10 20 30 40 50 60 70 80 90 1 2 3 4 5 6 7 8 9 10 11 12月 月

(79)

偏相関係数の例

0 5 10 15 20 25 30 1 2 3 4 5 6 7 8 9 10 11 12 月 1: 平均気温 0-.⋅3 = 0.25 ノロウイルス食中毒の減少と台風の増加は 気温という原因により引き起こされていると考えられる。 (1990年~2013年の平均、気象庁)

(80)

偏相関係数の例

気温

ノロウイルス

台風

0-3 = −0.92 0.3 = 0.83 0-.⋅3 = 0.25 (0-. = −0.71)

(81)

偏相関係数の例

ちなみに

1カ月前の

気温

ノロウイルス

台風

0-3 = −0.80 0.3 = 0.90 0-.⋅3 = 0.05 (0-. = −0.71)

(82)

クロス表

2つの変数のデータを、表に集計してまとめたもの 居住年数 思う どちらかとい えば思う どちらかといえ ば思わない 思わない 無回答 合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3~5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成27年度 立川市市民満足度調査より 「立川市に住み続けたいと思いますか?」

(83)

クロス表

2つの変数のデータを、表に集計してまとめたもの 居住年数 思う どちらかとい えば思う どちらかといえ ば思わない 思わない 無回答 合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3~5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成27年度 立川市市民満足度調査より 「立川市に住み続けたいと思いますか?」 関連性の指標①:割合の差 (絶対的指標) (例) 生まれてからずっと立川市に住んでいる人のうち、 住み続けたいと思う人は、思わない人より 70.3ポイント多い。

(84)

クロス表

2つの変数のデータを、表に集計してまとめたもの 居住年数 思う どちらかとい えば思う どちらかといえ ば思わない 思わない 無回答 合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3~5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成27年度 立川市市民満足度調査より 「立川市に住み続けたいと思いますか?」 関連性の指標②:割合の比 (相対的指標) (例) 生まれてからずっと立川市に住んでいる人のうち、 住み続けたいと思う人の割合は、思わない人の割合より 55倍大きい。

(85)

クロス表の落とし穴

1980-90年代: 乳がん外科手術後のタモキシフェンの使用と がん再発の関係について [佐藤 (2008)] 再発割合の差:0.2ポイント タモキシフェン 再発あり 再発なし 合計 使用 464 (18.2%) 2085 (81.8%) 2549 未使用 424 (18.0%) 1928 (82.0%) 2352 合計 888 4013 4901 タモキシフェンには がん再発の予防効果がほとんどない?

(86)

クロス表の落とし穴

リンパ節転移の有無で層に分けてみる リンパ節転移あり リンパ節転移なし タモキシ フェン 再発あり 再発なし 合計 再発あり 再発なし 合計 使用 368 (30.3%) 847 (69.7%) 1215 96 (7.2%) 1238 (92.8%) 1334 未使用 253 (33.3%) 507 (66.7%) 760 171 (10.7%) 1421 (89.3%) 1592 合計 621 1354 1975 267 2659 2926 再発割合の差: 3ポイント 再発割合の差: 3.5ポイント タモキシフェンには がん再発の予防効果がある!

(87)

クロス表の落とし穴

各集団の人数がバラバラのため、結果が覆ってしまった リンパ節転移あり リンパ節転移なし タモキシ フェン 再発あり 再発なし 合計 再発あり 再発なし 合計 使用 368 (30.3%) 847 (69.7%) 1215 96 (7.2%) 1238 (92.8%) 1334 未使用 253 (33.3%) 507 (66.7%) 760 171 (10.7%) 1421 (89.3%) 1592 リンパ節転移があるとき タモキシフェンを使わないことは少ない リンパ節転移がないとき タモキシフェンを使わないことが多い 「未使用」の全データは、リンパ節転移なしの集団の影響が強い。 よって全データを使用した場合、 「未使用」で再発しなかった割合が高く見積もられる。

(88)

クロス表の落とし穴

各集団の人数がバラバラのため、結果が覆ってしまった 仮に、各集団が1000人ずつだとすると リンパ節転移あり リンパ節転移なし タモキシ フェン 再発あり 再発なし 合計 再発あり 再発なし 合計 使用 303 697 1000 72 928 1000 未使用 333 667 1000 107 893 1000 タモキシフェン 再発あり 再発なし 合計 使用 375 (18.8%) 1625 (81.3%) 2000 未使用 440 (22.0%) 1560 (78.0%) 2000 全体のクロス表でも、3.2ポイントの再発割合の差がでる

(89)

シンプソンのパラドックス

データのまとめ方によって結果が覆ってしまう現象を シンプソンのパラドックスという。 どのクロス表での結果を採用するかを決める 方法論はない。 タモキシフェンの例の場合、 リンパ節転移の有無は再発に大きくかかわるため、 層別した場合の結果が正しいと考えられる。 各データの背景にある知見と照らし合わせて データを解釈することが大事。

(90)

午前中のまとめ

記述統計学によるデータ要約の方法を解説した。 データ要約は、データに対する人間の理解を助ける。 しかし要約により、データの一部の情報が失われることは 避けられない。 ヒストグラムや散布図により、 データを「見る」ことが大事。 その上で、データが持つ重要な情報を落とさないよう、 適切な要約方法を用いる。 対象についての知見を学び、 先入観や願望を捨てることが重要。

(91)

1日目の内容

【午後】 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値・分散・共分散・相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理

(92)

【午前の話】 記述統計学

記述統計学とは データのもっている主要な特性をより鮮明に 表現するために,データを要約したり 作表をしたりすること一般を指す (統計科学事典,清水良一訳) つまり 特定の標本データの性質を調べるための統計学 棒グラフ,ヒストグラム,散布図などを描く 平均,中央値,最頻値,分散,標準偏差などを求める 共分散,相関係数などを求める

(93)

母集団と標本

何らかの特徴を得る対象となる全集団を母集団と呼ぶ。 (例) 日本人の成人男性の平均身長は? → 母集団は日本人の成人男性全員 21時の○○TVニュースを視聴していた世帯の割合は? → 母集団は全世帯の数 しかし、母集団の情報を完全に把握することは困難。 母集団の数が非常に大きい場合 観測が困難な場合

(94)

母集団と標本

母集団の全体調査が不可能な場合、 次のように母集団の性質を推定する。 1. 母集団から一部を無作為に選ぶ。 これを標本と呼ぶ。 2. 標本について統計的分析を行い、 母集団の性質を推定する。 ここで用いる方法論を推測統計学と呼ぶ。

(95)

母集団と標本

標本 母集団 ランダム サンプリング 推測統計学 標本データの 性質 記述統計 母集団の統計的性質を 標本から推定する

(96)

記述統計学から推測統計学へ

推測統計学において用いる 確率・統計の基礎についてまとめる。 確率変数 確率関数と確率密度関数 確率変数の期待値・分散・共分散・相関係数

(97)

確率と確率変数

確率は不確実な事象の起こりやすさを表す。 確率は0から1の間の実数で表され、 各事象が起こる確率をすべて足し合わせると1となる。 確率変数とは、 ある確率法則に従って値が決まる変数のこと 確率変数を「+」と表す。実際に決まった値(実現値)を とする。 確率変数がとりうる値の集合(標本空間)を「Ω」と表記する。 標本空間Ωに含まれる値5が実現する確率をPr (5)と表記する。

(98)

確率と確率変数の例①

+の値を確率的に決める Pr + = 当たり = 8 Pr + = はずれ = 1 − 8 + + + Ω = 当たり, はずれ はずれ 当たり 確率変数の値の実現 はずれ

(99)

確率と確率変数の例②

※ ここでは歪みのないコイン、サイコロを考えます。 コイン投げ サイコロ投げ 確率変数+ コインの向き サイコロの目 標本空間Ω Ω = 表, 裏 Ω = 1,2,3,4,5,6 確率変数の値を 決める方法 コインを投げる行為 サイコロを投げる行為 確率変数の値が従う 確率法則 Pr + = 表 = 1 2 Pr + = 裏 = 12 Pr + = 1 = Pr + = 2 = Pr + = 3 = Pr + = 4 = Pr + = 5 = Pr + = 6 = 16

(100)

確率変数の種類

離散型確率変数 とびとびの値をとる コイン投げや、さいころ投げなどの整数値データ コイン投げの場合など、表を1、裏を0として数値化する。 確率変数がある値をとる確率は、確率関数により与えられる。 連続型確率変数 とりうる値が連続的なもの 身長・体重などの実数値データ 確率変数がある範囲の値をとる確率は、 確率密度関数により与えられる。

(101)

確率変数の種類

離散型確率変数 とびとびの値をとる コイン投げや、さいころ投げなどの整数値データ コイン投げの場合など、表を1、裏を0として数値化する。 確率変数がある値をとる確率は、確率関数により与えられる。 連続型確率変数 とりうる値が連続的なもの 身長・体重などの実数値データ 確率変数がある範囲の値をとる確率は、 確率密度関数により与えられる。

(102)

確率関数

離散型確率変数の確率分布を表す関数 Ω = , , … , : のとき Pr + = = 8 , … , Pr + = : = 8: ∑ 8: = 1 とする。 ; = 8 , ; = 8 , …となる関数;( )を確率関数と呼ぶ。 0 0.1 0.2 0.3 0.4 0.5 0.6 0 0.2 0.4 0.6 0.8 1 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 1 2 3 4 5 6 コイン投げの確率関数 サイコロ投げの確率関数 ;( ) ;( )

(103)

確率関数

その他の例 2つのサイコロを同時に投げて、出た目の和の確率関数 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 1 2 3 4 5 6 7 8 9 10 11 12 13 ;( )

(104)

平均と分散

平均 (期待値とも呼ぶ) 分散 : : < : : : < : ※ 8:: 確率変数が'番目の値をとる確率

(105)

平均と分散の例

コイン投げの場合 サイコロ投げの場合 > + = 1 × 12 + 0 × 12 = 0.5 ? + = 1 − 12 × 12 + 0 − 12 × 12 = 0.25 > + = 1 × 16 + 2 × 16 + 3 × 16 + 4 × 16 + 5 × 16 + 6 × 16 = 3.5 ? + = 1 − 3.5 × 16 + 2 − 3.5 × 16 + 3 − 3.5 × 16 + 4 − 3.5 × 16 + 5 − 3.5 × 16 + 6 − 3.5 × 16 = 2.92

(106)

離散型一様分布

Ω = , … , :}のとき、; =, … , = ; : = 1/'となる 確率関数;( )を離散型一様分布と呼ぶ。 確率変数+の取り得る値の下限をA、上限をBとすると 0 0.1 0.2 0.3 0.4 0.5 0.6 0 0.2 0.4 0.6 0.8 1 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 1 2 3 4 5 6 コイン投げの確率関数 サイコロ投げの確率関数 ;( ) ;( ) > + = A + B2 , ? + = B − A + 1 − 112

(107)

ベルヌーイ分布

事象A, Bがそれぞれ確率8, 1 − 8で起こる離散確率分布 A=「裏」, B=「表」、 A=「成功」, B=「失敗」 など コイン投げは8 = 0.5に対応する。 このような事象を起こさせることをベルヌーイ試行と呼ぶ。 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 8 = 0.2で0(失敗)、 8 = 0.8で1(成功)となる場合の ベルヌーイ分布

(108)

ベルヌーイ試行を繰り返す

事象A,Bがそれぞれ確率8, 1 − 8で起こる ベルヌーイ試行をC回繰り返すとき、 「事象Aが起こる回数」は確率変数である。 もちろん「事象Bが起こる回数」も確率変数である。 コイン投げの場合、 確率変数+ = 「表が出る回数」とするとΩ = 0, 1, 2, … , C} ただし、C回の試行の独立性を仮定する。 C回の試行は互いに影響されることなく、 各試行で事象A, Bが起こる確率は常に8と1 − 8である。 例えばバスケットボールのフリースローでは独立性が成り立たない。

(109)

2項分布

事象A,Bがそれぞれ確率8, 1 − 8で起こる ベルヌーイ試行をC回繰り返すとき、 確率変数「事象Aが起こる回数」は2項分布に従う。 期待値:C8 分散:C8(1 − 8) C - - <D-C回の試行のうち 回で 事象Aが起こる場合の数 事象Aが 回、 事象BがC − 回起こる確率

(110)

2項分布

C = 30回のベルヌーイ試行を行う場合 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0 5 10 15 20 25 30 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0 5 10 15 20 25 30 30 - - ED-8 = 0.3 8 = 0.5 ; ;

(111)

ポアソン分布

事象A,Bがそれぞれ確率8, 1 − 8で起こる ベルヌーイ試行をC回繰り返すとき、 確率変数「事象Aが起こる回数」は2項分布に従う。 特に次の条件が成立するときを考える。 Cが非常に大きい 8とCの間に8 = F/Cという関係があり、 Cが非常に大きいとき8は非常に小さい。 (1回の試行で事象Aが起こることは稀である) このとき2項分布はポアソン分布となる。

(112)

ポアソン分布

期待値、分散ともFである。 - DG 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0 5 10 15 20 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 5 10 15 20 25 30 F = 5 F = 10 ;( ) ;( )

(113)

の意味

二項分布の性質から、 事象Aの起こる回数の期待値はC8。 8がCと無関係な定数(< 1)の場合、 事象Aの起こる回数は試行回数Cに比例して増える。 8 = F/Cの場合、C8 = Fなので Cが大きくなっても事象AはF回程度しか起きない。 ポアソン分布は、 「1回の試行で起きることは稀だが、 試行回数Cが大きければF回くらいは起きる事象A」が、 実際にC回の試行で+回起きる確率を表す。

(114)

ポアソン分布の実例

プロイセン陸軍で馬に蹴られて死亡した兵士数 [Bortkiewicz 1898] 1875年~1894年の20年間で 馬に蹴られて死亡した兵士数の分布を 200部隊に対して調べた 死亡兵士数 0 1 2 3 4 5 観測数 109 65 22 3 1 0 割合 0.545 0.325 0.110 0.015 0.005 0

(115)

ポアソン分布の実例

プロイセン陸軍で馬に蹴られて死亡した兵士数 [Bortkiewicz 1898] 0 0.1 0.2 0.3 0.4 0.5 0.6 0 1 2 3 4 5 死亡兵士数 確率 F = 0.61のポアソン分布 実際のデータ F = 0.61のポアソン分布で近似できる。

(116)

ポアソン分布の実例

その他にも「一定の時間に起こるイベント数の分布」の モデルとして用いられる。 交通事故の件数 製造ラインにおける不良品の数 1時間あたりにかかってくる電話の数 1日あたりのタクシーの乗客数 ある地域における1ヶ月あたりの胃がんによる死亡者数 ある期間に起こるM7以上の地震の数 など

(117)

確率変数の種類

離散型確率変数 とびとびの値をとる コイン投げや、さいころ投げなどの整数値データ コイン投げの場合など、表を1、裏を0として数値化する。 確率変数がある値をとる確率は、確率関数により与えられる。 連続型確率変数 とりうる値が連続的なもの 身長・体重・時間などの実数値データ 確率変数がある範囲の値をとる確率は、 確率密度関数により与えられる。

(118)

確率密度関数

(例) 1000人の社員が会社にやってくる時間を1万日調べた。 ※ 「1000人」「1万日」は、「以下の議論に十分な数」という程度の意味です。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 -140 -120 -100 -80 -60 -40 -20 0 20 40 出社時刻ー始業時刻(分) 社員の出社時刻のヒストグラム (15分刻み) 割合

(119)

確率密度関数

階級の刻み幅を小さくしていく 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -140 -120 -100 -80 -60 -40 -20 0 20 40 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -140 -120 -100 -80 -60 -40 -20 0 20 40 3分刻み 0.03分刻み 出社時刻ー始業時刻(分) 出社時刻ー始業時刻(分) 刻み幅を小さくすると、ヒストグラムは「データの相対頻度を表す関数」へ収束。

(120)

確率密度関数

連続型確率変数において、 ヒストグラムの刻みを無限に小さくする極限により 定義される関数を確率密度関数という 「確率」そのものではないが、それに似た性質を持つ 連続型確率変数において、ある値を持つ確率は定義できない。 ある範囲をとる確率は定義できる。 例えば、確率変数がA以上B以下の値をとる確率は 確率変数がとり得る値の範囲全体で積分すると1になる。 Pr A ≤ + ≤ B = J K 8L M

(121)

平均と分散

平均 分散 -NOP -NQR -NOP -NQR ST:+のとりうる最小値 UV:+のとりうる最大値

(122)

連続型一様分布

8 = WB − A A ≤ ≤ B1 のとき 0 それ以外のとき 0 0.02 0.04 0.06 0.08 0.1 -5 0 5 10 15 A = 0, B = 10の一様分布 8 平均値 分散

(123)

正規分布

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 20 40 60 80 100 8 X = 30, Y = 5 X = 40, Y = 3 X = 50, Y = 10 平均値 分散

(124)

標準正規分布

平均0,分散1の正規分布を標準正規分布と呼ぶ。 正規分布に従う確率変数+を標準化すると, それは標準正規分布に従う。 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -6 -4 -2 0 2 4 6 8 平均値: > + = 0 分散: ? + = 1

(125)

正規分布の性質

平均(X) ±標準偏差 Y の範囲に約68%が収まる 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -6 -4 -2 0 2 4 6 X X + Y X − Y 8

(126)

正規分布の性質

平均(X) ± 2 ×標準偏差 Y の範囲に約95%が収まる X X + 2Y X − 2Y 8 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -6 -4 -2 0 2 4 6

(127)

シグマ区間

区間 確率(%) 1Y 68.2689492137086 2Y 95.4499736103641 3Y 99.7300203936740 4Y 99.9936657516326 5Y 99.9999426696856 6Y 99.9999998026825 7Y 99.9999999997440 8Y 99.9999999999999 9Y 100.000000000000

(128)

同時確率分布と周辺確率分布

複数の確率変数に関する確率分布 +, ,という2種類の確率変数の組の 同時確率分布を8( , /)と表記する。 周辺確率分布 +と,が互いに独立な場合には、 同時確率分布は8( , /) = 8- 8.(/)となる。 特に+, ,が相関している場合を考える 8- = J.NOPK/ 8 , / .NQR 8. / = J K 8 , / -NOP -NQR

(129)

共分散と相関

共分散

相関係数

(130)

「独立」と「無相関」

1. 8 +, , = 8- + × 8. , のとき、+と,は独立である。 このとき> +, = > + × >[,] 2. COV +, , = 0であるとき、+と,は無相関である。 独立であれば無相関。 > +, − > + > , = 0なのでCOV +, , = 0 無相関のとき独立であるとは限らない。 > +, , = 0かつ> + , > , の少なくともどちらか1つが0の場合、 +と,は独立でなくても無相関となりうる。

(131)

無相関だが独立でない例

8(1,0) = 8(2,1) = 8(2, −1) = 1/3 それ以外の8(+, ,)は0の場合 周辺分布 8-(1) = 1/3, 8-(2) = 2/3 よって>[+] = 5/3 8.(0) = 8.(1) = 8.(−1) = 1/3 よって>[,] = 0 COV +, , = × (0 + 2 − 2) − × 0 = 0なので無相関。 しかし8 +, , ≠ 8- + 8.(,)なので独立ではない。 / 0 1 2 1 −1

(132)

2変量正規分布

, /の二変量正規分布 周辺化分布はガウス分布となる 8 , / = 1 2cY-Y. 1 − d × exp −2 1 − d1 ( − XY -) - − 2d( − X-)(/ − X.) Y-Y. + (/ − X.) Y. 8- = J K/ 8 , /h Dh = 1 2cY- exp − − X -2Y -8. / = J K/ 8 , /h Dh = 1 2cY. exp − − X. 2Y. ※ d:相関係数

(133)

2変量正規分布の立体図

-4 -3 -2 -1 0 1 2 3 4 -4 -3-2 -1 0 1 2 3 4 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 / 8( , /) X- = 0, Y- = 1, X. = 0, Y. = 1, d = 0.4

(134)

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

2変量正規分布の等高線

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 0 0.05 0.1 0.15 0.2 0.25 0.3 / / / d = 0 d = 0.4 d = 0.8

(135)

1日目の内容

【午後】 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値・分散・共分散・相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理

(136)

母集団と標本

標本 母集団 ランダム サンプリング 推測統計学 標本データの 性質 記述統計 母集団の統計的性質を 標本から推定する

(137)

推測統計学の基礎

当選確率は8です。 母集団C人(くじ引きに参加した人) + 当たり はずれ 8 1 − 8 当たった人の人数iは、二項分布に従う。 C j j <Dj 平均C8, 分散C8(1 − 8) 本当?

(138)

推測統計学の基礎

母集団の全数調査が困難である場合に、 標本を用いて母集団の統計的性質を推測する。 母集団C人 当たった人の人数iは、二項分布に従う。 C j j <Dj 平均C8, 分散C8(1 − 8) 真実(直接観測できない) 標本 ランダム サンプリング 推測統計学 観測事実

(139)

母数と標本統計量

母数 母集団の平均・分散・相関係数など(本当に知りたい情報) 標本統計量 標本データの平均・分散・相関係数などを得る計算式のこと 特定の標本データを当てはめたものを標本統計量の実現値という + + , … , + = 1 + = + , … , = 1 (例) 標本平均の場合 標本統計量: 標本統計量の実現値:

(140)

母数と標本統計量

次の表記を用いる。 母集団 (母数) 標本 (標本統計量の 実現値) 平均 X 標準偏差 Y ! 相関係数 d 0

(141)

推測統計学の基礎

標本 ( 人) 母集団 (C人) Ck 通りの 選び方がある 1 0 0

0 1 0 0 0 1 0 0 0 0 1 0 1 1 0 + = 0.333 + = 0.167 + = 0.5 標本平均は確率変数である 当たりを+ = 1, はずれを+ = 0とする。 標本平均を + = 1 + とする。

(142)

記述統計量と標本統計量の違い

記述統計量 得られたデータそのものの分布の特徴を要約するための統計量 個々のデータが確率的にばらつくものだとは考えていない 標本統計量 得られたデータは、母集団から得られたサンプルである。 個々のデータは確率的にばらつくものだと仮定しており、 統計量もそれに従ってばらつく 母集団についての推測を行うための統計量

(143)

標本平均の分布

8 = 0.2の場合 標本サイズ が大きくなるにつれて、真の8に収束していく。 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0 0.2 0.4 0.6 0.8 1 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0 0.2 0.4 0.6 0.8 1 0 0.02 0.04 0.06 0.08 0.1 0.12 0 0.2 0.4 0.6 0.8 1 + + + = 10 = 100 = 1000

(144)

標本平均の分散の標本サイズ依存性

8 = 0.2の場合 標本平均の分散は1/ に比例して小さくなる。 0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 ? + 1/ 傾き 8(1 − 8)

(145)

大数の法則

標本平均に関する性質 確率変数+ , + , … , + が独立に同一の分布に従うとする >[+] = Xとする 大数の法則 を大きくしていくと、標本平均は確率1でXに収束する → 標本のサイズを大きくしていくと、 標本平均は母集団における平均値に必ず一致する。

(146)

中心極限定理

標本統計量の分布そのものの特徴に関する重要な定理 確率変数+ , + , … , + が独立に同一の分布に従うとする >[+] = X, ?[+] = Y とする。 中心極限定理 を大きくすると、 ∑ + は平均X, 分散Y / の 正規分布に従う。 → 標本平均が従う確率分布は、標本サイズが大きいとき 正規分布で近似でき、その平均は母集団の平均と一致

(147)

中心極限定理

標本 ( 人) 母集団 (C人) 当たった人の人数i = ∑ +< は 平均C8, 分散C8(1 − 8)の二項分布に従う 真実 当たった人の割合+ = <∑ +< は 平均8,分散8(1 − 8)/Cの 正規分布に従う 中心極限定理 (C → ∞) 観測事実 + = 1 + 中心極限定理より 標本平均+は が大きいとき、 平均8, 分散8(1 − 8)/ の 正規分布に従う

(148)

不偏推定量

標本統計量の期待値が母数に一致するとき、 その標本統計量を不偏推定量と呼ぶ。 標本平均は、母集団の平均の不偏推定量である。 次のように定義される標本分散は、 母集団の分散の不偏推定量である。 ! + , … , + = − 11 + − +

(149)

不偏分散

標本サイズ の代わりに自由度 − 1で割った分散を 不偏分散とよぶ。 ※ 記述統計においても不偏分散を用いる場合がある。 ∑ − > + = 0なので,分散を計算するときに使っている 「自由な」情報は − 1個である。したがって, − 1で割る。 より詳しい説明については,以下を参照のこと 統計的方法のしくみ―正しく理解するための30の急所 , 永田 靖 (著),日科技連出版社

(150)

まとめ

記述統計学 与えられたデータそのものの統計的性質の把握を 目標とする。 推測統計学 与えられたデータ(標本:観測事実)の背後にある 母集団(真実)の統計的性質を、 標本の統計的性質から推測する。 その際に用いる数学的ツールは確率論である。 推測統計学の基本である「推定」と「検定」については 2日目以降の講義で扱う。

(151)

EXCEL: 記述統計量を求める関数

平均:AVERAGE 中央値:MEDIAN 最頻値:MODE.SNGL 分散:VARP(nで割った分散) 不偏分散:VAR(n-1で割った分散) 標準偏差:STDEV.P(nで割った標準偏差) 標準偏差: STDEV.S(n-1で割った標準偏差) 共分散:COVARIANCE.P(n-1で割った共分散) 共分散:COVARIANCE.S(n-1で割った分散) 相関係数:CORREL 四分位数:QUARTILE.INC 標準化・基準化:STANDARDIZE

参照

関連したドキュメント

標準法測定値(参考値)は公益財団法人日本乳業技術協会により以下の方法にて測定した。 乳脂肪分 ゲルベル法 全乳固形分 常圧乾燥法

1-1 睡眠習慣データの基礎集計 ……… p.4-p.9 1-2 学習習慣データの基礎集計 ……… p.10-p.12 1-3 デジタル機器の活用習慣データの基礎集計………

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

基本目標4 基本計画推 進 のための区政 運営.

10 特定の化学物質の含有率基準値は、JIS C 0950(電気・電子機器の特定の化学物質の含有表

スペイン中高年女性の平均時間は 8.4 時間(標準偏差 0.7)、イタリア中高年女性は 8.3 時間(標準偏差

この標準設計基準に定めのない場合は,技術基準その他の関係法令等に

重回帰分析,相関分析の結果を参考に,初期モデル