1 日目の内容午前記述統計 1. データの表現図表によるデータの可視化 2. データ分布の特徴づけ代表値 : 平均, 中央値, 最頻値散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較標準化基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 2

(1)

記述統計と確率変数・確率分布

統計数理研究所モデリング研究系坂田綾香

(2)

１日目の内容

【午前】記述統計 1. データの表現図表によるデータの可視化 2. データ分布の特徴づけ代表値：平均，中央値，最頻値散布度：分散，標準偏差，四分位偏差 3. データの比較標準化・基準化 2変数の関係：散布図，共分散，相関係数，クロス表

(3)

１日目の内容

【午後】確率と統計 4. 確率と統計の基礎確率変数確率関数と確率密度関数確率変数の期待値・分散・共分散・相関係数 5. 推測統計学の基礎母集団と標本大数の法則と中心極限定理

(4)

変数と観測対象

一般的にデータは，「観測対象」×「変数」の形式で得られる。観測対象とは，データを取得する対象変数とは，人や物、時間によって値が異なる特性身長，年齢，性別，株価など

(5)

データの例

立川市の気象データ降水量(mm) 気温(℃) 日照年合計日最大最大平均最高最低時間 1時間 10分間日平均日最高日最低 (h) 平成 20 1,994.0 123.0 58.5 21.5 15.4 20.3 11.1 37.4 -5.5 1,863.0 21 1,566.0 130.5 39.5 11.0 15.6 20.3 11.3 34.6 -5.8 1,793.9 22 1,714.0 99.0 41.5 21.0 15.8 20.8 11.2 37.2 -5.2 2,016.2 23 1,427.5 157.0 24.0 10.0 15.3 20.4 10.7 37.2 -6.8 2,073.5 24 1,696.0 117.0 43.0 25.0 14.9 19.8 10.5 36.2 -5.5 2,057.1 http://www.city.tachikawa.lg.jp/somu/shise/toke/nenpo/tokehyo.html

(6)

データの例

立川市のごみ排出量の推移年度総数 1日当たりの排出量小計収集ごみ持ち込み資源ごみ可燃物不燃物粗大ごみ 19 61,844 31,972 29,006 2,116 850 18,867 11,005 169 20 59,826 31,456 28,673 1,951 832 17,736 10,634 164 21 57,391 29,669 26,902 1,935 832 16,160 11,562 157 22 53,399 28,764 25,414 2,538 812 12,901 11,734 146 23 52,334 29,109 25,629 2,675 805 12,054 11,171 143 (単位：トン) http://www.city.tachikawa.lg.jp/somu/shise/toke/nenpo/tokehyo.html

(7)

データの要約の必要性

データは一般的に巨大。 → 眺めているだけではよく分からないそこでデータを要約する必要がある。図表による要約度数分布表，棒グラフ，ヒストグラムなど数値要約最頻値，中央値，平均値，標準偏差，相関係数などデータ要約により，必要な情報を簡潔に伝える方法を記述統計と呼ぶ。

(8)

データの種類

(1) データの型による分類量的データ連続データ：身長、体重、温度、時間など離散データ：人数、カウントデータなど質的データ名義尺度：性別、天気、居住地域など順序尺度：薬剤の治療効果の判定(悪化、不変、改善)など

(9)

データの種類

(2) データの次元による分類 1次元データ：変数が1つだけのデータ (例) ある学年全員の数学の点数多次元データ： 2つ以上の変数が組となっているデータ (例) 2次元データ：ある学年全員の数学と英語の点数 3次元データ：ある学年全員の数学と英語と物理の点数 … 今日の講義では2次元データまでを扱います。

(10)

１日目の内容

(11)

記述統計学

記述統計学とはデータのもっている主要な特性をより鮮明に表現するために，データを要約したり作表をしたりすること一般を指す（統計科学事典，清水良一訳）

(12)

ここで扱うデータ

統計数理研究所による「日本人の国民性調査」より「あなたは結婚していらっしゃいますか？」「もういちど生まれかわるとしたら、あなたは男と女の、どちらに、生れてきたいと思いますか？」「あなたが最後にいらっしゃった学校はなんですか？」国税庁による「民間給与実態統計調査」(平成26年実施) これらのデータを以下の図表により可視化する。 (1) 度数分布表(2) 棒グラフ(3) ヒストグラム (4) 折れ線グラフ(5) 円グラフ

(13)

(1) 度数分布表

観測値のとりうる値をいくつかのカテゴリ(階級)に分類

各階級で、観測値がいくつあるかを表にまとめる。

度数：各カテゴリーに所属する観測値の数

(14)

離散変数の度数分布表

「あなたは結婚していらっしゃいますか？」項目度数相対度数累積相対度数未婚 17 17 17 死別 7 7 24 離別 5 5 29 既婚 71 71 100 その他 0 0 100 各階級の度数を全観測数で割ったもの (×100) 最初の階級から相対度数を足し合わせたもの

(15)

連続変数の度数分布表

連続変数の場合には階級を作り，度数分布を作成する。男性の給与の度数分布(民間給与実態統計調査) 階級(万円) 度数(万人) 相対度数 累積相対度数 200未満 301.3 10.7 10.7 200～299 371.4 13.2 24.0 300～399 513.8 18.3 42.3 400～499 487.8 17.4 59.7 500～599 358.2 12.8 72.5 600～699 235.6 8.4 80.9 700～799 165.7 5.9 86.8 800～899 112.3 4.0 90.8 900～999 75.2 2.7 93.5 1000以上 183.6 6.5 100.0

(16)

(2) 棒グラフ

棒と棒はくっつけない 0 10 20 30 40 50 60 70 80 未婚死別離別既婚その他「あなたは結婚していらっしゃいますか？」割合 (％)

(17)

(2) 棒グラフ

男性の給与(民間給与実態統計調査より) 0 2 4 6 8 10 12 14 16 18 20 割合 (％)

(18)

棒グラフとヒストグラムの違い

棒グラフ：階級、項目ごとの個体数を表すヒストグラム：それぞれの柱の「面積(太さ×高さ)」が度数を表す例えば、幅が500万円の柱は、幅が100万円の柱の 5倍の太さがあるので、同じ度数でも柱の高さは1/5になる。

(19)

(3) ヒストグラム

男性の給与(民間給与実態統計調査より) 0 1 2 3 4 5 6 1000～1500(万円)の 136.4(万人)を 500×0.2728として表す。 … (万円) (万人) 300～400(万円)の 513.8(万人)を 100×5.138として表す。

(20)

(3) ヒストグラム

幅のとり方で印象が異なるので注意が必要。 0 1 2 3 4 5 0 1 2 3 4 5 6 1000万円以下を100万円刻みにした場合 1000万円以下を200万円刻みにした場合男性の給与(民間給与実態統計調査より)

(21)

(4) 円グラフ

違いが視覚的に分かる「あなたが、最後にいらっしゃった学校はなんですか？」 1978年 2008年高校大学中学校小学校その他

(22)

(5) 折れ線グラフ

割合 (％) 時系列的変化を示すのに便利「もう一度生まれかわるとしたら、あなたは男と女のどちらに生れてきたいと思いますか？」 0 10 20 30 40 50 60 70 80 90 100 1 9 5 8 1 9 6 3 1 9 6 8 1 9 7 3 1 9 7 8 1 9 8 3 1 9 8 8 1 9 9 3 1 9 9 8 2 0 0 3 2 0 0 8 2 0 1 3 男女「男」と回答した人の割合の変化実施年

(23)

データを特徴づける

分布の性質をどのように説明するか定量的に分布の特徴を記述したい。これによりデータの背後にある現象の解釈につながる。異なるデータとの比較を定量的に行うことができる。 0 1 2 3 4 5 6 分布の中心的な位置は？分布の広さはどれくらい？ピークはどれくらい急なのか？分布の裾はどんな形なのか？ …

(24)

１日目の内容

(25)

(補足) を使った計算

1.

2.

(26)

(補足) を使った計算

4.

5.

= − 1 + − 1 + − 1 + − 1 + ( − 1)

(27)

記述統計量

データの分布を特徴づける指標を記述統計量と呼ぶ。「統計量」とは統計学で用いる指標を指す。ここでは以下の記述統計量について説明する。代表値：分布を代表する値散布度：分布の広がり、ばらつきを表す指標

(28)

代表値の例

最頻値(mode)：最も頻繁に出現する値外れ値に強い。一つに決まらない場合がある。中央値(median) ：真ん中の値外れ値に強い。全てのデータを考慮できない。平均値(mean) ：個々の値の和÷対象の数（個体数）全てのデータを考慮できる。外れ値に弱い。 = 1 個々の値対象の数

(29)

平均の計算

= 1 1 2 3 4 5 1 2 3 = _{10 1 + 3 × 2 + 3 × 3 + 4 + 2 × 5} = 3}1 人数ゴールデンウィークの休暇日数

(30)

代表値の例

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -8 -6 -4 -2 0 2 4 6 8 = 0 = 0 = 0 最頻値中央値平均値左右対称な分布では、最頻値＝中央値＝平均値となる。

(31)

代表値の例

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0 5 10 15 20 = 5.5 = 5 = 5 最頻値中央値平均値非対称な分布では、3つの値は一致しない。

(32)

代表値の例

多峰性の分布の場合分布の「中心的な値」を表す指標として解釈できない 0 0.05 0.1 0.15 0.2 0.25 -5 0 5 10 15 = 2.5 = 0 = 1.5 最頻値中央値平均値

(33)

代表値だけでは分布を区別できない

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -15 -10 -5 0 5 10 15 = 0, = 0, = 0 どちらの分布も 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -15 -10 -5 0 5 10 15

(34)

代表値だけでは分布を区別できない

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -15 -10 -5 0 5 10 15 データのばらつきを表す指標が必要 → 散布度どちらの分布も = 0, = 0, = 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -15 -10 -5 0 5 10 15

(35)

分布のばらつきを特徴づける

平均値と個々の値が、平均的にどの程度離れているかを表す指標分散標準偏差 ! = 1 − ! = 1 − 例えばの単位がkgのとき、分散の単位はkg2となる。標準偏差の単位はの単位と同じ。

(36)

分散による分布の区別

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -15 -10 -5 0 5 10 15 どちらの分布も = 0, = 0, = 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -15 -10 -5 0 5 10 15 ! = 1 ! = 9

(37)

分散の計算

! = 1 − 1 2 3 4 5 1 2 3 = 3 = _{10 # 1 − 3 + 3 × 2 − 3 + 3 × 3 − 3 + 4 − 3 + 2 × 5 − 3 }}1 = 1.6 人数ゴールデンウィークの休暇日数

(38)

歪度

分布の左右非対称性を表す % = 1 ∑ _! − 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 -4 -3 -2 -1 0 1 2 3 4 どちらの分布も = 1.13, ! = 0.36 % = 1.66 % = 0

(39)

尖度

分布のとがり具合を表す ' = 1 ∑ _! − 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 -6 -4 -2 0 2 4 6 0 0.05 0.1 0.15 0.2 0.25 0.3 -6 -4 -2 0 2 4 6 どちらの分布も = 0, ! = 1.56, % = 0 ' = 3.82 ' = 3

(40)

その他の散布度指標

分位点データを昇順に並べ、下側のp%のところにある値を「p%分位点」と呼ぶ。第1四分位点：25%分位点，下側四分位点第2四分位点：50%分位点，中央値第3四分位点：75%分位点，上側四分位点範囲：データの最大値ー最小値四分位範囲：上側四分位点ー下側四分位点 ※ 中央部で50%のデータが入る範囲

(41)

箱ひげ図による表現

1.5×四分位範囲中央値第3四分位第1四分位 1.5×四分位範囲ひげの外にあるデータは点で表す。 ※ ひげの中に全てのデータが収まる場合、ひげは最大値、最小値までしか延ばさない。四分位範囲

(42)

１日目の内容

(43)

標準化・基準化

異なる分布に従うデータを比較するための手続き例題 Aさんのテストの点数数学：75点英語：65点 Aさんは，数学と英語のどちらの方が得意でしょうか？点数で比較すると、数学の方が得意？

(44)

判断の手がかり

学年の平均点と比較してみる「Aさんの数学の得点ー数学の平均点」と「Aさんの英語の得点ー英語の平均点」を比較する。しかし，数学における平均点との差と英語における平均点との差が同じ価値とは限らない。 Aさんよりも高い点数を取った人が少ないほど，その得点は貴重だと考える平均値だけでなく，点数の散らばりも考慮する必要がある。数学における１点と，英語における１点は同じ価値？

(45)

数学・英語の点の分布

0 1 2 3 4 5 6 7 8 0 20 40 60 80 100 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0 20 40 60 80 100 英語数学点数割合(%) 割合(%) 平均： = 65 標準偏差：! = 8 平均： = 50 標準偏差：! = 5 点数 Aさんより高い点数の人は9.5% Aさんより高い点数の人は1% Aさん(75点) _{Aさん(65点)}

(46)

標準化・基準化

) を標準得点(z得点)・標準化変量・基準化変量と呼ぶ。標準得点の平均は0, 標準偏差は1になる。標準化により、変数値の相対的「位置」を把握できる。難易度の異なる数学と英語のテストにおいて、数学でX点を取ったことと、英語でY点取ったことを「全体の中での位置」という観点で比較できる。を標準化して) とする：

(47)

標準化した数学・英語の点の分布

英語数学標準得点割合(%) 割合(%) 0 0.5 1 1.5 2 2.5 3 3.5 4 -10 -5 0 5 10 − 65 8 標準化得点： − 50 5 標準化得点： 0 0.5 1 1.5 2 2.5 3 3.5 4 -10 -5 0 5 10 標準得点どちらも平均0、標準偏差1の分布になる。

(48)

Aさんの得点の場合

英語の方が得意と言える。 0 0.5 1 1.5 2 2.5 3 3.5 4 -10 -5 0 5 10 75 − 65 8 = 1.25 数学の標準得点： 65 − 50 5 = 3 英語の標準得点：数学英語標準得点割合(%)

(49)

注意

ここまでの議論は、データが正規分布に従うことを仮定している。平均、分散のみで形を指定できる、左右対称な分布 (午後の講義で詳しく扱います。) データが厳密に正規分布に従わなくても、正規分布に近い、左右対称な分布をしている場合は標準化によるデータの比較は有効である。また標準化はデータの大きさを揃える効果があるため、回帰分析において重要。

(50)

標準化の実用例

偏差値点数を標準化したものを)得点と呼ぶ: ◦ )得点の平均は0、標準偏差は１．偏差値＝10 × ) + 50 ◦ 偏差値の平均は50、標準偏差は10。 ) = _!− 0 0.5 1 1.5 2 2.5 3 3.5 4 0 20 40 60 80 100 正規分布を仮定した場合の偏差値の分布偏差値割合(%)

(51)

変動係数

「 1人当たり県民所得」の推移 (内閣府県民経済計算より) 最も格差が大きい年は？標準偏差が最も大きいのは2013年。そもそも平均値が大きく異なる(貨幣価値が異なる)が、標準偏差を単純に比較してよいのか？年 平均値(万円) 標準偏差(万円) 1955 7.4 1.4 1975 101.6 14 2013 282.7 39.3

(52)

変動係数

平均値の大きさを考慮したうえで、ばらつきを評価する相対的な地域格差は1955年が最も大きい。年 平均値(万円) 標準偏差(万円) 変動係数 1955 7.4 1.4 0.189 1975 101.6 14 0.138 2013 282.7 39.3 0.139 変動係数 = 標準偏差平均値

(53)

１日目の内容

(54)

２変数間の関係

統計データの解析では、複数の変数間の関係性に関心があることが多い。 (例) BMIが大きい人ほど血圧が高いか？雨が降るほど渋滞が発生しやすいか？ネットでの人気と視聴率の関係は？ここでは2変数の関係性を表すための記述統計学の方法をまとめる。

(55)

ここで扱うデータ

平成26年死傷事故件数 (国道交通省より) 都道府県自動車専用道路一般国道一般都道府県道等市町村道その他北海道 8.3 56.1 48.6 120.7 宮城県 7.9 109.7 83.9 191.2 新潟県 5.0 77.9 65.8 124.4 東京都 8.4 29.3 105.3 134.7 愛知県 11.9 111.1 183.6 312.2 大阪府 12.3 101.5 147.6 222.1 広島県 12.1 123.3 94.3 210.8 福岡県 11.4 200.7 192.7 379.0 沖縄県 3.8 132.9 134.2 168.3 (人口10万人当たり)

(56)

散布図

0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 0.0 5.0 10.0 15.0 20.0 25.0 一般国道での事故数佐賀県兵庫県自動車専用道路での事故数

(57)

散布図

0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0 0.0 100.0 200.0 300.0 400.0 市町村道その他での事故数一般都道府県道等での事故数香川県静岡県

(58)

散布図

0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0 0.0 100.0 200.0 300.0 400.0 500.0 一般国道での事故数市町村道その他での事故数佐賀県静岡県

(59)

散布図から読み取れること

+ , + , + , Xが大きいほどYも大きい Yが大きいほどXも大きい Xが大きいほどYは小さい Yが大きいほどXは小さい XとYの大きさに関連はない XとYの間には正の相関がある XとYは無相関である XとYの間には負の相関がある

(60)

共分散

２変数の関係を表す統計量 +と,の間に正の相関があるとき、正の値をとる。相関関係が強いほど、共分散は大きくなる。負の相関があるとき、負の値をとる。相関関係が強いほど、共分散の絶対値は大きくなる。無相関のとき、0に近い値をとる。 !_-. = 1 − / − /

(61)

共分散

1 / /

(1)

(2)

(4)

(3)

共分散が正のとき (1), (3)にデータが多い共分散が負のとき (2), (4)にデータが多い共分散が0に近いとき全ての領域にデータがまんべんなく存在

(62)

共分散

平成26年死傷事故件数の共分散自動車専用道路一般国道一般都道府県道等市町村道その他自動車専用道路 95.12 83.00 168.45 一般国道 2520.11 3933.28 一般都道府県道等 4405.79 市町村道その他 (人口10万人当たり) X Y

(63)

共分散

平成26年死傷事故件数の共分散自動車専用道路一般国道一般都道府県道等市町村道その他自動車専用道路 9512 8300 16845 一般国道 252011 393328 一般都道府県道等 440579 市町村道その他 (人口100万人当たり) データのスケールが10倍になると共分散は100倍になる。 X Y

(64)

相関係数

共分散を標準偏差の積で割ったものを相関係数と呼ぶ !_-：の標準偏差, !_.: /の標準偏差データのスケールを表す標準偏差で割ることで、相関係数は−1から1の間に収まる。正の相関があるとき、0_-.は正の値をとる。無相関のとき、0_-.は₀に近い。負の相関があるとき、0_-.は負の値をとる。 -. - . -. - .

(65)

相関係数と散布図

-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0 _-4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0.2 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0.6 0 = 0.4 -4 -3 -2 -1 0 1 2 3 4 0 = 0.8 -4 -3 -2 -1 0 1 2 3 4 0 = 1.0

(66)

相関係数と散布図

-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0 _-4-3 0 = −0.4 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −0.2 _-4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −0.6 _-4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −0.8 _-4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −1.0

(67)

平成26年死傷事故件数の相関係数

自動車専用道路一般国道一般都道府県道等市町村道その他自動車専用道路 1.0 0.34 0.30 0.41 一般国道 1.0 0.67 0.70 一般都道府県道等 1.0 0.79 市町村道その他 1.0 X Y 0 0.3 0.5 0.7 1 非常に強い相関強い相関中程度の相関弱い相関一般に

(68)

相関係数の解釈の注意

(1) 外れ値があるとき外れ値は相関係数の値を大きく変えてしまう (2) 曲線関係があるとき変数変換を行う必要がある (3) 異質な集団が含まれる場合集団ごとに相関係数を求める必要がある相関係数だけで判断せず、散布図を描くことが大事。

(69)

(1) 外れ値が相関係数に与える影響

-4 -2 0 2 4 6 8 10 -4 -2 0 2 4 6 8 10 0_-. = 0.4606 0_-. = −0.0222 / データ点A データ点Aを含めた場合の相関係数データ点Aを含めない場合の相関係数大きく外れたデータは相関係数の値を変えてしまう。データ点Aを「外れ値」として除外してよいのか？

(70)

外れ値の見つけ方

箱ひげ図を用いる + , データ点A データが正規分布に従うと仮定すると、ひげの外に値をとる確率は0.7%しかない。箱ひげ図を描いてひげの外にあるデータは外れ値である可能性が高い。ただし、データが正規分布に従うとは限らないので、実際に除外するかどうかはよく検討する必要がある。

(71)

外れ値が発生する理由

確認すべきこと他データとの測定環境の違い被観測個体の特殊性データの入力ミスよほど小規模なデータでない限り、ヒューマンエラーは避けられないこれらの原因による外れ値であると確信できる場合は、データから外れ値を除いてもよい。

(72)

(2) U字型相関

0 = 0.04 0 = 0.05 U字型相関を示す散布図逆U字型相関を示す散布図無相関と考えるのは誤り -8 -6 -4 -2 0 2 4 -3 -2 -1 0 1 2 3 -4 -2 0 2 4 6 8 10 -3 -2 -1 0 1 2 3 / /

(73)

変数変換

U字型相関を示す散布図逆U字型相関を示す散布図と/の相関は強い。 / / -4 -2 0 2 4 6 8 10 0 1 2 3 4 5 6 7 -8 -6 -4 -2 0 2 4 0 1 2 3 4 5 6 7 8 0 = 0.78 0 = −0.80

(74)

全体の相関係数 0 = 0.47 層別相関係数 □の集団： 0 = 0.89 ○の集団： 0 = 0.67

(3) 異質な集団が含まれる場合

-6 -4 -2 0 2 4 6 8 10 -3 -2 -1 0 1 2 3 散布図を描き、データの構造を把握することが重要。

(75)

相関関係と因果関係

相関関係があるとき因果関係もあるとは限らない。 (例) 「T市の人口」と「T市の税収」に正の相関がある場合、次の5通りの可能性が考えられる。「人口が増えたので税収が増えた。」「税収が増えたので人口が増えた。」「人口が増えたので税収が増えたし、税収が増えたので人口が増えた。」「T市に大規模工場が出来たので、人口が増えたし税収も増えた。」「偶然、人口増と税収増が同時に起きた。」因果関係がある擬似相関がある無関係

(76)

擬似相関

変数1が変数+と変数,の間の相関をもたらすとき、その相関を擬似相関と呼ぶ。例：都市の大気汚染の程度+と都市人口に占める若者の割合,の間には擬似相関がある。変数1は都市の人口である。豊田秀樹，『原因を探る統計学』より変数1 (原因) 変数, (結果2) 変数+ (結果1) 擬似相関

(77)

相関係数と偏相関係数

相関係数0_-.：変数+と変数,の間の関連性の指標偏相関係数0_-.⋅3：変数1の影響を変数+と変数,から排除した上での変数+と変数,の間の関連性の指標 -.⋅3 -. -3 .3 -3 .3 -. - . -. - .

(78)

偏相関係数の例

0_-. = −0.71 → ノロウイルスが減ると台風が増える？？ +: ノロウイルス食中毒発生件数 (平成23年～27年平均、厚生労働省) ,: 台風の発生個数 (平成23年～27年、気象庁) 0 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10 11 12 0 10 20 30 40 50 60 70 80 90 1 2 3 4 5 6 7 8 9 10 11 12月月

(79)

偏相関係数の例

0 5 10 15 20 25 30 1 2 3 4 5 6 7 8 9 10 11 12 月 1: 平均気温 0_-.⋅3 = 0.25 ノロウイルス食中毒の減少と台風の増加は気温という原因により引き起こされていると考えられる。 (1990年～2013年の平均、気象庁)

(80)

偏相関係数の例

気温

ノロウイルス

台風

0_-3 = −0.92 0_.3 = 0.83 0_-.⋅3 = 0.25 (0_-. = −0.71)

(81)

偏相関係数の例

ちなみに

1カ月前の

気温

ノロウイルス

台風

0_-3 = −0.80 0_.3 = 0.90 0_-.⋅3 = 0.05 (0_-. = −0.71)

(82)

クロス表

2つの変数のデータを、表に集計してまとめたもの居住年数思うどちらかといえば思うどちらかといえば思わない思わない無回答合計生誕からずっと _{111 (71.6%)} _{38 (24.5%)} _{4 (2.6%)} _{2 (1.3%)} _{0 (0.0%)} ₁₅₅ 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14～20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10～13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6～9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3～5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成27年度立川市市民満足度調査より「立川市に住み続けたいと思いますか？」

(83)

クロス表

2つの変数のデータを、表に集計してまとめたもの居住年数思うどちらかといえば思うどちらかといえば思わない思わない無回答合計生誕からずっと _{111 (71.6%)} _{38 (24.5%)} _{4 (2.6%)} _{2 (1.3%)} _{0 (0.0%)} ₁₅₅ 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14～20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10～13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6～9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3～5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成27年度立川市市民満足度調査より「立川市に住み続けたいと思いますか？」関連性の指標①：割合の差 (絶対的指標) (例) 生まれてからずっと立川市に住んでいる人のうち、住み続けたいと思う人は、思わない人より 70.3ポイント多い。

(84)

クロス表

2つの変数のデータを、表に集計してまとめたもの居住年数思うどちらかといえば思うどちらかといえば思わない思わない無回答合計生誕からずっと _{111 (71.6%)} _{38 (24.5%)} _{4 (2.6%)} _{2 (1.3%)} _{0 (0.0%)} ₁₅₅ 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14～20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10～13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6～9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3～5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成27年度立川市市民満足度調査より「立川市に住み続けたいと思いますか？」関連性の指標②：割合の比 (相対的指標) (例) 生まれてからずっと立川市に住んでいる人のうち、住み続けたいと思う人の割合は、思わない人の割合より 55倍大きい。

(85)

クロス表の落とし穴

1980-90年代：乳がん外科手術後のタモキシフェンの使用とがん再発の関係について [佐藤 (2008)] 再発割合の差：0.2ポイントタモキシフェン再発あり再発なし合計使用 464 (18.2%) 2085 (81.8%) 2549 未使用 424 (18.0%) 1928 (82.0%) 2352 合計 888 4013 4901 タモキシフェンにはがん再発の予防効果がほとんどない？

(86)

クロス表の落とし穴

リンパ節転移の有無で層に分けてみるリンパ節転移ありリンパ節転移なしタモキシフェン再発あり再発なし合計再発あり再発なし合計使用 368 (30.3%) 847 (69.7%) 1215 96 (7.2%) 1238 (92.8%) 1334 未使用 253 (33.3%) 507 (66.7%) 760 171 (10.7%) 1421 (89.3%) 1592 合計 621 1354 1975 267 2659 2926 再発割合の差： 3ポイント再発割合の差： 3.5ポイントタモキシフェンにはがん再発の予防効果がある！

(87)

クロス表の落とし穴

各集団の人数がバラバラのため、結果が覆ってしまったリンパ節転移ありリンパ節転移なしタモキシフェン再発あり再発なし合計再発あり再発なし合計使用 368 (30.3%) 847 (69.7%) 1215 96 (7.2%) 1238 (92.8%) 1334 未使用 253 (33.3%) 507 (66.7%) 760 171 (10.7%) 1421 (89.3%) 1592 リンパ節転移があるときタモキシフェンを使わないことは少ないリンパ節転移がないときタモキシフェンを使わないことが多い「未使用」の全データは、リンパ節転移なしの集団の影響が強い。よって全データを使用した場合、「未使用」で再発しなかった割合が高く見積もられる。

(88)

クロス表の落とし穴

各集団の人数がバラバラのため、結果が覆ってしまった仮に、各集団が1000人ずつだとするとリンパ節転移ありリンパ節転移なしタモキシフェン再発あり再発なし合計再発あり再発なし合計使用 303 697 1000 72 928 1000 未使用 333 667 1000 107 893 1000 タモキシフェン再発あり再発なし合計使用 375 (18.8%) 1625 (81.3%) 2000 未使用 440 (22.0%) 1560 (78.0%) 2000 全体のクロス表でも、3.2ポイントの再発割合の差がでる

(89)

シンプソンのパラドックス

データのまとめ方によって結果が覆ってしまう現象をシンプソンのパラドックスという。どのクロス表での結果を採用するかを決める方法論はない。タモキシフェンの例の場合、リンパ節転移の有無は再発に大きくかかわるため、層別した場合の結果が正しいと考えられる。各データの背景にある知見と照らし合わせてデータを解釈することが大事。

(90)

午前中のまとめ

記述統計学によるデータ要約の方法を解説した。データ要約は、データに対する人間の理解を助ける。しかし要約により、データの一部の情報が失われることは避けられない。ヒストグラムや散布図により、データを「見る」ことが大事。その上で、データが持つ重要な情報を落とさないよう、適切な要約方法を用いる。対象についての知見を学び、先入観や願望を捨てることが重要。

(91)

１日目の内容

(92)

【午前の話】記述統計学

記述統計学とはデータのもっている主要な特性をより鮮明に表現するために，データを要約したり作表をしたりすること一般を指す（統計科学事典，清水良一訳）つまり特定の標本データの性質を調べるための統計学棒グラフ，ヒストグラム，散布図などを描く平均，中央値，最頻値，分散，標準偏差などを求める共分散，相関係数などを求める

(93)

母集団と標本

何らかの特徴を得る対象となる全集団を母集団と呼ぶ。 (例) 日本人の成人男性の平均身長は？ → 母集団は日本人の成人男性全員 21時の○○TVニュースを視聴していた世帯の割合は？ → 母集団は全世帯の数しかし、母集団の情報を完全に把握することは困難。母集団の数が非常に大きい場合観測が困難な場合

(94)

母集団と標本

母集団の全体調査が不可能な場合、次のように母集団の性質を推定する。 1. 母集団から一部を無作為に選ぶ。これを標本と呼ぶ。 2. 標本について統計的分析を行い、母集団の性質を推定する。ここで用いる方法論を推測統計学と呼ぶ。

(95)

母集団と標本

標本母集団ランダムサンプリング推測統計学標本データの性質記述統計母集団の統計的性質を標本から推定する

(96)

記述統計学から推測統計学へ

推測統計学において用いる確率・統計の基礎についてまとめる。確率変数確率関数と確率密度関数確率変数の期待値・分散・共分散・相関係数

(97)

確率と確率変数

確率は不確実な事象の起こりやすさを表す。確率は0から1の間の実数で表され、各事象が起こる確率をすべて足し合わせると1となる。確率変数とは、ある確率法則に従って値が決まる変数のこと確率変数を「+」と表す。実際に決まった値(実現値)をとする。確率変数がとりうる値の集合(標本空間)を「Ω」と表記する。標本空間Ωに含まれる値5が実現する確率をPr (5)と表記する。

(98)

確率と確率変数の例①

+の値を確率的に決める Pr + = 当たり = 8 Pr + = はずれ = 1 − 8 + + + Ω = 当たり, はずれはずれ当たり確率変数の値の実現はずれ

(99)

確率と確率変数の例②

※ ここでは歪みのないコイン、サイコロを考えます。コイン投げサイコロ投げ確率変数+ コインの向きサイコロの目標本空間Ω Ω = 表, 裏 Ω = 1,2,3,4,5,6 確率変数の値を決める方法コインを投げる行為サイコロを投げる行為確率変数の値が従う確率法則 Pr + = 表 = 1 2 Pr + = 裏 = 1₂ Pr + = 1 = Pr + = 2 = Pr + = 3 = Pr + = 4 = Pr + = 5 = Pr + = 6 = 1₆

(100)

確率変数の種類

離散型確率変数とびとびの値をとるコイン投げや、さいころ投げなどの整数値データコイン投げの場合など、表を１、裏を０として数値化する。確率変数がある値をとる確率は、確率関数により与えられる。連続型確率変数とりうる値が連続的なもの身長・体重などの実数値データ確率変数がある範囲の値をとる確率は、確率密度関数により与えられる。

(101)

確率変数の種類

離散型確率変数とびとびの値をとるコイン投げや、さいころ投げなどの整数値データコイン投げの場合など、表を１、裏を０として数値化する。確率変数がある値をとる確率は、確率関数により与えられる。連続型確率変数とりうる値が連続的なもの身長・体重などの実数値データ確率変数がある範囲の値をとる確率は、確率密度関数により与えられる。

(102)

確率関数

離散型確率変数の確率分布を表す関数 Ω = , , … , _: のとき Pr + = = 8 , … , Pr + = _: = 8_: ∑ 8: = 1 とする。 ; = 8 , ; = 8 , …となる関数;( )を確率関数と呼ぶ。 0 0.1 0.2 0.3 0.4 0.5 0.6 0 0.2 0.4 0.6 0.8 1 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 1 2 3 4 5 6 コイン投げの確率関数サイコロ投げの確率関数 ;( ) ;( )

(103)

確率関数

その他の例 2つのサイコロを同時に投げて、出た目の和の確率関数 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 1 2 3 4 5 6 7 8 9 10 11 12 13 ;( )

(104)

平均と分散

平均 (期待値とも呼ぶ) 分散 : : < : : : < : ※ 8_:: 確率変数が'番目の値をとる確率

(105)

平均と分散の例

コイン投げの場合サイコロ投げの場合 > + = 1 × 1_{2 + 0 ×} 1_{2 = 0.5} ? + = 1 − 1_{2 ×} 1_{2 + 0 −} 1_{2 ×} 1_{2 = 0.25} > + = 1 × 1_{6 + 2 ×} 1_{6 + 3 ×} 1_{6 + 4 ×} 1_{6 + 5 ×} 1_{6 + 6 ×} 1_{6 = 3.5} ? + = 1 − 3.5 × 1_{6 + 2 − 3.5 ×} 1_{6 + 3 − 3.5 ×} 1₆ + 4 − 3.5 × 1_{6 + 5 − 3.5 ×} 1_{6 + 6 − 3.5 ×} 1_{6 = 2.92}

(106)

離散型一様分布

Ω = , … , _:}のとき、; =, … , = ; _: = 1/'となる確率関数;( )を離散型一様分布と呼ぶ。確率変数+の取り得る値の下限をA、上限をBとすると 0 0.1 0.2 0.3 0.4 0.5 0.6 0 0.2 0.4 0.6 0.8 1 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 1 2 3 4 5 6 コイン投げの確率関数サイコロ投げの確率関数 ;( ) ;( ) > + = A + B_{2 ,} ? + = B − A + 1 − 1₁₂

(107)

ベルヌーイ分布

事象A, Bがそれぞれ確率8, 1 − 8で起こる離散確率分布 A=「裏」, B=「表」、 A=「成功」, B=「失敗」などコイン投げは8 = 0.5に対応する。このような事象を起こさせることをベルヌーイ試行と呼ぶ。 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 8 = 0.2で0(失敗)、 8 = 0.8で1(成功)となる場合のベルヌーイ分布

(108)

ベルヌーイ試行を繰り返す

事象A,Bがそれぞれ確率8, 1 − 8で起こるベルヌーイ試行をC回繰り返すとき、「事象Aが起こる回数」は確率変数である。もちろん「事象Bが起こる回数」も確率変数である。コイン投げの場合、確率変数+ = 「表が出る回数」とするとΩ = 0, 1, 2, … , C} ただし、C回の試行の独立性を仮定する。 C回の試行は互いに影響されることなく、各試行で事象A, Bが起こる確率は常に8と1 − 8である。例えばバスケットボールのフリースローでは独立性が成り立たない。

(109)

2項分布

事象A,Bがそれぞれ確率8, 1 − 8で起こるベルヌーイ試行をC回繰り返すとき、確率変数「事象Aが起こる回数」は2項分布に従う。期待値：C8 分散：C8(1 − 8) C - - <D-C回の試行のうち回で事象Aが起こる場合の数事象Aが回、事象BがC − 回起こる確率

(110)

2項分布

C = 30回のベルヌーイ試行を行う場合 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0 5 10 15 20 25 30 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0 5 10 15 20 25 30 30 - - ED-8 = 0.3 8 = 0.5 ; ;

(111)

ポアソン分布

事象A,Bがそれぞれ確率8, 1 − 8で起こるベルヌーイ試行をC回繰り返すとき、確率変数「事象Aが起こる回数」は2項分布に従う。特に次の条件が成立するときを考える。 Cが非常に大きい 8とCの間に8 = F/Cという関係があり、 Cが非常に大きいとき8は非常に小さい。 (1回の試行で事象Aが起こることは稀である) このとき2項分布はポアソン分布となる。

(112)

ポアソン分布

期待値、分散ともFである。 - DG 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0 5 10 15 20 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 5 10 15 20 25 30 F = 5 F = 10 ;( ) ;( )

(113)

の意味

二項分布の性質から、事象Aの起こる回数の期待値はC8。 8がCと無関係な定数(< 1)の場合、事象Aの起こる回数は試行回数Cに比例して増える。 8 = F/Cの場合、C8 = Fなので Cが大きくなっても事象AはF回程度しか起きない。ポアソン分布は、「1回の試行で起きることは稀だが、試行回数Cが大きければF回くらいは起きる事象A」が、実際にC回の試行で+回起きる確率を表す。

(114)

ポアソン分布の実例

プロイセン陸軍で馬に蹴られて死亡した兵士数 [Bortkiewicz 1898] 1875年～1894年の20年間で馬に蹴られて死亡した兵士数の分布を 200部隊に対して調べた死亡兵士数 0 1 2 3 4 5 観測数 109 65 22 3 1 0 割合 0.545 0.325 0.110 0.015 0.005 0

(115)

ポアソン分布の実例

プロイセン陸軍で馬に蹴られて死亡した兵士数 [Bortkiewicz 1898] 0 0.1 0.2 0.3 0.4 0.5 0.6 0 1 2 3 4 5 死亡兵士数確率 F = 0.61のポアソン分布実際のデータ F = 0.61のポアソン分布で近似できる。

(116)

ポアソン分布の実例

その他にも「一定の時間に起こるイベント数の分布」のモデルとして用いられる。交通事故の件数製造ラインにおける不良品の数 1時間あたりにかかってくる電話の数 1日あたりのタクシーの乗客数ある地域における1ヶ月あたりの胃がんによる死亡者数ある期間に起こるM7以上の地震の数など

(117)

確率変数の種類

離散型確率変数とびとびの値をとるコイン投げや、さいころ投げなどの整数値データコイン投げの場合など、表を１、裏を０として数値化する。確率変数がある値をとる確率は、確率関数により与えられる。連続型確率変数とりうる値が連続的なもの身長・体重・時間などの実数値データ確率変数がある範囲の値をとる確率は、確率密度関数により与えられる。

(118)

確率密度関数

(例) 1000人の社員が会社にやってくる時間を1万日調べた。 ※ 「1000人」「1万日」は、「以下の議論に十分な数」という程度の意味です。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 -140 -120 -100 -80 -60 -40 -20 0 20 40 出社時刻ー始業時刻(分) 社員の出社時刻のヒストグラム (15分刻み) 割合

(119)

確率密度関数

階級の刻み幅を小さくしていく 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -140 -120 -100 -80 -60 -40 -20 0 20 40 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -140 -120 -100 -80 -60 -40 -20 0 20 40 3分刻み 0.03分刻み出社時刻ー始業時刻(分) _{出社時刻ー始業時刻(分)} 刻み幅を小さくすると、ヒストグラムは「データの相対頻度を表す関数」へ収束。

(120)

確率密度関数

連続型確率変数において、ヒストグラムの刻みを無限に小さくする極限により定義される関数を確率密度関数という「確率」そのものではないが、それに似た性質を持つ連続型確率変数において、ある値を持つ確率は定義できない。ある範囲をとる確率は定義できる。例えば、確率変数がA以上B以下の値をとる確率は確率変数がとり得る値の範囲全体で積分すると１になる。 Pr A ≤ + ≤ B = J K 8L M

(121)

平均と分散

平均分散 -_NOP -_NQR -_NOP -_NQR ST：+のとりうる最小値 UV：+のとりうる最大値

(122)

連続型一様分布

8 = W_{B − A A ≤ ≤ B}1 のとき 0 それ以外のとき 0 0.02 0.04 0.06 0.08 0.1 -5 0 5 10 15 A = 0, B = 10の一様分布 8 平均値分散

(123)

正規分布

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 20 40 60 80 100 8 X = 30, Y = 5 X = 40, Y = 3 X = 50, Y = 10 平均値分散

(124)

標準正規分布

平均0，分散1の正規分布を標準正規分布と呼ぶ。正規分布に従う確率変数+を標準化すると，それは標準正規分布に従う。 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -6 -4 -2 0 2 4 6 8 平均値: > + = 0 分散: ? + = 1

(125)

正規分布の性質

平均(X) ±標準偏差 Y の範囲に約68%が収まる 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -6 -4 -2 0 2 4 6 X X + Y X − Y 8

(126)

正規分布の性質

平均(X) ± 2 ×標準偏差 Y の範囲に約95%が収まる X X + 2Y X − 2Y 8 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -6 -4 -2 0 2 4 6

(127)

シグマ区間

区間 確率(%) 1Y 68.2689492137086 2Y 95.4499736103641 3Y 99.7300203936740 4Y 99.9936657516326 5Y 99.9999426696856 6Y 99.9999998026825 7Y 99.9999999997440 8Y 99.9999999999999 9Y 100.000000000000

(128)

同時確率分布と周辺確率分布

複数の確率変数に関する確率分布 +, ,という2種類の確率変数の組の同時確率分布を8( , /)と表記する。周辺確率分布 +と,が互いに独立な場合には、同時確率分布は8( , /) = 8_- 8_.(/)となる。特に+, ,が相関している場合を考える 8_- = J.NOPK/ 8 , / ._NQR 8. / = J K 8 , / -_NOP -_NQR

(129)

共分散と相関

共分散

相関係数

(130)

「独立」と「無相関」

1. 8 +, , = 8_- + × 8_. , のとき、+と,は独立である。このとき> +, = > + × >[,] 2. COV +, , = 0であるとき、+と,は無相関である。独立であれば無相関。 > +, − > + > , = 0なのでCOV +, , = 0 無相関のとき独立であるとは限らない。 > +, , = 0かつ> + , > , の少なくともどちらか1つが0の場合、 +と,は独立でなくても無相関となりうる。

(131)

無相関だが独立でない例

8(1,0) = 8(2,1) = 8(2, −1) = 1/3 それ以外の8(+, ,)は0の場合周辺分布 8_-(1) = 1/3, 8_-(2) = 2/3 よって>[+] = 5/3 8_.(0) = 8_.(1) = 8_.(−1) = 1/3 よって>[,] = 0 COV +, , = × (0 + 2 − 2) − × 0 = 0なので無相関。しかし8 +, , ≠ 8_- + 8_.(,)なので独立ではない。 / 0 1 2 1 −1

(132)

2変量正規分布

, /の二変量正規分布周辺化分布はガウス分布となる 8 , / = 1 2cY_-Y_. 1 − d × exp −_{2 1 − d}1 ( − X_Y -) - − 2d( − X_-)(/ − X_.) Y_-Y_. + (/ − X_.) Y_. 8_- = J K/ 8 , /h Dh = 1 2cY_- exp − − X -2Y -8_. / = J K/ 8 , /h Dh = 1 2cY_. exp − − X_. 2Y_. ※ d：相関係数

(133)

2変量正規分布の立体図

-4 _-3 -2 _-1 0 ₁ 2 ₃ 4 -4 -3-2 -1 0 1 2 3 4 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 / 8( , /) X_- = 0, Y_- = 1, X_. = 0, Y_. = 1, d = 0.4

(134)

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16

2変量正規分布の等高線

-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 0 0.05 0.1 0.15 0.2 0.25 0.3 / / / d = 0 d = 0.4 d = 0.8

(135)

１日目の内容

(136)

母集団と標本

標本母集団ランダムサンプリング推測統計学標本データの性質記述統計母集団の統計的性質を標本から推定する

(137)

推測統計学の基礎

当選確率は8です。母集団C人(くじ引きに参加した人) + 当たりはずれ 8 1 − 8 当たった人の人数iは、二項分布に従う。 C j j <Dj 平均C8, 分散C8(1 − 8) 本当？

(138)

推測統計学の基礎

母集団の全数調査が困難である場合に、標本を用いて母集団の統計的性質を推測する。母集団C人当たった人の人数iは、二項分布に従う。 C j j <Dj 平均C8, 分散C8(1 − 8) 真実(直接観測できない) 標本ランダムサンプリング推測統計学観測事実

(139)

母数と標本統計量

母数母集団の平均・分散・相関係数など（本当に知りたい情報）標本統計量標本データの平均・分散・相関係数などを得る計算式のこと特定の標本データを当てはめたものを標本統計量の実現値という + + , … , + = 1 + = + , … , = 1 (例) 標本平均の場合標本統計量：標本統計量の実現値：

(140)

母数と標本統計量

次の表記を用いる。母集団 (母数) 標本 (標本統計量の 実現値) 平均 X 標準偏差 Y ! 相関係数 d 0

(141)

推測統計学の基礎

標本 ( 人) 母集団 (C人) Ck 通りの選び方がある 1 0 0

…

0 1 0 0 0 1 0 0 0 0 1 0 1 1 0 + = 0.333 + = 0.167 + = 0.5 標本平均は確率変数である当たりを+ = 1, はずれを+ = 0とする。標本平均を _{+ =} 1 ₊ とする。

(142)

記述統計量と標本統計量の違い

記述統計量得られたデータそのものの分布の特徴を要約するための統計量個々のデータが確率的にばらつくものだとは考えていない標本統計量得られたデータは、母集団から得られたサンプルである。個々のデータは確率的にばらつくものだと仮定しており、統計量もそれに従ってばらつく母集団についての推測を行うための統計量

(143)

標本平均の分布

8 = 0.2の場合標本サイズが大きくなるにつれて、真の8に収束していく。 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0 0.2 0.4 0.6 0.8 1 0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0 0.2 0.4 0.6 0.8 1 0 0.02 0.04 0.06 0.08 0.1 0.12 0 0.2 0.4 0.6 0.8 1 + + + = 10 = 100 = 1000

(144)

標本平均の分散の標本サイズ依存性

8 = 0.2の場合標本平均の分散は1/ に比例して小さくなる。 0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 ? + 1/ 傾き 8(1 − 8)

(145)

大数の法則

標本平均に関する性質確率変数+ , + , … , + が独立に同一の分布に従うとする >[+] = Xとする大数の法則を大きくしていくと、標本平均は確率1でXに収束する → 標本のサイズを大きくしていくと、標本平均は母集団における平均値に必ず一致する。

(146)

中心極限定理

標本統計量の分布そのものの特徴に関する重要な定理確率変数+ , + , … , + が独立に同一の分布に従うとする >[+] = X, ?[+] = Y とする。中心極限定理を大きくすると、 ∑ + は平均X, 分散Y / の正規分布に従う。 → 標本平均が従う確率分布は、標本サイズが大きいとき正規分布で近似でき、その平均は母集団の平均と一致

(147)

中心極限定理

標本 ( 人) 母集団 (C人) 当たった人の人数i = ∑ +< は平均C8, 分散C8(1 − 8)の二項分布に従う真実当たった人の割合+ = <∑ +< は平均8,分散8(1 − 8)/Cの正規分布に従う中心極限定理 (C → ∞) 観測事実 + = 1 + 中心極限定理より標本平均+はが大きいとき、平均8, 分散8(1 − 8)/ の正規分布に従う

(148)

不偏推定量

標本統計量の期待値が母数に一致するとき、その標本統計量を不偏推定量と呼ぶ。標本平均は、母集団の平均の不偏推定量である。次のように定義される標本分散は、母集団の分散の不偏推定量である。 ! + , … , + = _{− 1}1 + − +

(149)

不偏分散

標本サイズの代わりに自由度 − 1で割った分散を不偏分散とよぶ。 ※ 記述統計においても不偏分散を用いる場合がある。 ∑ − > + = 0なので，分散を計算するときに使っている「自由な」情報は − 1個である。したがって， − 1で割る。より詳しい説明については，以下を参照のこと統計的方法のしくみ―正しく理解するための30の急所，永田靖 (著)，日科技連出版社

(150)

まとめ

記述統計学与えられたデータそのものの統計的性質の把握を目標とする。推測統計学与えられたデータ(標本：観測事実)の背後にある母集団(真実)の統計的性質を、標本の統計的性質から推測する。その際に用いる数学的ツールは確率論である。推測統計学の基本である「推定」と「検定」については 2日目以降の講義で扱う。

(151)

EXCEL: 記述統計量を求める関数

平均：AVERAGE 中央値：MEDIAN 最頻値：MODE.SNGL 分散：VARP(nで割った分散) 不偏分散：VAR(n-1で割った分散) 標準偏差：STDEV.P(nで割った標準偏差) 標準偏差： STDEV.S(n-1で割った標準偏差) 共分散：COVARIANCE.P(n-1で割った共分散) 共分散：COVARIANCE.S(n-1で割った分散) 相関係数：CORREL 四分位数：QUARTILE.INC 標準化・基準化：STANDARDIZE

記述統計と確率変数・確率分布

１日目の内容

１日目の内容

変数と観測対象

データの例

データの例

データの要約の必要性

データの種類

データの種類

１日目の内容

記述統計学

ここで扱うデータ

(1) 度数分布表

離散変数の度数分布表

連続変数の度数分布表

(2) 棒グラフ

(2) 棒グラフ

棒グラフとヒストグラムの違い

(3) ヒストグラム

(3) ヒストグラム

(4) 円グラフ

(5) 折れ線グラフ

データを特徴づける

１日目の内容

(補足) を使った計算

(補足) を使った計算

記述統計量

代表値の例

平均の計算

代表値の例

代表値の例

代表値の例

代表値だけでは分布を区別できない

代表値だけでは分布を区別できない

分布のばらつきを特徴づける

分散による分布の区別

分散の計算

歪度

尖度

その他の散布度指標

箱ひげ図による表現

１日目の内容

標準化・基準化

判断の手がかり

数学・英語の点の分布

標準化・基準化

標準化した数学・英語の点の分布

Aさんの得点の場合

注意

標準化の実用例

変動係数

変動係数

１日目の内容

２変数間の関係

ここで扱うデータ

散布図

散布図

散布図

散布図から読み取れること

共分散

共分散

(1)

(2)

(4)

(3)

共分散

共分散

相関係数

相関係数と散布図

相関係数と散布図

平成26年 死傷事故件数の相関係数

相関係数の解釈の注意

(1) 外れ値が相関係数に与える影響

外れ値の見つけ方

外れ値が発生する理由

(2) U字型相関

変数変換

(3) 異質な集団が含まれる場合

相関関係と因果関係

擬似相関

平成26年死傷事故件数の相関係数

【午前の話】記述統計学