記述統計と確率変数・確率分布
統計数理研究所 モデリング研究系 坂田綾香
1日目の内容
【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表1日目の内容
【午後】 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値・分散・共分散・相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理変数と観測対象
一般的にデータは, 「観測対象」×「変数」 の形式で得られる。 観測対象とは, データを取得する対象 変数とは, 人や物、時間によって値が異なる特性 身長,年齢,性別,株価などデータの例
立川市の気象データ 降水量(mm) 気温(℃) 日照 年 合計 日最 大 最大 平均 最高 最低 時間 1時間 10分 間 日平 均 日最 高 日最 低 (h) 平成 20 1,994.0 123.0 58.5 21.5 15.4 20.3 11.1 37.4 -5.5 1,863.0 21 1,566.0 130.5 39.5 11.0 15.6 20.3 11.3 34.6 -5.8 1,793.9 22 1,714.0 99.0 41.5 21.0 15.8 20.8 11.2 37.2 -5.2 2,016.2 23 1,427.5 157.0 24.0 10.0 15.3 20.4 10.7 37.2 -6.8 2,073.5 24 1,696.0 117.0 43.0 25.0 14.9 19.8 10.5 36.2 -5.5 2,057.1 http://www.city.tachikawa.lg.jp/somu/shise/toke/nenpo/tokehyo.htmlデータの例
立川市のごみ排出量の推移 年 度 総 数 1日当た りの排出 量 小 計 収 集 ご み 持ち込み 資源ごみ 可 燃 物 不 燃 物 粗大ごみ 19 61,844 31,972 29,006 2,116 850 18,867 11,005 169 20 59,826 31,456 28,673 1,951 832 17,736 10,634 164 21 57,391 29,669 26,902 1,935 832 16,160 11,562 157 22 53,399 28,764 25,414 2,538 812 12,901 11,734 146 23 52,334 29,109 25,629 2,675 805 12,054 11,171 143 (単位:トン) http://www.city.tachikawa.lg.jp/somu/shise/toke/nenpo/tokehyo.htmlデータの要約の必要性
データは一般的に巨大。 → 眺めているだけではよく分からない そこでデータを要約する必要がある。 図表による要約 度数分布表,棒グラフ,ヒストグラム など 数値要約 最頻値,中央値,平均値,標準偏差,相関係数など データ要約により,必要な情報を簡潔に伝える方法を 記述統計と呼ぶ。データの種類
(1) データの型による分類 量的データ 連続データ: 身長、体重、温度、時間など 離散データ: 人数、カウントデータなど 質的データ 名義尺度: 性別、天気、居住地域など 順序尺度: 薬剤の治療効果の判定(悪化、不変、改善)などデータの種類
(2) データの次元による分類 1次元データ: 変数が1つだけのデータ (例) ある学年全員の数学の点数 多次元データ: 2つ以上の変数が組となっているデータ (例) 2次元データ: ある学年全員の数学と英語の点数 3次元データ: ある学年全員の数学と英語と物理の点数 … 今日の講義では2次元データまでを扱います。1日目の内容
【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表記述統計学
記述統計学とは データのもっている主要な特性をより鮮明に 表現するために,データを要約したり 作表をしたりすること一般を指す (統計科学事典,清水良一訳)ここで扱うデータ
統計数理研究所による「日本人の国民性調査」より 「あなたは結婚していらっしゃいますか?」 「もういちど生まれかわるとしたら、あなたは男と女の、 どちらに、生れてきたいと思いますか?」 「あなたが最後にいらっしゃった学校はなんですか?」 国税庁による 「民間給与実態統計調査」(平成26年実施) これらのデータを以下の図表により可視化する。 (1) 度数分布表(2) 棒グラフ(3) ヒストグラム (4) 折れ線グラフ(5) 円グラフ(1) 度数分布表
観測値のとりうる値をいくつかのカテゴリ(階級)に分類
各階級で、観測値がいくつあるかを表にまとめる。
度数:各カテゴリーに所属する観測値の数
離散変数の度数分布表
「あなたは結婚していらっしゃいますか?」 項目 度数 相対度数 累積相対度数 未婚 17 17 17 死別 7 7 24 離別 5 5 29 既婚 71 71 100 その他 0 0 100 各階級の度数を 全観測数で割ったもの (×100) 最初の階級から 相対度数を足し合わせたもの連続変数の度数分布表
連続変数の場合には階級を作り,度数分布を作成する。 男性の給与の度数分布(民間給与実態統計調査) 階級(万円) 度数(万人) 相対度数 累積相対度数 200未満 301.3 10.7 10.7 200~299 371.4 13.2 24.0 300~399 513.8 18.3 42.3 400~499 487.8 17.4 59.7 500~599 358.2 12.8 72.5 600~699 235.6 8.4 80.9 700~799 165.7 5.9 86.8 800~899 112.3 4.0 90.8 900~999 75.2 2.7 93.5 1000以上 183.6 6.5 100.0(2) 棒グラフ
棒と棒はくっつけない 0 10 20 30 40 50 60 70 80 未婚 死別 離別 既婚 その他 「あなたは結婚していらっしゃいますか?」 割合 (%)(2) 棒グラフ
男性の給与(民間給与実態統計調査より) 0 2 4 6 8 10 12 14 16 18 20 割合 (%)棒グラフとヒストグラムの違い
棒グラフ:階級、項目ごとの個体数を表す ヒストグラム:それぞれの柱の「面積(太さ×高さ)」が 度数を表す 例えば、幅が500万円の柱は、幅が100万円の柱の 5倍の太さがあるので、同じ度数でも柱の高さは1/5になる。(3) ヒストグラム
男性の給与(民間給与実態統計調査より) 0 1 2 3 4 5 6 1000~1500(万円)の 136.4(万人)を 500×0.2728として表す。 … (万円) (万人) 300~400(万円)の 513.8(万人)を 100×5.138として表す。(3) ヒストグラム
幅のとり方で印象が異なるので注意が必要。 0 1 2 3 4 5 0 1 2 3 4 5 6 1000万円以下を100万円刻みにした場合 1000万円以下を200万円刻みにした場合 男性の給与(民間給与実態統計調査より)(4) 円グラフ
違いが視覚的に分かる 「あなたが、最後にいらっしゃった学校はなんですか?」 1978年 2008年 高校 大学 中学校 小学校 その他(5) 折れ線グラフ
割合 (%) 時系列的変化を示すのに便利 「もう一度生まれかわるとしたら、 あなたは男と女のどちらに生れてきたいと思いますか? 」 0 10 20 30 40 50 60 70 80 90 100 1 9 5 8 1 9 6 3 1 9 6 8 1 9 7 3 1 9 7 8 1 9 8 3 1 9 8 8 1 9 9 3 1 9 9 8 2 0 0 3 2 0 0 8 2 0 1 3 男 女 「男」と回答した人の割合の変化 実施年データを特徴づける
分布の性質をどのように説明するか 定量的に分布の特徴を記述したい。 これにより データの背後にある現象の解釈につながる。 異なるデータとの比較を定量的に行うことができる。 0 1 2 3 4 5 6 分布の中心的な位置は? 分布の広さはどれくらい? ピークはどれくらい急なのか? 分布の裾はどんな形なのか? …1日目の内容
【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表(補足) を使った計算
1.
2.
(補足) を使った計算
4.
5.
= − 1 + − 1 + − 1 + − 1 + ( − 1)
記述統計量
データの分布を特徴づける指標を記述統計量と呼ぶ。 「統計量」とは統計学で用いる指標を指す。 ここでは以下の記述統計量について説明する。 代表値: 分布を代表する値 散布度: 分布の広がり、ばらつきを表す指標代表値の例
最頻値(mode):最も頻繁に出現する値 外れ値に強い。 一つに決まらない場合がある。 中央値(median) :真ん中の値 外れ値に強い。 全てのデータを考慮できない。 平均値(mean) :個々の値の和÷対象の数(個体数) 全てのデータを考慮できる。 外れ値に弱い。 = 1 個々の値 対象の数平均の計算
= 1 1 2 3 4 5 1 2 3 = 10 1 + 3 × 2 + 3 × 3 + 4 + 2 × 5} = 31 人数 ゴールデンウィークの 休暇日数代表値の例
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -8 -6 -4 -2 0 2 4 6 8 = 0 = 0 = 0 最頻値 中央値 平均値 左右対称な分布では、最頻値=中央値=平均値となる。代表値の例
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0 5 10 15 20 = 5.5 = 5 = 5 最頻値 中央値 平均値 非対称な分布では、3つの値は一致しない。代表値の例
多峰性の分布の場合 分布の「中心的な値」を表す指標として解釈できない 0 0.05 0.1 0.15 0.2 0.25 -5 0 5 10 15 = 2.5 = 0 = 1.5 最頻値 中央値 平均値代表値だけでは分布を区別できない
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -15 -10 -5 0 5 10 15 = 0, = 0, = 0 どちらの分布も 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -15 -10 -5 0 5 10 15代表値だけでは分布を区別できない
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -15 -10 -5 0 5 10 15 データのばらつきを表す指標が必要 → 散布度 どちらの分布も = 0, = 0, = 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -15 -10 -5 0 5 10 15分布のばらつきを特徴づける
平均値 と個々の値が、 平均的にどの程度離れているかを表す指標 分散 標準偏差 ! = 1 − ! = 1 − 例えば の単位がkgのとき、分散の単位はkg2となる。 標準偏差の単位は の単位と同じ。分散による分布の区別
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -15 -10 -5 0 5 10 15 どちらの分布も = 0, = 0, = 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 -15 -10 -5 0 5 10 15 ! = 1 ! = 9分散の計算
! = 1 − 1 2 3 4 5 1 2 3 = 3 = 10 # 1 − 3 + 3 × 2 − 3 + 3 × 3 − 3 + 4 − 3 + 2 × 5 − 3 } 1 = 1.6 人数 ゴールデンウィークの 休暇日数歪度
分布の左右非対称性を表す % = 1 ∑ ! − 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 -4 -3 -2 -1 0 1 2 3 4 どちらの分布も = 1.13, ! = 0.36 % = 1.66 % = 0尖度
分布のとがり具合を表す ' = 1 ∑ ! − 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 -6 -4 -2 0 2 4 6 0 0.05 0.1 0.15 0.2 0.25 0.3 -6 -4 -2 0 2 4 6 どちらの分布も = 0, ! = 1.56, % = 0 ' = 3.82 ' = 3その他の散布度指標
分位点 データを昇順に並べ、下側のp%のところにある値を 「p%分位点」と呼ぶ。 第1四分位点:25%分位点,下側四分位点 第2四分位点:50%分位点,中央値 第3四分位点:75%分位点,上側四分位点 範囲:データの最大値ー最小値 四分位範囲: 上側四分位点ー下側四分位点 ※ 中央部で50%のデータが入る範囲箱ひげ図による表現
1.5×四分位範囲 中央値 第3四分位 第1四分位 1.5×四分位範囲 ひげの外にあるデータは 点で表す。 ※ ひげの中に全てのデータが収まる場合、 ひげは最大値、最小値までしか延ばさない。 四分位範囲1日目の内容
【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表標準化・基準化
異なる分布に従うデータを比較するための手続き 例題 Aさんのテストの点数 数学:75点 英語:65点 Aさんは,数学と英語のどちらの方が得意でしょうか? 点数で比較すると、数学の方が得意?判断の手がかり
学年の平均点と比較してみる 「Aさんの数学の得点ー数学の平均点」と 「Aさんの英語の得点ー英語の平均点」を比較する。 しかし,数学における平均点との差と 英語における平均点との差が同じ価値とは限らない。 Aさんよりも高い点数を取った人が少ないほど, その得点は貴重だと考える 平均値だけでなく,点数の散らばりも考慮する必要がある。 数学における1点と,英語における1点は同じ価値?数学・英語の点の分布
0 1 2 3 4 5 6 7 8 0 20 40 60 80 100 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0 20 40 60 80 100 英語 数学 点数 割合(%) 割合(%) 平均: = 65 標準偏差:! = 8 平均: = 50 標準偏差:! = 5 点数 Aさんより高い点数の人は9.5% Aさんより高い点数の人は1% Aさん(75点) Aさん(65点)標準化・基準化
) を標準得点(z得点)・標準化変量・基準化変量と呼ぶ。 標準得点の平均は0, 標準偏差は1になる。 標準化により、変数値の相対的「位置」を把握できる。 難易度の異なる数学と英語のテストにおいて、 数学でX点を取ったことと、英語でY点取ったことを 「全体の中での位置」という観点で比較できる。 を標準化して) とする:標準化した数学・英語の点の分布
英語 数学 標準得点 割合(%) 割合(%) 0 0.5 1 1.5 2 2.5 3 3.5 4 -10 -5 0 5 10 − 65 8 標準化得点: − 50 5 標準化得点: 0 0.5 1 1.5 2 2.5 3 3.5 4 -10 -5 0 5 10 標準得点 どちらも平均0、標準偏差1の分布になる。Aさんの得点の場合
英語の方が得意と言える。 0 0.5 1 1.5 2 2.5 3 3.5 4 -10 -5 0 5 10 75 − 65 8 = 1.25 数学の標準得点: 65 − 50 5 = 3 英語の標準得点: 数学 英語 標準得点 割合(%)注意
ここまでの議論は、 データが正規分布に従うことを仮定している。 平均、分散のみで形を指定できる、左右対称な分布 (午後の講義で詳しく扱います。) データが厳密に正規分布に従わなくても、 正規分布に近い、左右対称な分布をしている場合は 標準化によるデータの比較は有効である。 また標準化はデータの大きさを揃える効果があるため、 回帰分析において重要。標準化の実用例
偏差値 点数 を標準化したものを)得点と呼ぶ: ◦ )得点の平均は0、標準偏差は1. 偏差値=10 × ) + 50 ◦ 偏差値の平均は50、標準偏差は10。 ) = !− 0 0.5 1 1.5 2 2.5 3 3.5 4 0 20 40 60 80 100 正規分布を仮定した場合の 偏差値の分布 偏差値 割合(%)変動係数
「 1人当たり県民所得」の推移 (内閣府 県民経済計算より) 最も格差が大きい年は? 標準偏差が最も大きいのは2013年。 そもそも平均値が大きく異なる(貨幣価値が異なる)が、 標準偏差を単純に比較してよいのか? 年 平均値(万円) 標準偏差(万円) 1955 7.4 1.4 1975 101.6 14 2013 282.7 39.3変動係数
平均値の大きさを考慮したうえで、ばらつきを評価する 相対的な地域格差は1955年が最も大きい。 年 平均値(万円) 標準偏差(万円) 変動係数 1955 7.4 1.4 0.189 1975 101.6 14 0.138 2013 282.7 39.3 0.139 変動係数 = 標準偏差 平均値1日目の内容
【午前】 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値:平均,中央値,最頻値 散布度:分散,標準偏差,四分位偏差 3. データの比較 標準化・基準化 2変数の関係:散布図,共分散,相関係数,クロス表2変数間の関係
統計データの解析では、複数の変数間の関係性に 関心があることが多い。 (例) BMIが大きい人ほど血圧が高いか? 雨が降るほど渋滞が発生しやすいか? ネットでの人気と視聴率の関係は? ここでは2変数の関係性を表すための 記述統計学の方法をまとめる。ここで扱うデータ
平成26年 死傷事故件数 (国道交通省より) 都道府県 自動車専 用道路 一般国道 一般都道 府県道等 市町村道 その他 北海道 8.3 56.1 48.6 120.7 宮城県 7.9 109.7 83.9 191.2 新潟県 5.0 77.9 65.8 124.4 東京都 8.4 29.3 105.3 134.7 愛知県 11.9 111.1 183.6 312.2 大阪府 12.3 101.5 147.6 222.1 広島県 12.1 123.3 94.3 210.8 福岡県 11.4 200.7 192.7 379.0 沖縄県 3.8 132.9 134.2 168.3 (人口10万人当たり)散布図
0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 0.0 5.0 10.0 15.0 20.0 25.0 一般国道で の事故数 佐賀県 兵庫県 自動車専用道路での事故数散布図
0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0 0.0 100.0 200.0 300.0 400.0 市町村道そ の他で の事故数 一般都道府県道等での事故数 香川県 静岡県散布図
0.0 50.0 100.0 150.0 200.0 250.0 300.0 350.0 400.0 450.0 500.0 0.0 100.0 200.0 300.0 400.0 500.0 一般国道での事故数 市町村道そ の他で の事故数 佐賀県 静岡県散布図から読み取れること
+ , + , + , Xが大きいほどYも大きい Yが大きいほどXも大きい Xが大きいほどYは小さい Yが大きいほどXは小さい XとYの大きさに 関連はない XとYの間には 正の相関がある XとYは 無相関である XとYの間には 負の相関がある共分散
2変数の関係を表す統計量 +と,の間に 正の相関があるとき、正の値をとる。 相関関係が強いほど、共分散は大きくなる。 負の相関があるとき、負の値をとる。 相関関係が強いほど、共分散の絶対値は大きくなる。 無相関のとき、0に近い値をとる。 !-. = 1 − / − /共分散
1 / /(1)
(2)
(4)
(3)
共分散が正のとき (1), (3)にデータが多い 共分散が負のとき (2), (4)にデータが多い 共分散が0に近いとき 全ての領域にデータが まんべんなく存在共分散
平成26年 死傷事故件数の共分散 自動車 専用道路 一般国道 一般都道府 県道等 市町村道 その他 自動車専用 道路 95.12 83.00 168.45 一般 国道 2520.11 3933.28 一般都道府 県道等 4405.79 市町村道 その他 (人口10万人当たり) X Y共分散
平成26年 死傷事故件数の共分散 自動車 専用道路 一般国道 一般都道府 県道等 市町村道 その他 自動車専用 道路 9512 8300 16845 一般 国道 252011 393328 一般都道府 県道等 440579 市町村道 その他 (人口100万人当たり) データのスケールが10倍になると 共分散は100倍になる。 X Y相関係数
共分散を標準偏差の積で割ったものを相関係数と呼ぶ !-: の標準偏差, !.: /の標準偏差 データのスケールを表す標準偏差で割ることで、 相関係数は−1から1の間に収まる。 正の相関があるとき、0-.は正の値をとる。 無相関のとき、0-.は0に近い。 負の相関があるとき、0-.は負の値をとる。 -. - . -. - .相関係数と散布図
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0 -4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0.2 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0.6 0 = 0.4 -4 -3 -2 -1 0 1 2 3 4 0 = 0.8 -4 -3 -2 -1 0 1 2 3 4 0 = 1.0相関係数と散布図
-4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = 0 -4-3 0 = −0.4 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −0.2 -4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −0.6 -4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −0.8 -4-3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 0 = −1.0平成26年 死傷事故件数の相関係数
自動車 専用道路 一般国道 一般都道府 県道等 市町村道 その他 自動車専用 道路 1.0 0.34 0.30 0.41 一般 国道 1.0 0.67 0.70 一般都道府 県道等 1.0 0.79 市町村道 その他 1.0 X Y 0 0.3 0.5 0.7 1 非常に強い相関 強い相関 中程度の相関 弱い相関 一般に相関係数の解釈の注意
(1) 外れ値があるとき 外れ値は相関係数の値を大きく変えてしまう (2) 曲線関係があるとき 変数変換を行う必要がある (3) 異質な集団が含まれる場合 集団ごとに相関係数を求める必要がある 相関係数だけで判断せず、散布図を描くことが大事。(1) 外れ値が相関係数に与える影響
-4 -2 0 2 4 6 8 10 -4 -2 0 2 4 6 8 10 0-. = 0.4606 0-. = −0.0222 / データ点A データ点Aを含めた場合の 相関係数 データ点Aを含めない場合の 相関係数 大きく外れたデータは 相関係数の値を変えてしまう。 データ点Aを「外れ値」として 除外してよいのか?外れ値の見つけ方
箱ひげ図を用いる + , データ点A データが正規分布に従うと 仮定すると、ひげの外に 値をとる確率は0.7%しかない。 箱ひげ図を描いて ひげの外にあるデータは 外れ値である可能性が高い。 ただし、データが正規分布に 従うとは限らないので、 実際に除外するかどうかは よく検討する必要がある。外れ値が発生する理由
確認すべきこと 他データとの測定環境の違い 被観測個体の特殊性 データの入力ミス よほど小規模なデータでない限り、 ヒューマンエラーは避けられない これらの原因による外れ値であると確信できる場合は、 データから外れ値を除いてもよい。(2) U字型相関
0 = 0.04 0 = 0.05 U字型相関を示す散布図 逆U字型相関を示す散布図 無相関と考えるのは誤り -8 -6 -4 -2 0 2 4 -3 -2 -1 0 1 2 3 -4 -2 0 2 4 6 8 10 -3 -2 -1 0 1 2 3 / /変数変換
U字型相関を示す散布図 逆U字型相関を示す散布図 と/の相関は強い。 / / -4 -2 0 2 4 6 8 10 0 1 2 3 4 5 6 7 -8 -6 -4 -2 0 2 4 0 1 2 3 4 5 6 7 8 0 = 0.78 0 = −0.80全体の相関係数 0 = 0.47 層別相関係数 □の集団: 0 = 0.89 ○の集団: 0 = 0.67
(3) 異質な集団が含まれる場合
-6 -4 -2 0 2 4 6 8 10 -3 -2 -1 0 1 2 3 散布図を描き、 データの構造を把握する ことが重要。相関関係と因果関係
相関関係があるとき因果関係もあるとは限らない。 (例) 「T市の人口」と「T市の税収」に正の相関がある場合、 次の5通りの可能性が考えられる。 「人口が増えたので税収が増えた。」 「税収が増えたので人口が増えた。」 「人口が増えたので税収が増えたし、 税収が増えたので人口が増えた。」 「T市に大規模工場が出来たので、 人口が増えたし税収も増えた。」 「偶然、人口増と税収増が同時に起きた。」 因果関係がある 擬似相関がある 無関係擬似相関
変数1が変数+と変数,の間の相関をもたらすとき、 その相関を擬似相関と呼ぶ。 例:都市の大気汚染の程度+と都市人口に占める若者の割合,の間には 擬似相関がある。変数1は都市の人口である。 豊田秀樹,『原因を探る統計学』より 変数1 (原因) 変数, (結果2) 変数+ (結果1) 擬似相関相関係数と偏相関係数
相関係数0-.:変数+と変数,の間の関連性の指標 偏相関係数0-.⋅3: 変数1の影響を変数+と変数,から排除した上での 変数+と変数,の間の関連性の指標 -.⋅3 -. -3 .3 -3 .3 -. - . -. - .偏相関係数の例
0-. = −0.71 → ノロウイルスが減ると台風が増える?? +: ノロウイルス食中毒発生件数 (平成23年~27年平均、厚生労働省) ,: 台風の発生個数 (平成23年~27年、気象庁) 0 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10 11 12 0 10 20 30 40 50 60 70 80 90 1 2 3 4 5 6 7 8 9 10 11 12月 月偏相関係数の例
0 5 10 15 20 25 30 1 2 3 4 5 6 7 8 9 10 11 12 月 1: 平均気温 0-.⋅3 = 0.25 ノロウイルス食中毒の減少と台風の増加は 気温という原因により引き起こされていると考えられる。 (1990年~2013年の平均、気象庁)偏相関係数の例
気温
ノロウイルス
台風
0-3 = −0.92 0.3 = 0.83 0-.⋅3 = 0.25 (0-. = −0.71)偏相関係数の例
ちなみに1カ月前の
気温
ノロウイルス
台風
0-3 = −0.80 0.3 = 0.90 0-.⋅3 = 0.05 (0-. = −0.71)クロス表
2つの変数のデータを、表に集計してまとめたもの 居住年数 思う どちらかとい えば思う どちらかといえ ば思わない 思わない 無回答 合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3~5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成27年度 立川市市民満足度調査より 「立川市に住み続けたいと思いますか?」クロス表
2つの変数のデータを、表に集計してまとめたもの 居住年数 思う どちらかとい えば思う どちらかといえ ば思わない 思わない 無回答 合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3~5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成27年度 立川市市民満足度調査より 「立川市に住み続けたいと思いますか?」 関連性の指標①:割合の差 (絶対的指標) (例) 生まれてからずっと立川市に住んでいる人のうち、 住み続けたいと思う人は、思わない人より 70.3ポイント多い。クロス表
2つの変数のデータを、表に集計してまとめたもの 居住年数 思う どちらかとい えば思う どちらかといえ ば思わない 思わない 無回答 合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 155 21年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) 456 14~20年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 10~13年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3~5年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 690 378 65 34 15 1182 平成27年度 立川市市民満足度調査より 「立川市に住み続けたいと思いますか?」 関連性の指標②:割合の比 (相対的指標) (例) 生まれてからずっと立川市に住んでいる人のうち、 住み続けたいと思う人の割合は、思わない人の割合より 55倍大きい。クロス表の落とし穴
1980-90年代: 乳がん外科手術後のタモキシフェンの使用と がん再発の関係について [佐藤 (2008)] 再発割合の差:0.2ポイント タモキシフェン 再発あり 再発なし 合計 使用 464 (18.2%) 2085 (81.8%) 2549 未使用 424 (18.0%) 1928 (82.0%) 2352 合計 888 4013 4901 タモキシフェンには がん再発の予防効果がほとんどない?クロス表の落とし穴
リンパ節転移の有無で層に分けてみる リンパ節転移あり リンパ節転移なし タモキシ フェン 再発あり 再発なし 合計 再発あり 再発なし 合計 使用 368 (30.3%) 847 (69.7%) 1215 96 (7.2%) 1238 (92.8%) 1334 未使用 253 (33.3%) 507 (66.7%) 760 171 (10.7%) 1421 (89.3%) 1592 合計 621 1354 1975 267 2659 2926 再発割合の差: 3ポイント 再発割合の差: 3.5ポイント タモキシフェンには がん再発の予防効果がある!クロス表の落とし穴
各集団の人数がバラバラのため、結果が覆ってしまった リンパ節転移あり リンパ節転移なし タモキシ フェン 再発あり 再発なし 合計 再発あり 再発なし 合計 使用 368 (30.3%) 847 (69.7%) 1215 96 (7.2%) 1238 (92.8%) 1334 未使用 253 (33.3%) 507 (66.7%) 760 171 (10.7%) 1421 (89.3%) 1592 リンパ節転移があるとき タモキシフェンを使わないことは少ない リンパ節転移がないとき タモキシフェンを使わないことが多い 「未使用」の全データは、リンパ節転移なしの集団の影響が強い。 よって全データを使用した場合、 「未使用」で再発しなかった割合が高く見積もられる。クロス表の落とし穴
各集団の人数がバラバラのため、結果が覆ってしまった 仮に、各集団が1000人ずつだとすると リンパ節転移あり リンパ節転移なし タモキシ フェン 再発あり 再発なし 合計 再発あり 再発なし 合計 使用 303 697 1000 72 928 1000 未使用 333 667 1000 107 893 1000 タモキシフェン 再発あり 再発なし 合計 使用 375 (18.8%) 1625 (81.3%) 2000 未使用 440 (22.0%) 1560 (78.0%) 2000 全体のクロス表でも、3.2ポイントの再発割合の差がでるシンプソンのパラドックス
データのまとめ方によって結果が覆ってしまう現象を シンプソンのパラドックスという。 どのクロス表での結果を採用するかを決める 方法論はない。 タモキシフェンの例の場合、 リンパ節転移の有無は再発に大きくかかわるため、 層別した場合の結果が正しいと考えられる。 各データの背景にある知見と照らし合わせて データを解釈することが大事。午前中のまとめ
記述統計学によるデータ要約の方法を解説した。 データ要約は、データに対する人間の理解を助ける。 しかし要約により、データの一部の情報が失われることは 避けられない。 ヒストグラムや散布図により、 データを「見る」ことが大事。 その上で、データが持つ重要な情報を落とさないよう、 適切な要約方法を用いる。 対象についての知見を学び、 先入観や願望を捨てることが重要。1日目の内容
【午後】 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値・分散・共分散・相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理【午前の話】 記述統計学
記述統計学とは データのもっている主要な特性をより鮮明に 表現するために,データを要約したり 作表をしたりすること一般を指す (統計科学事典,清水良一訳) つまり 特定の標本データの性質を調べるための統計学 棒グラフ,ヒストグラム,散布図などを描く 平均,中央値,最頻値,分散,標準偏差などを求める 共分散,相関係数などを求める母集団と標本
何らかの特徴を得る対象となる全集団を母集団と呼ぶ。 (例) 日本人の成人男性の平均身長は? → 母集団は日本人の成人男性全員 21時の○○TVニュースを視聴していた世帯の割合は? → 母集団は全世帯の数 しかし、母集団の情報を完全に把握することは困難。 母集団の数が非常に大きい場合 観測が困難な場合母集団と標本
母集団の全体調査が不可能な場合、 次のように母集団の性質を推定する。 1. 母集団から一部を無作為に選ぶ。 これを標本と呼ぶ。 2. 標本について統計的分析を行い、 母集団の性質を推定する。 ここで用いる方法論を推測統計学と呼ぶ。母集団と標本
標本 母集団 ランダム サンプリング 推測統計学 標本データの 性質 記述統計 母集団の統計的性質を 標本から推定する記述統計学から推測統計学へ
推測統計学において用いる 確率・統計の基礎についてまとめる。 確率変数 確率関数と確率密度関数 確率変数の期待値・分散・共分散・相関係数確率と確率変数
確率は不確実な事象の起こりやすさを表す。 確率は0から1の間の実数で表され、 各事象が起こる確率をすべて足し合わせると1となる。 確率変数とは、 ある確率法則に従って値が決まる変数のこと 確率変数を「+」と表す。実際に決まった値(実現値)を とする。 確率変数がとりうる値の集合(標本空間)を「Ω」と表記する。 標本空間Ωに含まれる値5が実現する確率をPr (5)と表記する。確率と確率変数の例①
+の値を確率的に決める Pr + = 当たり = 8 Pr + = はずれ = 1 − 8 + + + Ω = 当たり, はずれ はずれ 当たり 確率変数の値の実現 はずれ確率と確率変数の例②
※ ここでは歪みのないコイン、サイコロを考えます。 コイン投げ サイコロ投げ 確率変数+ コインの向き サイコロの目 標本空間Ω Ω = 表, 裏 Ω = 1,2,3,4,5,6 確率変数の値を 決める方法 コインを投げる行為 サイコロを投げる行為 確率変数の値が従う 確率法則 Pr + = 表 = 1 2 Pr + = 裏 = 12 Pr + = 1 = Pr + = 2 = Pr + = 3 = Pr + = 4 = Pr + = 5 = Pr + = 6 = 16確率変数の種類
離散型確率変数 とびとびの値をとる コイン投げや、さいころ投げなどの整数値データ コイン投げの場合など、表を1、裏を0として数値化する。 確率変数がある値をとる確率は、確率関数により与えられる。 連続型確率変数 とりうる値が連続的なもの 身長・体重などの実数値データ 確率変数がある範囲の値をとる確率は、 確率密度関数により与えられる。確率変数の種類
離散型確率変数 とびとびの値をとる コイン投げや、さいころ投げなどの整数値データ コイン投げの場合など、表を1、裏を0として数値化する。 確率変数がある値をとる確率は、確率関数により与えられる。 連続型確率変数 とりうる値が連続的なもの 身長・体重などの実数値データ 確率変数がある範囲の値をとる確率は、 確率密度関数により与えられる。確率関数
離散型確率変数の確率分布を表す関数 Ω = , , … , : のとき Pr + = = 8 , … , Pr + = : = 8: ∑ 8: = 1 とする。 ; = 8 , ; = 8 , …となる関数;( )を確率関数と呼ぶ。 0 0.1 0.2 0.3 0.4 0.5 0.6 0 0.2 0.4 0.6 0.8 1 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 1 2 3 4 5 6 コイン投げの確率関数 サイコロ投げの確率関数 ;( ) ;( )確率関数
その他の例 2つのサイコロを同時に投げて、出た目の和の確率関数 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 1 2 3 4 5 6 7 8 9 10 11 12 13 ;( )平均と分散
平均 (期待値とも呼ぶ) 分散 : : < : : : < : ※ 8:: 確率変数が'番目の値をとる確率平均と分散の例
コイン投げの場合 サイコロ投げの場合 > + = 1 × 12 + 0 × 12 = 0.5 ? + = 1 − 12 × 12 + 0 − 12 × 12 = 0.25 > + = 1 × 16 + 2 × 16 + 3 × 16 + 4 × 16 + 5 × 16 + 6 × 16 = 3.5 ? + = 1 − 3.5 × 16 + 2 − 3.5 × 16 + 3 − 3.5 × 16 + 4 − 3.5 × 16 + 5 − 3.5 × 16 + 6 − 3.5 × 16 = 2.92離散型一様分布
Ω = , … , :}のとき、; =, … , = ; : = 1/'となる 確率関数;( )を離散型一様分布と呼ぶ。 確率変数+の取り得る値の下限をA、上限をBとすると 0 0.1 0.2 0.3 0.4 0.5 0.6 0 0.2 0.4 0.6 0.8 1 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 1 2 3 4 5 6 コイン投げの確率関数 サイコロ投げの確率関数 ;( ) ;( ) > + = A + B2 , ? + = B − A + 1 − 112ベルヌーイ分布
事象A, Bがそれぞれ確率8, 1 − 8で起こる離散確率分布 A=「裏」, B=「表」、 A=「成功」, B=「失敗」 など コイン投げは8 = 0.5に対応する。 このような事象を起こさせることをベルヌーイ試行と呼ぶ。 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 8 = 0.2で0(失敗)、 8 = 0.8で1(成功)となる場合の ベルヌーイ分布ベルヌーイ試行を繰り返す
事象A,Bがそれぞれ確率8, 1 − 8で起こる ベルヌーイ試行をC回繰り返すとき、 「事象Aが起こる回数」は確率変数である。 もちろん「事象Bが起こる回数」も確率変数である。 コイン投げの場合、 確率変数+ = 「表が出る回数」とするとΩ = 0, 1, 2, … , C} ただし、C回の試行の独立性を仮定する。 C回の試行は互いに影響されることなく、 各試行で事象A, Bが起こる確率は常に8と1 − 8である。 例えばバスケットボールのフリースローでは独立性が成り立たない。2項分布
事象A,Bがそれぞれ確率8, 1 − 8で起こる ベルヌーイ試行をC回繰り返すとき、 確率変数「事象Aが起こる回数」は2項分布に従う。 期待値:C8 分散:C8(1 − 8) C - - <D-C回の試行のうち 回で 事象Aが起こる場合の数 事象Aが 回、 事象BがC − 回起こる確率2項分布
C = 30回のベルヌーイ試行を行う場合 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0 5 10 15 20 25 30 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0 5 10 15 20 25 30 30 - - ED-8 = 0.3 8 = 0.5 ; ;ポアソン分布
事象A,Bがそれぞれ確率8, 1 − 8で起こる ベルヌーイ試行をC回繰り返すとき、 確率変数「事象Aが起こる回数」は2項分布に従う。 特に次の条件が成立するときを考える。 Cが非常に大きい 8とCの間に8 = F/Cという関係があり、 Cが非常に大きいとき8は非常に小さい。 (1回の試行で事象Aが起こることは稀である) このとき2項分布はポアソン分布となる。ポアソン分布
期待値、分散ともFである。 - DG 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0 5 10 15 20 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 5 10 15 20 25 30 F = 5 F = 10 ;( ) ;( )の意味
二項分布の性質から、 事象Aの起こる回数の期待値はC8。 8がCと無関係な定数(< 1)の場合、 事象Aの起こる回数は試行回数Cに比例して増える。 8 = F/Cの場合、C8 = Fなので Cが大きくなっても事象AはF回程度しか起きない。 ポアソン分布は、 「1回の試行で起きることは稀だが、 試行回数Cが大きければF回くらいは起きる事象A」が、 実際にC回の試行で+回起きる確率を表す。ポアソン分布の実例
プロイセン陸軍で馬に蹴られて死亡した兵士数 [Bortkiewicz 1898] 1875年~1894年の20年間で 馬に蹴られて死亡した兵士数の分布を 200部隊に対して調べた 死亡兵士数 0 1 2 3 4 5 観測数 109 65 22 3 1 0 割合 0.545 0.325 0.110 0.015 0.005 0ポアソン分布の実例
プロイセン陸軍で馬に蹴られて死亡した兵士数 [Bortkiewicz 1898] 0 0.1 0.2 0.3 0.4 0.5 0.6 0 1 2 3 4 5 死亡兵士数 確率 F = 0.61のポアソン分布 実際のデータ F = 0.61のポアソン分布で近似できる。ポアソン分布の実例
その他にも「一定の時間に起こるイベント数の分布」の モデルとして用いられる。 交通事故の件数 製造ラインにおける不良品の数 1時間あたりにかかってくる電話の数 1日あたりのタクシーの乗客数 ある地域における1ヶ月あたりの胃がんによる死亡者数 ある期間に起こるM7以上の地震の数 など確率変数の種類
離散型確率変数 とびとびの値をとる コイン投げや、さいころ投げなどの整数値データ コイン投げの場合など、表を1、裏を0として数値化する。 確率変数がある値をとる確率は、確率関数により与えられる。 連続型確率変数 とりうる値が連続的なもの 身長・体重・時間などの実数値データ 確率変数がある範囲の値をとる確率は、 確率密度関数により与えられる。確率密度関数
(例) 1000人の社員が会社にやってくる時間を1万日調べた。 ※ 「1000人」「1万日」は、「以下の議論に十分な数」という程度の意味です。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 -140 -120 -100 -80 -60 -40 -20 0 20 40 出社時刻ー始業時刻(分) 社員の出社時刻のヒストグラム (15分刻み) 割合確率密度関数
階級の刻み幅を小さくしていく 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -140 -120 -100 -80 -60 -40 -20 0 20 40 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -140 -120 -100 -80 -60 -40 -20 0 20 40 3分刻み 0.03分刻み 出社時刻ー始業時刻(分) 出社時刻ー始業時刻(分) 刻み幅を小さくすると、ヒストグラムは「データの相対頻度を表す関数」へ収束。確率密度関数
連続型確率変数において、 ヒストグラムの刻みを無限に小さくする極限により 定義される関数を確率密度関数という 「確率」そのものではないが、それに似た性質を持つ 連続型確率変数において、ある値を持つ確率は定義できない。 ある範囲をとる確率は定義できる。 例えば、確率変数がA以上B以下の値をとる確率は 確率変数がとり得る値の範囲全体で積分すると1になる。 Pr A ≤ + ≤ B = J K 8L M平均と分散
平均 分散 -NOP -NQR -NOP -NQR ST:+のとりうる最小値 UV:+のとりうる最大値連続型一様分布
8 = WB − A A ≤ ≤ B1 のとき 0 それ以外のとき 0 0.02 0.04 0.06 0.08 0.1 -5 0 5 10 15 A = 0, B = 10の一様分布 8 平均値 分散正規分布
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 20 40 60 80 100 8 X = 30, Y = 5 X = 40, Y = 3 X = 50, Y = 10 平均値 分散標準正規分布
平均0,分散1の正規分布を標準正規分布と呼ぶ。 正規分布に従う確率変数+を標準化すると, それは標準正規分布に従う。 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -6 -4 -2 0 2 4 6 8 平均値: > + = 0 分散: ? + = 1正規分布の性質
平均(X) ±標準偏差 Y の範囲に約68%が収まる 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -6 -4 -2 0 2 4 6 X X + Y X − Y 8正規分布の性質
平均(X) ± 2 ×標準偏差 Y の範囲に約95%が収まる X X + 2Y X − 2Y 8 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 -6 -4 -2 0 2 4 6シグマ区間
区間 確率(%) 1Y 68.2689492137086 2Y 95.4499736103641 3Y 99.7300203936740 4Y 99.9936657516326 5Y 99.9999426696856 6Y 99.9999998026825 7Y 99.9999999997440 8Y 99.9999999999999 9Y 100.000000000000同時確率分布と周辺確率分布
複数の確率変数に関する確率分布 +, ,という2種類の確率変数の組の 同時確率分布を8( , /)と表記する。 周辺確率分布 +と,が互いに独立な場合には、 同時確率分布は8( , /) = 8- 8.(/)となる。 特に+, ,が相関している場合を考える 8- = J.NOPK/ 8 , / .NQR 8. / = J K 8 , / -NOP -NQR共分散と相関
共分散
相関係数
「独立」と「無相関」
1. 8 +, , = 8- + × 8. , のとき、+と,は独立である。 このとき> +, = > + × >[,] 2. COV +, , = 0であるとき、+と,は無相関である。 独立であれば無相関。 > +, − > + > , = 0なのでCOV +, , = 0 無相関のとき独立であるとは限らない。 > +, , = 0かつ> + , > , の少なくともどちらか1つが0の場合、 +と,は独立でなくても無相関となりうる。無相関だが独立でない例
8(1,0) = 8(2,1) = 8(2, −1) = 1/3 それ以外の8(+, ,)は0の場合 周辺分布 8-(1) = 1/3, 8-(2) = 2/3 よって>[+] = 5/3 8.(0) = 8.(1) = 8.(−1) = 1/3 よって>[,] = 0 COV +, , = × (0 + 2 − 2) − × 0 = 0なので無相関。 しかし8 +, , ≠ 8- + 8.(,)なので独立ではない。 / 0 1 2 1 −12変量正規分布
, /の二変量正規分布 周辺化分布はガウス分布となる 8 , / = 1 2cY-Y. 1 − d × exp −2 1 − d1 ( − XY -) - − 2d( − X-)(/ − X.) Y-Y. + (/ − X.) Y. 8- = J K/ 8 , /h Dh = 1 2cY- exp − − X -2Y -8. / = J K/ 8 , /h Dh = 1 2cY. exp − − X. 2Y. ※ d:相関係数2変量正規分布の立体図
-4 -3 -2 -1 0 1 2 3 4 -4 -3-2 -1 0 1 2 3 4 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 / 8( , /) X- = 0, Y- = 1, X. = 0, Y. = 1, d = 0.4-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16