I L01( Wed) : Time-stamp: Wed 07:38 JST hig e, ( ) L01 I(2017) 1 / 19

(1)

データの分布

樋口さぶろお

龍谷大学理工学部数理情報学科

確率統計☆演習I L01(2017-09-20 Wed) 最終更新: Time-stamp: ”2017-09-20 Wed 07:38 JST hig”

今日の目標 eラーニングシステムで学習できるメールで連絡を受け取れるデータから,手で度数分布表とヒストグラムが作れる http://hig3.net

(2)

はじめにこの授業どんなのり?

ここまで来たよ

1 はじめにこの授業どんなのり? 2 データの分布データとは? 度数分布表ヒストグラム

(3)

学習目標

講義概要 _→ シラバス現実世界の現象を理解し,数理モデルとの関係を明らかにするためには, 観察・実験により取得したデータを整理・解析することが必要です. データを整理して表現する記述統計と,限られたデータから数理モデルのパラメタを推測する推測統計を説明します. ただし,量的1変数の場合を主に扱います. これに必要な範囲で確率論を説明します. 数式を用いた解析, ソフトウェアによる解析の両方に習熟してもらいます. 到達目標 _→ シラバス実験・観察により取得した量的1,2変数データを統計的に整理して表現し,他者に対して説明できる. データから数理モデルのパラメタを推測して,根拠とともに他者に説明できる. データから仮説を立てて検証し,他者を説得できる.

(4)

確率統計☆演習 I を履修してはいけない理由

次のどれも響かない人は履修しないことを奨めます. コア選択必修M (3年前期)確率統計☆演習II, 計算科学☆実習Bの前提科目数学の教員免許の必修科目新課程の高校の高校数学 I(データの分析)=毎年センター試験に出題,高校数学 A(場合の数と確率),高校数学 B(確率分布と統計的推測) 教育の評価に統計は必要いま,統計学が熱い!

いま,ビッグデータ,人工知能(AI),機械学習(machine learning)が熱

い!!

統計は科学技術の言葉 _⇝ 数理卒は当然期待されてる

(5)

(6)

こんなことに答えます

1 高校の数学で,こういう教え方導入したら,ちょっとだけ平均点が上がった. これ効果あったって言っていいの? 2 YouTubeから猫の動画を見つけるアルゴリズム,こう改良して, 100 個の入力画像で試したら,判定精度がちょっとあがった. これで結論だしていいの? 10000個でやり直すべき?n 3 秋元PはチームAにチームKより身長高いメンバーをいれてる説を唱えたけどみんな信じてくれない…どうやって説得する?

(7)

確率統計☆演習 I ののり

成績計算難しくないけどとにかく注文の多い科目です… 科目の成績100ピーナッツは 25ピーナッツ:毎回授業での非参照quiz,eラーニングの予習問題,授業時間内の活動,それほどたいへんじゃないレポートなど 30ピーナッツ:プチテスト(11月) http://www.toukei-kentei.jp3級で一部分を代用可能. 45ピーナッツ:ファイナルトライアル(定期試験期間) その他追加ピーナッツ.その時に説明. その時点のピーナッツにかかわらず,ファイナルトライアルに参加しないと合格にはなりません.ファイナルトライアル時点で15ピーナッツ未満の人も, (平均点を上げるために)参加をすすめますが,追試験はなし. 欠席届毎回出席を前提に進めます. やむを得ず欠席して,ピーナッツ的に考慮されたい場合は,専用用紙に事情を説明する書類を貼って,授業前後各5分に提出(事前事後とも可.ファイナルトライアルが締切).欠席に事前連絡は原則不要.何回欠席してもファイナルトライアル参加資格を失うことはありません.

(8)

担当者ののり

なまえ: 樋口さぶろお hig-probstat へや: 1-502 樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614) Webページ: http://hig3.net (表紙にQRコード)演習の指示や, スケジュールもここから.

(9)

教科書やその他の準備

必須です. 西川確率統計 https://www.amazon.co.jp/product/dp/4781913555 ソフトウェア表計算ソフトウェアMicrosoft Excelを演習で使います. 龍大生はOﬃce365で無料で入手可能. http://portal.office.com 電卓平方根(ルート)のあるもの. スマホアプリでも可.

(10)

1 週間のタイムライン

1 木09:00ごろまでに予習復習問題(=Trial予想問題)をLearn Math

Moodleで公開Trialまでの最高点を記録. 2 水1の最初 Trial(=小テスト) 参照不可相談不可(水1までにやったことについて,水1の最後にTrial するパターンも) 3 水₁ チーム別エリア座席指定_. 講義のような演習のような_. チームで何かやったり. 4 水1の最後来週のTrialの予告 5 樋口オフィスアワー月_3.5(1-539)金_{4(1-502), Math}ラウンジ月_-木昼 (1-614)

Learn Math Moodleを使ってみよう

http://hig3.net → Learn Math Moodle (全学認証)→ 確率統計☆演習

(11)

データの分布データとは?

ここまで来たよ

(12)

データの分布データとは?

1 変数の量的データ

某アイドル集団群+某バレーボール選手(1名)の身長のデータ. 148cm 148.5cm 149cm . . . 185cm http://girlsgroupguide.com/ このコースの最後までいくと問えること(正確な表現ではありません) オーディションにおいて,身長は考慮されているか? チーム編成において,身長は考慮されているか? .. .

(13)

データの分布度数分布表

ここまで来たよ

(14)

度数分布表

高校数学 I 西川確率統計§5.1.1 階級度数相対度数 145 より大きく 150 以下 7 0.09 150 より大きく 155 以下 17 0.22 155 より大きく 160 以下 29 0.37 160 より大きく 165 以下 19 0.24 165 より大きく 170 以下 4 0.05 170 より大きく 175 以下 1 0.01 175 より大きく 180 以下 0 0.00 180 より大きく 185 以下 1 0.01 185 より大きく 190 以下 0 0.00 合計 78 1.00 階級幅は一定で相対ナントカ(比率)の合計が1にならないとき. 度数分布表と限らず一般に,無視して1と書くか,相対誤差が小さい行で調整. 以下,以上,未満(=より小さい), より大きい

自分の言葉でどうぞ

(15)

度数分布表の作り方

高校数学 I 西川確率統計§5.1.1 階級=一定間隔で区切った区間,下品な?言葉 ‘bin’ ビン. いくつに分けるか? 一概には言えないけど,切りのいい値にしちゃっていい. 階級幅=区間の幅階級値=その階級のまん中の値度数=その範囲に入ってるデータの個数データ全体の個数=度数の合計= n 相対度数=度数/データ全体の個数 (%で書くことも)

(16)

データの分布ヒストグラム

ここまで来たよ

(17)

データの分布ヒストグラム

ヒストグラム

高校数学 I 西川確率統計§5.1.1 某アイドル集団+1の身長分布身長(cm) 度数 0 5 10 15 20 25 30 145 150 155 160 165 170 175 180 185 ‘度数分布表を棒グラフにしたもの’ 基本レベルでは階級幅は一定_⇝ 本当は高さでなく面積階級の個数や階級幅は指定がなければ, 見やすいように決めてよい. ▶ 階級の幅=超大きい⇝ 長方形 1 個 ▶ 階級の幅=超小さい⇝ ?? ヒストグラムに限らず,グラフの縦軸横軸には量の名と単位を明示

(18)

データの分布ヒストグラム L01-Q1

Quiz(度数分布表とヒストグラムを作ろう)

度数分布表とヒストグラムを手で作ろう. 全盛期のデータ. 名前年齢中野郁海 14.1 大和田南那 15.2 川本紗矢 16.4 大島涼花 16.2 加藤玲奈 17.9 宮脇咲良 17.1 小嶋真子 17.9 白間美瑠 17.6 高橋朱里 17.1 向井地美音 17.0 森保まどか 17.6 松井珠理奈 18.1 渋谷凪咲 18.4 田野優花 18.4 矢倉楓子 18.1 兒玉遥 18.4 入山杏奈 19.0 生駒里奈 19.0 木崎ゆりあ 19.2 川栄李奈 20.7 武藤十夢 20.8 山本彩 21.4 島崎遥香 21.7 渡辺麻友 21.5 渡辺美優紀 21.2 峯岸みなみ 22.0 指原莉乃 22.0 横山由依 22.1 松井玲奈 23.7 柏木由紀 23.2 須田亜香里 23.2 高橋みなみ 23.0 宮澤佐江 24.2 小嶋陽菜 26.9 学籍番号奇数の人は5刻みで. 10-15,15-20,. . . , 学籍番号偶数の人は4刻みで. 12-16,16-20,. . . , 以上,以下,未満,より大きい,は自分で正しく決めて.

(19)

データの分布ヒストグラム連絡次回は 7-002講義室配布資料は1-503向かい掲示板前の引出, http://hig3.netで再配布しています. 樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼(1-614) 次回からは,加減乗除と平方根(ルート)の使える電卓持ってきて. 関数電卓でなくても可. スマホアプリでも可. Trial 予告来週は教科書西川確率統計§5.1.2 代表値 §5.1.3 散らばりの尺度読んできて. 統計検定. 2017-11-26一般受験,団体割引希望の人は樋口まで).

(20)

データの代表値・散らばりの尺度

樋口さぶろお

確率統計☆演習I L02(2017-09-27 Wed) 最終更新: Time-stamp: ”2017-10-03 Tue 09:48 JST hig”

今日の目標

データ,度数分布表,ヒストグラムから

▶ 中央値, 四分位数, 平均値, 最頻値を求められ

(21)

略解:データの分布 L01-Q1 Quiz 解答:度数分布表とヒストグラムを作ろう階級 (歳) 度数 10 より大きい 15 以下 1 15 より大きい 20 以下 18 20 より大きい 25 以下 14 25 より大きい 30 以下 1 計 34 階級 (歳) 度数 12 より大きい 16 以下 2 16 より大きい 20 以下 17 20 より大きい 24 以下 13 24 より大きい 28 以下 2 計 34 このデータの場合はたまたま, 以上未満でも同じ. AKB48の年齢分布年齢(年) 度数 10 15 20 25 30 0 5 10 15 20 AKB48の年齢分布年齢(年) 度数 0 5 10 15 20 12 16 20 24 28 たまたま形が似たけど, 階級の取り方でヒストグラムの形は変化する.

(22)

データの代表値・散らばりの尺度中央値と四分位数

ここまで来たよ

3 略解:データの分布 4 データの代表値・散らばりの尺度中央値と四分位数最頻値平均値レンジ(範囲,range)・四分位偏差分散・標準偏差・平均偏差

(23)

代表値:データを 1 個の値で代表させたい!

西川確率統計 5.1.2 縮約値=代表値某国民的アイドル集団の身長はだいたい150cm? 170cm? データ全体 148 152 . . . 170 階級(cm) 度数fi 145より大きく150以下 7 150より大きく155以下 17 155より大きく160以下 29 160より大きく165以下 19 165より大きく170以下 4 170より大きく175以下 1 合計 77 身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30

(24)

今日やる様々な表現方法の間の変換

箱ひげ図ヒストグラム度数分布表 (生) データ代表値中央値(+四分位数) 平均値最頻値(ヒストグラム,データの) 散らばりの尺度レンジ,四分位偏差, IQR 分散,標準偏差,平均偏差 — 見やすい・直観的 _↔ 詳しい・正確

(25)

中央値 (median) と四分位数/値/点 (quartile)

身長 x のデータを小さい順に並び替えたものを, x(1)≤ x(2)≤ · · · ≤ x(N ) とする. 例 n = 11 i 1 2 3 4 5 6 7 8 9 10 11 xi 9 17 9 12 13 10 15 13 13 12 11 i 1 2 3 4 5 6 7 8 9 10 11 x(i) 9 9 10 11 12 12 13 13 13 15 17 i y 0 5 10 15 → 順にならべる i y 0 5 10 15

(26)

四分位数のアバウトな定義

西川確率統計 p.96 最小値 Q0= x(1) ≈ x₍0 4N ) 第1四分位数 Q1= x₍1 4N ) 第2四分位数 Q2= x₍2 4N )= 中央値第3四分位数 Q3= x₍3 4N ) 最大値 Q4= x₍4 4N ) y 5 10 15

(27)

四分位数の正確な定義

高校数学 I 西川確率統計 p.96 注意 5 Q0, Q4 さっきのまま. Q2 =        x (N +1₂ )=

真ん中の値

(N が奇) 1 2(x₍N 2) + x (N₂+1)) =

真ん中

2 個の和

/2

(N が偶) Q1は, Q2の位置より前にあるデータ(Q2自身は除く)の中央値 Q3は, Q2の位置より後にあるデータ(Q2自身は除く)の中央値 Q2 と同じ値のデータが複数あるときも1個だけ除くちょっと変えた例: y 10 11 12 12 13 13 13 15 17

(28)

データの代表値・散らばりの尺度中央値と四分位数度数分布表からの中央値と四分位数の求め方西川確率統計 5.6 階級値=階級の(上限値+下限値)/2 階級(cm) 階級値mi 度数fi 145より大きく150以下 147.5 7 150より大きく155以下 17 155より大きく160以下 29 160より大きく165以下 19 165より大きく170以下 4 合計N — 77

自分の言葉でどうぞ

(29)

データの代表値・散らばりの尺度中央値と四分位数ヒストグラムからの中央値・四分位数の求め方 身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30

自分の言葉でどう

ぞ

i y 0 5 10 15 i y 0 5 10 15

(30)

データの代表値・散らばりの尺度最頻値

ここまで来たよ

(31)

データの代表値・散らばりの尺度最頻値

最頻値=mode

西川確率統計なし

最頻値

の定義

離散データの最頻値: ‘離散的な’データのときいちばん多く繰り返し現れる値ヒストグラムの最頻値: ‘連続的または離散的な’データのとき度数分布表/ヒストグラムで,度数最大の階級の階級値離散的な例1(30 50 55 55 60 70 70 70 75 100)だと

70

ヒストグラムの最頻値の求め方階級 (cm) 度数 fi 145 より大きく 150 以下 7 150 より大きく 155 以下 17 155 より大きく 160 以下 29 160 より大きく 165 以下 19 165 より大きく 170 以下 4 170 より大きく 175 以下 1 合計 77 ヒストグラムの最頻値の意味 身長の分布 身長(cm) 度数 145 150 155160 165 170175 0 5 10 15 20 25 30

自分の言葉でどうぞ

(32)

データの代表値・散らばりの尺度平均値

ここまで来たよ

(33)

データの代表値・散らばりの尺度平均値

平均値=mean

平均値の定義

西川確率統計 5.1.2 n個のデータx1, x2, . . . , xN に対して, 平均値 x = 1 N N ∑ i=1 xi x のかわりにm, mx などという記号もある. 例: 30 50 55 55 60 70 70 70 75 100だと

63.5

中央値より平均値のいい点

自分の言葉で

*0.4

平均値より中央値のいい点

自分の言葉で

*0.4

(34)

データの代表値・散らばりの尺度平均値 L02-Q1

Quiz(代表値)

次のデータを考える. 14cm, 14cm, 15cm, 16cm, 18cm, 18cm, 18cm, 25cm 1 四分位数 Q₁, Q₂, Q₃ を求めよう. 2 (離散データの)最頻値を求めよう 3 平均値を求めよう

(35)

データの代表値・散らばりの尺度平均値度数分布表からの平均値の求め方西川確率統計 5.1.6 x≈ 1 n k ∑ i=1 mifi= ∑k i=1mifi ∑k i=1fi i番目の階級の階級値 mi,度数 fi. ヒストグラムからの平均値の求め方 身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30 重心の座標xG= ∑ ixiMi ∑ iMi 力学 i番目の質点の位置xi,質量 Mi

あとは自分の言葉で

*0.4

(36)

データの代表値・散らばりの尺度平均値 L02-Q2

Quiz(平均値中央値最頻値)

次のヒストグラムから求めよう. 1 中央値 2 (ヒストグラムの)最頻値 3 平均値度数 9 11 13 15 17 19 21 23 25 27 0 1 2 3

(37)

データの代表値・散らばりの尺度レンジ (範囲,range)・四分位偏差

ここまで来たよ

(38)

平均値が同じでも分布はいろいろ

F re qu en cy 16 18 20 22 24 26 28 0 1 2 3 4 F re qu en cy 16 18 20 22 24 26 28 0 1 2 3 4 F re qu en cy 0 1 2 3 4 F re qu en cy 0 1 2 3 4

(39)

(40)

レンジ・四分位偏差の定義 I

範囲タイプの量の定義

高校数学 I 西川確率統計 p.97

範囲(レンジ) =

Q

4

− Q

0

四分位範囲(interquartile range) IQR=

Q

₃

− Q

₁

四分位偏差(quartile deviation) =

1

2

(Q

3

− Q

1

)

L02-Q3

Quiz(範囲)

次のデータの,範囲,四分位範囲,四分位偏差を求めよう.

(41)

データの代表値・散らばりの尺度レンジ (範囲,range)・四分位偏差ヒストグラムからの範囲・四分位偏差の求め方 身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30 i y 0 5 10 15 → 並べかえ i y 0 5 10 15

(42)

データの代表値・散らばりの尺度分散・標準偏差・平均偏差

ここまで来たよ

(43)

分散・標準偏差・平均偏差の定義

高校数学 I 西川確率統計 p.98 データ: x1, x2, . . . , xN.

分散・標準偏差・平均偏差の定義

データの分散(variance): (偏差)2の平均 S2 = 1 N N ∑ i=1 (xi− x)2 データの標準偏差(standard deviation)=

S =

√

S

2

≥ 0

データの平均偏差(mean deviation): d = 1 N N ∑ i=1 |xi− x|

(44)

(例) 某国民的アイドル集団 (77 人) の身長 I

身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30 n− 1 = 77 − 1で割りたくなった人もいるかも. ここは77でOK そのうちちゃんと区別を説明します. データの単位_̸=分散の単位平均値 x = 148+148.5+₇₇···+172.3 = 158(cm) 分散 S2 = (148−158)2+(148.5−158)₇₇ 2+···+(172.3−158)2 = 26.0 (cm2) 標準偏差 S =√26.0 = 5.1 (cm)

(45)

(例) 某国民的アイドル集団 (77 人) の身長 II

L02-Q4

Quiz(平均値・分散・標準偏差)

データ 87kg, 93kg, 89kg, 91kg, 90kgの平均値・分散・標準偏差を求めよう. 分散の便利な(こともある)計算方法高校数学 I 西川確率統計定理 5.1(p.100) 度数分布表からの分散・標準偏差の求め方高校数学 I 西川確率統計 p.104 ヒストグラムからの標準偏差の求め方

(46)

データの代表値・散らばりの尺度分散・標準偏差・平均偏差連絡

配布資料は1-503向かいの引出や http://hig3.netで再配布.

加減乗除と平方根(ルート)の使える電卓持ってきてね. 関数電卓で

なくてもいいです. 携帯電話の機能・アプリでもかまいません.

Learn Math Moodleの予習復習問題で来週の trialに備えてね.

樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614) 来週は教科書西川確率統計 5.1.4, 5.1.5読んできて統計検定のディスカウント受験受付中(– 2017-10-09月) 樋口まで. 3級合格者はプチテストの点数の一部として使用可. 過去の2年生の受験体験記より: 僕は、数学教員を目指しており、数学を専門にするなら統計学の知識はある程度つけておきたいと思ったことと、いろいろと資格に挑戦しようと思い、3 級を受験しました。(略) また、僕は授業を受ける前に検定を受けたのですが、2 年の後期に「確率統計及び演習」という授業があり、この授業では 3 級や 2 級に出てくる公式や統計に関する知識を

(47)

箱ひげ図・データの変換・標準得点・2 変量データ

樋口さぶろお

確率統計☆演習I L03(2017-10-04 Wed) 最終更新: Time-stamp: ”2017-10-04 Wed 13:22 JST hig”

今日の目標複数の箱ひげ図,ヒストグラムから分布の性質を記述できるデータを1次関数で標準得点に変換して平均値と分散を比較できる 2変量データの共分散,相関係数が求められる http://hig3.net

(48)

略解:データの代表値・散らばりの尺度 L02-Q1 Quiz解答:代表値 1 _Q₂ _{= 17cm, Q1}_{= 14.5cm, Q3} _{= 18cm.} 2 最頻値は18cm. 3 平均値は (14 +· · · + 25)/8 = 17.25cm. L02-Q2 Quiz解答:平均値中央値最頻値 N = 9. 1 中央値 Q₂= x₍₅₎. よって階級21–23に含まれる. x(5) ≈ 21 + 2 × 1.5₂ = 22.5. 2 階級値を答えて, 10 3 1 9(10× 3 + 22 × 2 + 24 × 2 + 26 × 2) = 19.3

(49)

略解:データの代表値・散らばりの尺度 L02-Q3 Quiz解答:範囲範囲はQ4− Q0 = 25− 14 = 11, 四分位範囲は Q3− Q1 = 18− 14.5 = 3.5,四分位偏差は 1₂(Q3− Q1) = 1.75. L02-Q4 Quiz解答:平均値・分散・標準偏差平均値= 90kg, 分散 = 4kg2,標準偏差= 2kg.

(50)

箱ひげ図・データの変換・標準得点・2 変量データ箱ひげ図

ここまで来たよ

2 略解:データの代表値・散らばりの尺度 3 箱ひげ図・データの変換・標準得点・2変量データ箱ひげ図分散の意味と平均値・分散・標準偏差の変換変動係数・標準得点・偏差値 4 2変量データ 2変量データとクロス集計表・散布図 2変量データの相関

(51)

箱ひげ図 (Box Plot, Box and Whisker diagram)

西川確率統計 p.97

150 155 160 165 170 某アイドル集団の身長の分布 身長(cm) 某アイドル集団最小最大値 Q0, Q4, 四分位点 Q1, Q2, Q3

箱ひげ図を描く手順

高校数学 I Q0, Q4 Q1,Q2,Q3 と平均値x を求める Q2に縦線をいれる Q1,Q3を左右の端として箱を描く Q0,Q4に短い縦線をいれ,点線のひげで箱とつなぐ平均値に+を1個描くこの他に「外れ値を○で描く」こともある. いまの場合,横軸:身長(cm),縦軸:意味なし

(52)

スタートテストの結果

2年生 3年生以上 20 40 60 Placement Total 学年 2年生 3年生以上 0 25 50 75 100 0.0 2.5 5.0 7.5 10.0 0.0 2.5 5.0 7.5 10.0 点数度数縦軸の意味,ヒストグラムとの使い分け

自分の言葉で

用語裾(すそ,tail)が重い=裾をひいた右/左に裾が長い=左/右に偏った

自分の言葉で

(53)

箱ひげ図・データの変換・標準得点・2 変量データ分散の意味と平均値・分散・標準偏差の変換

ここまで来たよ

(54)

分散の意味 I

L03-Q1

Quiz(分散の意味)

あるクラスで行われたテストで,英語の平均点は60点,標準偏差10点. 数学の平均点は60点,標準偏差20点. 英語の70点と数学の70点,どちらのほうが価値ある? 次のうちから正しいものを1つ選ぼう. 1 たぶん英語のほうが価値ある 2 たぶん数学のほうが価値ある 3 どちらも同じ 4 これだけの情報ではまったくわからない 5 平均点が60点だと再テストがあるだろう

(55)

平均値・分散・標準偏差の変換

西川確率統計§5.1.4

x から y への変換

データ x1, x2, . . . , xn, xの平均値 x,分散 Sx2,標準偏差 Sx がわかってるとする. yi = axi+ b で新しいデータを作る(a, b 定数). データ y1, y2, . . . , yn, y の平均値 y, 分散S2y,標準偏差Sy はどうやって求める? 例: 身長の換算y = 1.8(m) ← x = 80(cm) y = ax + b,

a = 0.01, b = 1

(56)

平均値, 分散, 標準偏差の変換

西川確率統計定理 5.2(p.101) y = ax + b のとき 1 y = ax + b 2 S2 y =|a|2× Sx2 3 _S_y ₌|a| × S_x L03-Q2

Quiz(平均値・分散・標準偏差の換算)

ある集団の身長(みんな大人で100cm以上)を, cm で書いたものの下2 桁 x cmの,平均値は60cm, 分散は 25cm2 だった. m で書いた身長 y mの平均値と分散と標準偏差を求めよう.

(57)

箱ひげ図・データの変換・標準得点・2 変量データ変動係数・標準得点・偏差値

ここまで来たよ

(58)

身長と靴のサイズじゃ標準偏差の意味が違う!

西川確率統計§5.1.5 Berryz工房内で,身長の標準偏差は20cmくらいだけど,靴のサイズの標準偏差は3cmくらい. 標準偏差が大きい =いろんな体格の人がいるみたいに思いたいけど,身長と靴のサイズじゃ標準偏差の意味が違う.

変動係数 (coeﬃcient of variation)

(データx全体の)変動係数= Sx x × 100 これは無次元の数. すなわち単位がない量.

単位を変更しても同じ値になる

. 分散平均値だと無次元の数にはならない.

(59)

標準得点

標準得点 (standard score, z-score, z 得点)

(値xiの)標準得点zi= xi− x Sx 平均値から,上下どちらに,標準偏差の何倍離れているかを表す値. 例 n = 5 i 1 2 3 4 5 平均値標準偏差データ xi 15 13 12 11 9 12 2 標準得点 zi 1.50 0.5 0 −0.5 −1.50 0 1 L03-Q3

Quiz(標準得点と偏差値)

データ xは87, 93, 89, 91, 90で与えられる. 87の標準得点と偏差値を求めよう.

(60)

標準得点の性質

標準得点 z の性質

z =

0

S_z2 =

1

, Sz=

√

1 = 1

z の単位は

m

,無次元の数. 身長が 180cm, 80cm, 1.8m どれでも同じ結果. なぜなら… いま

a =

_S

1

x

, b =

−

x

S

x . z =ax + b = 1 Sx · x − x Sx = 0.

(61)

偏差値

学力データ(テストの点数や成績?)によく使われる. 受験者1人1人の成績が,平均値から上,または下に離れている程度を見られる.

偏差値

(値xiの)偏差値w =10zi+ 50 =xi− x Sx × 10 + 50. a = , b = 異なるテスト,クラスでも比べられる. 偏差値の平均値は

50

,偏差値の標準偏差は

10

偏差値はまあ‘無次元の数’(1000点満点と100点満点を比較可能)

(62)

箱ひげ図・データの変換・標準得点・2 変量データ変動係数・標準得点・偏差値 L03-Q4

Quiz(偏差値)

(学力)偏差値について,次のうち正しいのはどれ(とどれ)? 1 偏差値の最低値は₀である 2 偏差値の最高値は75である 3 平均点(をとった人)の偏差値は50である 4 ₁₀₀点のテストで満点を取った場合の偏差値は_,他の人の成績しだいである 5 偏差値50の人の順位は上から1/2程度である 6 偏差値₆₀の人の順位は上から_15% 程度である_.

(63)

2 変量データ 2 変量データとクロス集計表・散布図

ここまで来たよ

(64)

2 変量データ

これまでやってたのはぜんぶ1変量データ. 2変量データはこんな例. (x, y)などと書く. x, y は各チームのデータ. x 勝利数 y (打った)シュート数 z 失点 JリーグDiv1. 2014年の34試合. データの個数 n = 18(チーム). (チーム名) x y z ベガルタ仙台 9 347 50 鹿島アントラーズ 18 512 39 .. . ... ... ... 計 _{· · ·} _{· · ·} _{· · ·} 他にも…(x, y) =(身長(cm), 体重(kg)), (人口 (人), 面積 (m2_{), (}_打率_,_本塁打数_{), (}_カロリー,糖分含有量). . ..

(65)

散布図=相関図

西川確率統計§5.2.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 5 10 15 0 100 200 300 400 500 J League Division 1 (2014) 34試合 勝利数シュート数

勝利数が多い

↔

(

打った

)

シュート回数が多い

?

(66)

クロス集計表と周辺分布

x:勝利数, y (打った)シュート数クロス集計表度数分布表の2変数版上の表では…になってる18チーム全部のデータから作りました. ↓ y \xの階級_{→ 0}以上5未満 10未満 15未満 20未満計 200以上250未満 1 1 250以上300未満 1 1 300以上350未満 2 3 1 6 350以上400未満 1 4 3 8 400以上450未満 1 1 450以上500未満 0 0 500以上550未満 1 1 計 1 4 7 6 18 周辺分布とは

自分の言葉で

(67)

2 変量データ 2 変量データの相関

ここまで来たよ

(68)

正の相関・負の相関・無相関

西川確率統計§5.2.3 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 強い正の相関弱い正の相関無相関弱い負の相関強い負の相関 r = 0.99 r = 0.55 r = 0 r =−0.55 r =−0.99 相関 ‘正の相関’: xが大きい ⇔ y が大きい ‘負の相関’: xが大きい ⇔ y が小さい強い/弱い: 傾向がはっきりしている/していない r: 相関係数計算方法は以下.

(69)

共分散

高校数学 I 発展西川確率統計§5.2.3 相関の強さを数で表したい xの平均値x =1 N N ∑ i=1 xi xの分散 S_x2 =1 N N ∑ i=1 (xi− x)2= 1 N N ∑ i=1 (xi− x)(xi− x) y, S_y2 も同様.

共分散 (covariance)

x, yの共分散Cxy = 1 N N ∑ i=1 (xi− x) × (yi− y) 注: Cxy = Sxy, xの分散をSx2= Sxx, yの分散をSy2= Syy と書く自然な記法がある.

(70)

2 変量データ 2 変量データの相関 L03-Q5

Quiz(共分散)

1 x, y の共分散を求めよう 2 x, yの相関係数を求めよう. ただし, yの標準偏差= √ 122 5 = 4.94は使っちゃっていい. x y 1 5 3 15 4 14 5 11 7 20

(71)

共分散の意味

西川確率統計 p.110 X Y (+,+) (−,−) (−,+) (+,−) Xの平均値 Yの平均値 (+,−) = (xi− xの符号, yi− yの符号). 共分散が正に/負に大きい_⇔ 正の/負の相関が強い(?) なぜなら

自分の言葉で

しか∼し(次のスライド)

(72)

相関係数

高校数学 I 西川確率統計 p.111 共分散は x, y の1次関数による変換で変わる西川確率統計定理 5.4(p.112) 次元のある量なので単位を変えると

値が変わる

→ 比較に不便広い範囲にばらついていたほうが

大きくなる

相関係数は,これらの影響を受けずに,相関の強さをそのまま表す.

相関係数 (correlation coeﬃcient)

x, yの相関係数r = Cxy S × S

(73)

相関係数の性質

相関係数は

無次元の量

−1 ≤ r ≤ +1 西川確率統計定理 5.5(p.114) r = 0⇔ ’無相関’しかし…(待て次回) r =±1 ⇔散布図の点が傾き正/負の一直線上 ⇔ yはxの1次関数. 西川確率統計定理 5.7(p.115) r は x, yの1次関数による変換のもとで不変西川確率統計定理 5.6(p.114)

(74)

2 変量データ 2 変量データの相関連絡次回は 1-609実習室. 動画見ます. イヤフォン持ってきて. Excel使います. 慣れてない人は Excel入門コースで第4章2 までやっておいて. https://moodle.media.ryukoku.ac.jp 配布資料は1-503向かいの引出や http://hig3.netで再配布. 加減乗除と平方根(ルート)の使える電卓持ってきてね. 関数電卓でなくてもいいです. 携帯電話の機能・アプリでもかまいません.

Learn Math Moodleの予習復習問題で来週の trialに備えてね.

樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614)

来週は教科書西川確率統計 5.2.4, 5.2.5, 5.2.6読んできて

統計検定のディスカウント受験受付中(– 2017-10-09月) 樋口まで. 3級

(75)

2 変量データの共分散・相関係数・回帰分析

樋口さぶろお

今日の目標 2変数の量的データから,手で共分散と相関係数と回帰直線が求められる 1変数の量的データから, Excelで代表値・分散が求められる 2変数の量的データから, Excelで共分散と相関 http://hig3.net 樋口さぶろお (数理情報学科) L04 2 変量データの共分散・相関係数・回帰分析確率統計☆演習 I(2017) 1 / 24

(76)

箱ひげ図・データの変換・標準得点 L03-Q1 L03-Q2 Quiz解答:平均値・分散・標準偏差の換算 1.6m, 0.0025m2, 0.05m. L03-Q3 Quiz解答:標準得点と偏差値平均値x = 90, 分散 S_x2 = 4,標準偏差Sx= 2. 標準得点z = (87− 90)/2 = −1.5. 偏差値w = (−1.5) × 10 + 50 = 35.

(77)

2 変量データの共分散・相関係数・回帰分析 2 変量データとクロス集計表・散布図

ここまで来たよ

1 箱ひげ図・データの変換・標準得点 2 2変量データの共分散・相関係数・回帰分析 2変量データとクロス集計表・散布図 2変量データの相関回帰分析 Excelで統計

(78)

2 変量データ

これまでやってたのはぜんぶ1変量データ. 2変量データはこんな例. (x, y)などと書く. x, y は各チームのデータ. x 勝利数 y (打った)シュート数 z 失点 JリーグDiv1. 2014年の34試合. データの個数 n = 18(チーム). (チーム名) x y z ベガルタ仙台 9 347 50 鹿島アントラーズ 18 512 39 .. . ... ... ... 計 _{· · ·} _{· · ·} _{· · ·} 他にも…(x, y) =(身長(cm), 体重(kg)), (人口 (人), 面積 (m2_{), (}_打率_,_本塁打数_{), (}_カロリー,糖分含有量). . ..

(79)

散布図=相関図

西川確率統計§5.2.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 5 10 15 0 100 200 300 400 500 J League Division 1 (2014) 34試合 勝利数シュート数

勝利数が多い

↔

(

打った

)

シュート回数が多い

?

(80)

クロス集計表と周辺分布

x:勝利数, y (打った)シュート数クロス集計表度数分布表の2変数版上の表では…になってる18チーム全部のデータから作りました. ↓ y \xの階級_{→ 0}以上5未満 10未満 15未満 20未満計 200以上250未満 1 1 250以上300未満 1 1 300以上350未満 2 3 1 6 350以上400未満 1 4 3 8 400以上450未満 1 1 450以上500未満 0 0 500以上550未満 1 1 計 1 4 7 6 18 周辺分布とは

自分の言葉で

(81)

2 変量データの共分散・相関係数・回帰分析 2 変量データの相関

ここまで来たよ

(82)

正の相関・負の相関・無相関

西川確率統計§5.2.3 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 強い正の相関弱い正の相関無相関弱い負の相関強い負の相関 r = 0.99 r = 0.55 r = 0 r =−0.55 r =−0.99 相関 ‘正の相関’: xが大きい ⇔ y が大きい ‘負の相関’: xが大きい ⇔ y が小さい強い/弱い: 傾向がはっきりしている/していない r: 相関係数rxy とも書く. 計算方法は以下.

(83)

共分散

高校数学 I 発展西川確率統計§5.2.3 相関の強さを数で表したい xの平均値x =1 N N ∑ i=1 xi xの分散 S_x2 =1 N N ∑ i=1 (xi− x)2= 1 N N ∑ i=1 (xi− x)(xi− x) y, S_y2 も同様.

共分散 (covariance)

x, yの共分散Cxy = 1 N N ∑ i=1 (xi− x) × (yi− y) 注: Cxy = Sxy, x分散をSx2 = Sxx, yの分散 Sy2= Syy と書く自然な記法がある.

(84)

共分散の意味

西川確率統計 p.110 X Y (+,+) (−,−) (−,+) (+,−) Xの平均値 Yの平均値 (+,−) = (xi− xの符号, yi− yの符号). 共分散が正に/負に大きい_⇔ 正の/負の相関が強い(?) なぜなら

自分の言葉で

しか∼し(次のスライド)

(85)

相関係数

高校数学 I 西川確率統計 p.111 共分散は x, y の1次関数による変換で変わる西川確率統計定理 5.4(p.112) 次元のある量なので単位を変えると

値が変わる

→ 比較に不便広い範囲にばらついていたほうが

大きくなる

相関係数は,これらの影響を受けずに,相関の強さをそのまま表す.

相関係数 (correlation coeﬃcient)

x, yの相関係数r = Cxy Sx× Sy

(86)

相関係数の性質

相関係数は

無次元の量

−1 ≤ r ≤ +1 西川確率統計定理 5.5(p.114) r = 0⇔ ’無相関’しかし…(待て次回) r =±1 ⇔散布図の点が傾き正/負の一直線上 ⇔ yはxの1次関数. 西川確率統計定理 5.7(p.115) r は x, yの1次関数による変換のもとで不変西川確率統計定理 5.6(p.114)

(87)

2 変量データの共分散・相関係数・回帰分析 2 変量データの相関 L04-Q1

Quiz(共分散と相関係数 (単位付き))

次の(xg, ycm) のデータがある 1 _{x, y} の共分散を求めよう 2 x, y の相関係数を求めよう. ただし, y の標準偏差 = √ 122 5 = 4.94(cm) は使っちゃっていい. x(g) y(cm) 1 5 3 15 4 14 5 11 7 20

(88)

2 変量データの共分散・相関係数・回帰分析回帰分析

ここまで来たよ

(89)

回帰分析

西川確率統計§5.2.4 回帰(regression), 直線回帰=単回帰分析=1変数回帰分析物理実験 2変量データ(x, y)が相関係数 r =±1 に近い_⇔散布図上のデータ点(x, y) がほぼ直線に載っているその直線(

回帰直線

)の式 y = ax + b を知りたい! つまり

回帰係数

a, 定数項b を決めたい. 400 420 440 460 480 500 520 250 300 350 400 450 FK shoot.receiv ed y: 目的変数(従属変数) x: 説明変数(独立変数) 何でそんなことしたいの? 法則を見つけたい x から y を予測したい

(90)

回帰直線の決め方

1 定規をあてて‘真ん中’を通るように 2 最小₂乗法で_. 最小2乗法直線からのずれの2乗d2 の合計 L(a, b) = n ∑ i=1 d2_i = n ∑ i=1 (yi− (axi+ b))2 の最小条件 ∂L ∂a = ∂L ∂b = 0 でa, bを決める. 微積分 I Y

(91)

直線回帰の公式

回帰直線

西川確率統計定理 5.8, 式 (5.11) xi, yi (i = 1, . . . , n)の平均値をx, y,標準偏差をSx, Sy,相関係数をr とする. このとき回帰直線は, y= r× Sy Sx × ( x− x) + y = ax+ b. 傾きは a = r×Sy Sx = Cxy S2 x ,切片は b = (点 (x, y)を通るような値) a: 回帰係数(xを1だけ変えたときのyの変化量) r2: 決定係数(あてはまりのよさ) 西川確率統計§5.2.4 誤差 L(a, b) = N (1− r2)S2.

(92)

回帰直線の傾きのおぼえ方 I

広がり方散布図上のデータ点の分布は,横2Sx,縦 2Sy → 傾き S_Sy_x くらい? しか∼し,傾きには正負があるし,相関がなかったら傾きを0にしたいので,相関係数 r をかけ算しておく. 単位チェック (x, y) の単位が(m,kg)だとする. rは無次元. 単位無し. 左辺 y (kg). 右辺 r×Sy(kg) Sx(m) × x(m) + b(kg) で, Sx/Sy かけると単位があう.

(93)

2 変量データの共分散・相関係数・回帰分析回帰分析 L04-Q2

Quiz(回帰係数と回帰直線)

ある2変量データ(x, y) について次のことがわかっている. x の平均値 x 9 y の平均値 y −4 x の分散 s2 x 49 y の分散 s2_y 36 x, y の共分散sxy −25 (x, y) のデータの個数n 16 このとき,回帰直線の式を, x, yの式で書こう. 整理しなくてよい.

(94)

2 変量データの共分散・相関係数・回帰分析 Excel で統計

ここまで来たよ

(95)

準備

統計ソフトウェア実習室にインストールされているのは R 無料. オープンソース. 解説書が多い. SPSS 伝統ある高級品. Excel 機能は限られ怪しいところもあるが,普及率高い. 龍大では Oﬃce365で無料. 今日は Excelを使ってみます. スタートボタン >Excel 2016 統計分析のための準備ファイル>オプション>アドイン> Excelのアドイン>設定>分析ツールにチェックを入れて OKする.

(96)

表計算ソフトウェア (Excel) による主な分析

高校数学 I どこかの段階でデータ範囲を指定,または関数の引数にデータ範囲を指定．メニューベース関数ベース平均値, 分散, 標準偏差データ > 分析 >データ分析 >基本統計量>統計情報平均値 average, 分散 var.p, 標準偏差 stdev.p,最頻値mode 四分位数データ > 分析 >データ分析 >順位と百分位数中央値 median, 四分位数quartile 度数分布表,ヒストグラムデータ > 分析 >データ分析 >ヒストグラム>入力範囲とデータ区間 frequency +グラフ散布図挿入>グラフ>散布図共分散,相関係数データ > 分析 >データ分析 >共分散,相関 covar=covariance.p, correl 回帰分析データ > 分析 >データ分析 >回帰分析 linest クロス集計表挿入 > テーブル >ピボットテーブル行=横のセル

(97)

メニューベースの分析をするときの注意

Excelは, 1種類のデータは列方向(縦方向)にならんでいるとデフォルトでは想定する. 分析の種類によっては,列方向,行方向のどちらに並んでいるかを指定できるものもある. 2変量(n変量)の統計量である,共分散Sxyや相関係数rxyの出力は Sxx Syx Sxy Syy , rxx ryx rxy ryy のように行列状にになっている. Syyやryy は, y = xであるときのSxy, r.よく考えると, Syy= Sy2, ryy= 1であることに気づく. n≥ 3のときはn× n行列になる. 回帰分析の出力では ▶ 重相関 R = 相関係数 r ▶ 重決定 R2 = 決定係数 r2 ▶ 切片の係数 = 回帰直線の切片 b ▶ X 値 1 の係数 = 回帰係数 a ▶ _n_{≥ 3 の重回帰 (x}₁_{, x}₂_{, . . . , x}_n₋₁_{, y) というものがあり, そのときは X 値 2,}_{· · · などとなっ} ていく.

(98)

連絡

2017-10-18水は全学休講 2017-10-25水は,今回の内容に相当する trial はありません. そのかわり予習復習問題がExcelが必要なヘビーなものになる予定. 締切 2017-10-25水23:59 2017-10-25水は,事前に各自で動画で学習,授業中に演習,授業の最後に(その日の分の) trialとなる予定. 配布資料は1-503向かいの引出, http://hig3.netで再配布. 加減乗除と平方根(ルート)の使える電卓持ってきてね. 関数電卓でなくてもいいです. 携帯電話の機能・アプリでもかまいません. 樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614) 次回は西川確率統計§1.4,§2.1,§2.2,§2.3 から内容の一部分を選択して進みます.

(99)

離散型確率変数

樋口さぶろお

今日の目標

西川確率統計_§1.4,西川確率統計_{§2 高校数学 A 高校数学 B}

離散型確率変数の確率,母平均値,母分散,母期待値が計算できる

(100)

2 変量データの共分散・相関係数・回帰分析 L04-Q1 Quiz解答:共分散と相関係数(単位付き) x = 4(g), S_x2 = 4(g2), Sx = 2(g). y = 13(cm), S_x2 = 122/5 = 24.4(cm2), Sy = √ 122/5 = 4.94(cm). 共分散 Sxy = 1₅[(1− 4)(5 − 13) + (3 − 4)(15 − 13) + (4 − 4)(14 − 13) + (5− 4)(11 − 13) + (7 − 4)(20 − 13)] = 41/5 = 8.2(g·cm). 相関係数 r = 41/5 2·√122/5 = 0.83. L04-Q2 Quiz解答:回帰係数と回帰直線 y + 4 = √−25√36 49√36√49× (x − 9).

(101)

離散型確率変数事象と確率

ここまで来たよ

1 2変量データの共分散・相関係数・回帰分析 2 離散型確率変数事象と確率離散的確率変数母期待値・母平均値・母分散・母標準偏差

(102)

高校数学でありがちな設定

コインを1回投げる結果確率表 1 2 裏 1 2 計 1 前回までの話(記述統計)との関係. {表,裏} = {高橋みなみ,渡辺麻友,· · · } ではない. とりあえず無関係な別の話だと思って. アイドル作成ゲームで, 新しいメンバーをスカウトするボタンを押したら, CPU内部でサイコロが振られて(=確率)身長体重が決まって…を77 回繰りかえしたら, 77個からなる2変量データができた,みたいな関係. 推測統計まで行ったときに明らかになります

(103)

事象と標本空間

高校数学 A 試行(トランプから1枚引く)を行うと根源事象(♡1がでる)のどれか1 つが起きる. 標本空間 Ω ={♡1, . . . ,♠K} すべての根源事象を集めた集合. 事象部分集合 A ={カード1,カード2, . . .} = {カードx|条件a(x)} ⊂ ω 全事象 Ω⊂ Ω. 空事象 _{∅ ⊂ Ω} 補事象 Ac= Ω\ A. Aが起きなかったという事象. 和事象 A∪ B または, 積事象 A∩ B かつ, 排反事象「A, B が排反事象」 ⇔ A ∩ B = ∅. 同時に起きない

(104)

事象の確率

「事象 A の確率」=P (A) =「条件 a(X) が成立する確率」=P (a(X)) Ω =(トランプ全体) のとき, P ({♡1, . . . , ♡K}) = P (Xが♡) = (♡がでる確率) P ({♡1}) = P (Xが_♡1) = (♡1がでる確率) P ({♣1, . . . , ♣K, ♠1, . . . , ♠K}) = P (Xが黒札) = (X黒札がでる確率) ここではやらないこと確率の公理西川確率統計§1.3 定義 1.1 確率に関する基本的定理西川確率統計定理 1.1(p.15)

(105)

離散型確率変数離散的確率変数

ここまで来たよ

(106)

離散型確率変数離散的確率変数

離散的確率変数

西川確率統計§2

高校数学でありがちな問題

袋に赤玉2個,白玉3個がはいっている. いちどに3個取り出したとき, 赤玉が x 個である確率は？ X が確率変数. X は離散型確率変数離散型_≈整数値易しく言ったら, Ω ={0, 1, 2, 3}. この元がX. 厳密な流儀で言うと,確率変数とは,事象を数に対応させる関数. 例:カード_7→ カードのマークの数

(107)

離散型確率変数離散的確率変数 x 確率 f (x) .. . 0 −1 0 0 ₁₀1 = 1/5C3 1 ₁₀6 = 2· 3/5C3 2 ₁₀3 = 1· 3/5C3 3 0 .. . 0 計 1 言葉確率分布 (確率関数) 西川確率統計§2.1.1 定義 2.1 f (x) =            1 10 (x = 0) 6 10 (x = 1) 3 10 (x = 2) 0 (他) 確率分布の性質 0 ≤ f(x) ≤ 1. ∑ xf (x) = 1.

(108)

離散型確率変数母期待値・母平均値・母分散・母標準偏差

ここまで来たよ

(109)

関数 ϕ(x) の母期待値

西川確率統計§2.2.1 定義 2.7 高校数学 AB

関数 ϕ(x) の母期待値 E[ϕ(X)]

離散型確率変数 X が確率分布 f (x) =· · · に従うとき, E[ϕ(X)] =∑ x f (x)× ϕ(x) ϕ は普通の関数. 例: ϕ(x) = x2, ex, (場合分けで書かれた関数), . . .

性質

E[1] = 1. (ϕ(x) = 1 と∑_xf (x) = 1 から)

特に名前のついた量

母平均値 m = E[X]. (ϕ(x) = xってこと). (xの)母期待値とも母分散 = V [X] = E[(X− m)2]. (ϕ(x) = (x− m)2ってこと) 母標準偏差=√V [X]

(110)

事象の確率

事象A の確率 _⇔ 条件 a(X)が成立する確率

特徴関数

関数1_[a(X)](x) = { 1 (a(x)が真) 0 (a(x)が偽) とすると,

P (A) = P (a(X)) = E[1[a(X)](X)]

例

1_[X2_≤4](x) =

{

1 (−2 ≤ x ≤ 2) 0 (他)

(111)

離散型確率変数母期待値・母平均値・母分散・母標準偏差 L05-Q1

Quiz(

離散的な確率変数の母平均・母分散・母標準偏差

)

確率変数X は次の確率分布に従う. f (x) =            4 12 (x =−1) 5 12 (x = 0) 3 12 (x = 2) 0 (他) 1 母期待値_E[eX_]を求めよう_. 2 X の母平均値を求めよう. 3 X の母分散を求めよう. 4 _X の母標準偏差を求めよう_. 5 事象 X≤ 1の確率を求めよう.

(112)

(113)

母平均値, 母分散の性質

母平均値の性質

西川確率統計定理 2.7(p.48) の特別な場合高校数学 B X: 確率変数, a, b∈ R:定数のとき, E[aX + b] =∑ x f (x)× (ax + b) = ( a∑ x f (x)x ) + b∑ x f (x) = aE[X] + b. E[ϕ1(X) + ϕ2(X)] = ∑ x f (x)× (ϕ1(X) + ϕ2(X)) =E[ϕ1(X)] + E[ϕ2(X)].

もちろん一般には E[ϕ(X)]̸= ϕ(E[X]), E[X2]̸= (E[X])2.

(114)

母分散の性質

高校数学 B X: 確率変数, a, b∈ R:定数のとき, V[aX + b] = a2V[X].

母分散の性質

西川確率統計定理 2.12(p.54) 高校数学 B V[X] = E[X2]− (E[X])2

(115)

Quiz(確率変数の変換)

確率変数 X の母期待値,母分散は次を満たす. V[X] = 9, E[X] = 2. 1 母期待値 E[−X2+ 2X− 3]を求めよう. 2 確率変数 Y =−2X − 3 の母分散V[−2X − 3] を求めよう.

(116)

Quiz(離散的な確率変数の母平均値・母分散・母標準偏差・確率)

確率変数 X は次の確率分布に従う. f (x) = { x 55 (0≤ x ≤ 10) 0 (他) 1 確率 _{P (X} ≤ 5)を求めよう_. 2 母平均値 E[X]を求めよう. 3 母分散_V[X]を求めよう_.

(117)

離散型確率変数母期待値・母平均値・母分散・母標準偏差 L05-Q4 西川確率統計問題 2.3(p.44) L05-Q5 西川確率統計演習 2.1(p.59) L05-Q6 西川確率統計演習 2.6(p.59)

(118)

連絡

Excelでやる回帰分析の「レポート」Learn Math Moodle 2017-10-27

金まで. 2017-11-01水1 教室変更あるかも 2017-11-22水1 プチテスト予定配布資料は1-503向かいの引出, http://hig3.netで再配布. 加減乗除と平方根(ルート)の使える電卓持ってきてね. 関数電卓でなくてもいいです. 携帯電話の機能・アプリでもかまいません. 樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614) 次回は西川確率統計 1.5.

(119)

多次元の確率分布と独立性

樋口さぶろお

今日の目標同時分布から周辺分布,母期待値,母共分散,母相関係数が計算できる西川確率統計§2.3 確率変数の独立性を判定し利用できる西川確率統計§1.5.4 http://hig3.net

(120)

離散型確率変数 L05-Q1 Quiz 解答:離散的な確率変数の母平均・母分散・母標準偏差 1 期待値 E[eX_{] =} 4 12· e−1+ 5 12 · e 0₊ 3 12· e 2_. 2 母平均値 E[X] = 4 12 · (−1) + 5 12· 0 + 3 12 · 2 = 1 6(= µ). 3 母分散 V[X] = E[(X− µ)2] = ₁₂4 · (−1 −1₆)2+₁₂5 · (0 −₆1)2+₁₂3(2− 1₆)2= 47₃₆. 4 母標準偏差√V[X] = √ 47 36. 5 確率 E[1 [a(X)](X)] = 124 · 1 + 5 12· 1 + 3 12 · 0 = 9 12 = 3 4. L05-Q2 Quiz 解答:確率変数の変換 E[X2_{] = V[X] + E[X]}2_{= 13.}

1 _E[−X2_{+ 2X}− 3] = −E[X2_{] + 2E[X]}− 3E[1] = −13 + 2 · 2 − 3 · 1 = −12. 2 _V[−2X − 3] = V[−2X] = (−2)2_{V[X] = 36.}