データの分布
樋口さぶろお
龍谷大学理工学部数理情報学科
確率統計☆演習I L01(2017-09-20 Wed) 最終更新: Time-stamp: ”2017-09-20 Wed 07:38 JST hig”
今日の目標 eラーニングシステムで学習できる メールで連絡を受け取れる データから,手で度数分布表とヒストグラムが 作れる http://hig3.net
はじめに この授業どんなのり?
ここまで来たよ
1 はじめに この授業どんなのり? 2 データの分布 データとは? 度数分布表 ヒストグラムはじめに この授業どんなのり?
学習目標
講義概要 → シラバス 現実世界の現象を理解し,数理モデルとの関係を明らかにするためには, 観察・実験により取得したデータを整理・解析することが必要です. デー タを整理して表現する記述統計と,限られたデータから数理モデルのパラ メタを推測する推測統計を説明します. ただし,量的1変数の場合を主に 扱います. これに必要な範囲で確率論を説明します. 数式を用いた解析, ソフトウェアによる解析の両方に習熟してもらいます. 到達目標 → シラバス 実験・観察により取得した量的1,2変数データを統計的に整理して 表現し,他者に対して説明できる. データから数理モデルのパラメタを推測して,根拠とともに他者に説 明できる. データから仮説を立てて検証し,他者を説得できる.はじめに この授業どんなのり?
確率統計☆演習 I を履修してはいけない理由
次のどれも響かない人は履修しないことを奨めます. コア選択必修M (3年前期)確率統計☆演習II, 計算科学☆実習Bの前提科目 数学の教員免許の必修科目 新課程の 高校の高校 数学 I(データの分析)=毎年センター試験に出題,高校 数学 A(場合の数と確率),高校 数学 B(確率分布と統計的推測) 教育の評価に統計は必要 いま,統計学が熱い!いま,ビッグデータ,人工知能(AI),機械学習(machine learning)が熱
い!!
統計は科学技術の言葉 ⇝ 数理卒は当然期待されてる
はじめに この授業どんなのり?
こんなことに答えます
1 高校の数学で,こういう教え方導入したら,ちょっとだけ平均点が上 がった. これ効果あったって言っていいの? 2 YouTubeから猫の動画を見つけるアルゴリズム,こう改良して, 100 個の入力画像で試したら,判定精度がちょっとあがった. これで結論 だしていいの? 10000個でやり直すべき?n 3 秋元PはチームAにチームKより身長高いメンバーをいれてる説を 唱えたけどみんな信じてくれない…どうやって説得する?はじめに この授業どんなのり?
確率統計☆演習 I ののり
成績計算難しくないけどとにかく注文の多い科目です… 科目の成績100ピーナッツは 25ピーナッツ:毎回授業での非参照quiz,eラーニングの予習問題,授業時間内の活動,そ れほどたいへんじゃないレポートなど 30ピーナッツ:プチテスト(11月) http://www.toukei-kentei.jp3級で一部分を代用可能. 45ピーナッツ:ファイナルトライアル(定期試験期間) その他追加ピーナッツ.その時に説明. その時点のピーナッツにかかわらず,ファイナルトライアルに参加しないと合格にはなりま せん.ファイナルトライアル時点で15ピーナッツ未満の人も, (平均点を上げるために)参加 をすすめますが,追試験はなし. 欠席届毎回出席を前提に進めます. やむを得ず欠席して,ピーナッツ的に考慮されたい場合 は,専用用紙に事情を説明する書類を貼って,授業前後各5分に提出(事前事後とも可.ファ イナルトライアルが締切).欠席に事前連絡は原則不要.何回欠席してもファイナルトライア ル参加資格を失うことはありません.はじめに この授業どんなのり?
担当者ののり
なまえ: 樋口さぶろお hig-probstat へや: 1-502 樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614) Webページ: http://hig3.net (表紙にQRコード)演習の指示や, スケジュールもここから.はじめに この授業どんなのり?
教科書やその他の準備
必須です. 西川確率統計 https://www.amazon.co.jp/product/dp/4781913555 ソフトウェア表計算ソフトウェアMicrosoft Excelを演習で使います. 龍 大生はOffice365で無料で入手可能. http://portal.office.com 電卓平方根(ルート)のあるもの. スマホアプリでも可.はじめに この授業どんなのり?
1 週間のタイムライン
1 木09:00ごろまでに 予習復習問題(=Trial予想問題)をLearn Math
Moodleで公開Trialまでの最高点を記録. 2 水1の最初 Trial(=小テスト) 参照不可 相談不可(水1までにやった ことについて,水1の最後にTrial するパターンも) 3 水1 チーム別エリア座席指定. 講義のような演習のような. チームで 何かやったり. 4 水1の最後 来週のTrialの予告 5 樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614)
Learn Math Moodleを使ってみよう
http://hig3.net → Learn Math Moodle (全学認証)→ 確率統計☆演習
データの分布 データとは?
ここまで来たよ
1 はじめに この授業どんなのり? 2 データの分布 データとは? 度数分布表 ヒストグラムデータの分布 データとは?
1 変数の量的データ
某アイドル集団群+某バレーボール選手(1名)の身長のデータ. 148cm 148.5cm 149cm . . . 185cm http://girlsgroupguide.com/ このコースの最後までいくと問えること(正確な表現ではありません) オーディションにおいて,身長は考慮されているか? チーム編成において,身長は考慮されているか? .. .データの分布 度数分布表
ここまで来たよ
1 はじめに この授業どんなのり? 2 データの分布 データとは? 度数分布表 ヒストグラムデータの分布 度数分布表
度数分布表
高校 数学 I 西川確率統計§5.1.1 階級 度数 相対度数 145 より大きく 150 以下 7 0.09 150 より大きく 155 以下 17 0.22 155 より大きく 160 以下 29 0.37 160 より大きく 165 以下 19 0.24 165 より大きく 170 以下 4 0.05 170 より大きく 175 以下 1 0.01 175 より大きく 180 以下 0 0.00 180 より大きく 185 以下 1 0.01 185 より大きく 190 以下 0 0.00 合計 78 1.00 階級幅は一定で 相対ナントカ(比率)の 合計が1にならないと き. 度数分布表と限らず 一般に,無視して1と書 くか,相対誤差が小さい 行で調整. 以下,以上,未満(=より 小さい), より大きい自分の言葉でどうぞ
データの分布 度数分布表
度数分布表の作り方
高校 数学 I 西川確率統計§5.1.1 階級=一定間隔で区切った区間,下品な?言葉 ‘bin’ ビン. いくつに分 けるか? 一概には言えないけど,切りのいい値にしちゃっていい. 階級幅=区間の幅 階級値=その階級のまん中の値 度数=その範囲に入ってるデータの個数 データ全体の個数=度数の合計= n 相対度数=度数/データ全体の個数 (%で書くことも)データの分布 ヒストグラム
ここまで来たよ
1 はじめに この授業どんなのり? 2 データの分布 データとは? 度数分布表 ヒストグラムデータの分布 ヒストグラム
ヒストグラム
高校 数学 I 西川確率統計§5.1.1 某アイドル集団+1の身長分布 身長(cm) 度数 0 5 10 15 20 25 30 145 150 155 160 165 170 175 180 185 ‘度数分布表を棒グラフにしたもの’ 基本レベルでは階級幅は一定⇝ 本当 は高さでなく面積 階級の個数や階級幅は指定がなければ, 見やすいように決めてよい. ▶ 階級の幅=超大きい⇝ 長方形 1 個 ▶ 階級の幅=超小さい⇝ ?? ヒストグラムに限らず,グラフの縦軸横軸には量の名と単位を明示データの分布 ヒストグラム L01-Q1
Quiz(度数分布表とヒストグラムを作ろう)
度数分布表とヒストグラムを手で作ろう. 全盛期のデータ. 名前 年齢 中野郁海 14.1 大和田南那 15.2 川本紗矢 16.4 大島涼花 16.2 加藤玲奈 17.9 宮脇咲良 17.1 小嶋真子 17.9 白間美瑠 17.6 高橋朱里 17.1 向井地美音 17.0 森保まどか 17.6 松井珠理奈 18.1 渋谷凪咲 18.4 田野優花 18.4 矢倉楓子 18.1 兒玉遥 18.4 入山杏奈 19.0 生駒里奈 19.0 木崎ゆりあ 19.2 川栄李奈 20.7 武藤十夢 20.8 山本彩 21.4 島崎遥香 21.7 渡辺麻友 21.5 渡辺美優紀 21.2 峯岸みなみ 22.0 指原莉乃 22.0 横山由依 22.1 松井玲奈 23.7 柏木由紀 23.2 須田亜香里 23.2 高橋みなみ 23.0 宮澤佐江 24.2 小嶋陽菜 26.9 学籍番号奇数の人は5刻みで. 10-15,15-20,. . . , 学籍番号偶数の人は4刻みで. 12-16,16-20,. . . , 以上,以下,未満,より大きい,は自分で正しく決めて.データの分布 ヒストグラム 連絡 次回は 7-002講義室 配布資料は1-503向かい掲示板前の引出, http://hig3.netで再配布しています. 樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼(1-614) 次回からは,加減乗除と平方根(ルート)の使 える電卓持ってきて. 関数電卓でなくても可. スマホアプリでも可. Trial 予告 来週は教科書 西川確率統計§5.1.2 代表値 §5.1.3 散らばりの尺度読 んできて. 統計検定. 2017-11-26一般受験,団体割引希望 の人は樋口まで).
データの代表値・散らばりの尺度
樋口さぶろお
龍谷大学理工学部数理情報学科
確率統計☆演習I L02(2017-09-27 Wed) 最終更新: Time-stamp: ”2017-10-03 Tue 09:48 JST hig”
今日の目標
データ,度数分布表,ヒストグラムから
▶ 中央値, 四分位数, 平均値, 最頻値を求められ
略解:データの分布 L01-Q1 Quiz 解答:度数分布表とヒストグラムを作ろう 階級 (歳) 度数 10 より大きい 15 以下 1 15 より大きい 20 以下 18 20 より大きい 25 以下 14 25 より大きい 30 以下 1 計 34 階級 (歳) 度数 12 より大きい 16 以下 2 16 より大きい 20 以下 17 20 より大きい 24 以下 13 24 より大きい 28 以下 2 計 34 このデータの場合はたまたま, 以上未満でも同じ. AKB48の年齢分布 年齢(年) 度数 10 15 20 25 30 0 5 10 15 20 AKB48の年齢分布 年齢(年) 度数 0 5 10 15 20 12 16 20 24 28 たまたま形が似たけど, 階級の取り方でヒストグラムの形は変化する.
データの代表値・散らばりの尺度 中央値と四分位数
ここまで来たよ
3 略解:データの分布 4 データの代表値・散らばりの尺度 中央値と四分位数 最頻値 平均値 レンジ(範囲,range)・四分位偏差 分散・標準偏差・平均偏差データの代表値・散らばりの尺度 中央値と四分位数
代表値:データを 1 個の値で代表させたい!
西川確率統計 5.1.2 縮約値=代表値某国民的アイドル集団の身長はだいたい150cm? 170cm? データ全体 148 152 . . . 170 階級(cm) 度数fi 145より大きく150以下 7 150より大きく155以下 17 155より大きく160以下 29 160より大きく165以下 19 165より大きく170以下 4 170より大きく175以下 1 合計 77 身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30データの代表値・散らばりの尺度 中央値と四分位数
今日やる様々な表現方法の間の変換
箱 ひ げ図 ヒ ス ト グ ラム 度 数 分 布 表 (生) デ ー タ 代表値 中央値(+四分位数) 平均値 最頻値(ヒストグラム,データ の) 散らばり の尺度 レンジ,四分位偏差, IQR 分散,標準偏差,平均偏差 — 見やすい・直観的 ↔ 詳しい・正確データの代表値・散らばりの尺度 中央値と四分位数
中央値 (median) と四分位数/値/点 (quartile)
身長 x のデータを小さい順に並び替えたものを, x(1)≤ x(2)≤ · · · ≤ x(N ) とする. 例 n = 11 i 1 2 3 4 5 6 7 8 9 10 11 xi 9 17 9 12 13 10 15 13 13 12 11 i 1 2 3 4 5 6 7 8 9 10 11 x(i) 9 9 10 11 12 12 13 13 13 15 17 i y 0 5 10 15 → 順にならべる i y 0 5 10 15データの代表値・散らばりの尺度 中央値と四分位数
四分位数のアバウトな定義
西川確率統計 p.96 最小値 Q0= x(1) ≈ x(0 4N ) 第1四分位数 Q1= x(1 4N ) 第2四分位数 Q2= x(2 4N )= 中央値 第3四分位数 Q3= x(3 4N ) 最大値 Q4= x(4 4N ) y 5 10 15データの代表値・散らばりの尺度 中央値と四分位数
四分位数の正確な定義
高校 数学 I 西川確率統計 p.96 注意 5 Q0, Q4 さっきのまま. Q2 = x (N +12 )=真ん中の値
(N が奇) 1 2(x(N 2) + x (N2+1)) =真ん中
2
個の和
/2
(N が偶) Q1は, Q2の位置より前にあるデータ(Q2自身は除く)の中央値 Q3は, Q2の位置より後にあるデータ(Q2自身は除く)の中央値 Q2 と同じ値のデータが複数あるときも1個だけ除く ちょっと変えた例: y 10 11 12 12 13 13 13 15 17データの代表値・散らばりの尺度 中央値と四分位数 度数分布表からの中央値と四分位数の求め方西川確率統計 5.6 階級値=階級の(上限値+下限値)/2 階級(cm) 階級値mi 度数fi 145より大きく150以下 147.5 7 150より大きく155以下 17 155より大きく160以下 29 160より大きく165以下 19 165より大きく170以下 4 合計N — 77
自分の言葉でどうぞ
データの代表値・散らばりの尺度 中央値と四分位数 ヒストグラムからの中央値・四分位数の求め方 身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30
自分の言葉でどう
ぞ
i y 0 5 10 15 i y 0 5 10 15データの代表値・散らばりの尺度 最頻値
ここまで来たよ
3 略解:データの分布 4 データの代表値・散らばりの尺度 中央値と四分位数 最頻値 平均値 レンジ(範囲,range)・四分位偏差 分散・標準偏差・平均偏差データの代表値・散らばりの尺度 最頻値
最頻値=mode
西川確率統計なし最頻値
の定義
離散データの最頻値: ‘離散的な’データのとき いちばん多く繰り返 し現れる値 ヒストグラムの最頻値: ‘連続的または離散的な’データのとき 度数 分布表/ヒストグラムで,度数最大の階級の階級値 離散的な例1(30 50 55 55 60 70 70 70 75 100)だと70
ヒストグラムの最頻値の求め方 階級 (cm) 度数 fi 145 より大きく 150 以下 7 150 より大きく 155 以下 17 155 より大きく 160 以下 29 160 より大きく 165 以下 19 165 より大きく 170 以下 4 170 より大きく 175 以下 1 合計 77 ヒストグラムの最頻値の意味 身長の分布 身長(cm) 度数 145 150 155160 165 170175 0 5 10 15 20 25 30自分の言葉でどうぞ
データの代表値・散らばりの尺度 平均値
ここまで来たよ
3 略解:データの分布 4 データの代表値・散らばりの尺度 中央値と四分位数 最頻値 平均値 レンジ(範囲,range)・四分位偏差 分散・標準偏差・平均偏差データの代表値・散らばりの尺度 平均値
平均値=mean
平均値の定義
西川確率統計 5.1.2 n個のデータx1, x2, . . . , xN に対して, 平均値 x = 1 N N ∑ i=1 xi x のかわりにm, mx などという記号もある. 例: 30 50 55 55 60 70 70 70 75 100だと63.5
中央値より平均値のいい点自分の言葉で
*0.4
平均値より中央値のいい点自分の言葉で
*0.4
データの代表値・散らばりの尺度 平均値 L02-Q1
Quiz(代表値)
次のデータを考える. 14cm, 14cm, 15cm, 16cm, 18cm, 18cm, 18cm, 25cm 1 四分位数 Q1, Q2, Q3 を求めよう. 2 (離散データの)最頻値を求めよう 3 平均値を求めようデータの代表値・散らばりの尺度 平均値 度数分布表からの平均値の求め方 西川確率統計 5.1.6 x≈ 1 n k ∑ i=1 mifi= ∑k i=1mifi ∑k i=1fi i番目の階級の階級値 mi,度数 fi. ヒストグラムからの平均値の求め方 身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30 重心の座標xG= ∑ ixiMi ∑ iMi 力学 i番目の質点の位置xi,質量 Mi
あとは自分の言葉で
*0.4
データの代表値・散らばりの尺度 平均値 L02-Q2
Quiz(平均値中央値最頻値)
次のヒストグラムから求めよう. 1 中央値 2 (ヒストグラムの)最頻値 3 平均値 度数 9 11 13 15 17 19 21 23 25 27 0 1 2 3データの代表値・散らばりの尺度 レンジ (範囲,range)・四分位偏差
ここまで来たよ
3 略解:データの分布 4 データの代表値・散らばりの尺度 中央値と四分位数 最頻値 平均値 レンジ(範囲,range)・四分位偏差 分散・標準偏差・平均偏差データの代表値・散らばりの尺度 レンジ (範囲,range)・四分位偏差
平均値が同じでも分布はいろいろ
F re qu en cy 16 18 20 22 24 26 28 0 1 2 3 4 F re qu en cy 16 18 20 22 24 26 28 0 1 2 3 4 F re qu en cy 0 1 2 3 4 F re qu en cy 0 1 2 3 4データの代表値・散らばりの尺度 レンジ (範囲,range)・四分位偏差
データの代表値・散らばりの尺度 レンジ (範囲,range)・四分位偏差
レンジ・四分位偏差の定義 I
範囲タイプの量の定義
高校 数学 I 西川確率統計 p.97範囲(レンジ) =
Q
4
− Q
0
四分位範囲(interquartile range) IQR=
Q
3
− Q
1
四分位偏差(quartile deviation) =1
2
(Q
3
− Q
1
)
L02-Q3Quiz(範囲)
次のデータの,範囲,四分位範囲,四分位偏差 を求めよう.データの代表値・散らばりの尺度 レンジ (範囲,range)・四分位偏差 ヒストグラムからの範囲・四分位偏差の求め方 身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30 i y 0 5 10 15 → 並べかえ i y 0 5 10 15
データの代表値・散らばりの尺度 分散・標準偏差・平均偏差
ここまで来たよ
3 略解:データの分布 4 データの代表値・散らばりの尺度 中央値と四分位数 最頻値 平均値 レンジ(範囲,range)・四分位偏差 分散・標準偏差・平均偏差データの代表値・散らばりの尺度 分散・標準偏差・平均偏差
分散・標準偏差・平均偏差の定義
高校 数学 I 西川確率統計 p.98 データ: x1, x2, . . . , xN.分散・標準偏差・平均偏差の定義
データの分散(variance): (偏差)2の平均 S2 = 1 N N ∑ i=1 (xi− x)2 データの標準偏差(standard deviation)=S =
√
S
2
≥ 0
データの平均偏差(mean deviation): d = 1 N N ∑ i=1 |xi− x|データの代表値・散らばりの尺度 分散・標準偏差・平均偏差
(例) 某国民的アイドル集団 (77 人) の身長 I
身長の分布 身長(cm) 度数 145 150 155 160 165 170 175 0 5 10 15 20 25 30 n− 1 = 77 − 1で割りたくなった人もい るかも. ここは77でOK そのうちちゃんと区別を説明します. データの単位̸=分散の単位 平均値 x = 148+148.5+77···+172.3 = 158(cm) 分散 S2 = (148−158)2+(148.5−158)77 2+···+(172.3−158)2 = 26.0 (cm2) 標準偏差 S =√26.0 = 5.1 (cm)データの代表値・散らばりの尺度 分散・標準偏差・平均偏差
(例) 某国民的アイドル集団 (77 人) の身長 II
L02-Q4Quiz(平均値・分散・標準偏差)
データ 87kg, 93kg, 89kg, 91kg, 90kgの平均値・分散・標準偏差を求め よう. 分散の便利な(こともある)計算方法高校 数学 I 西川確率統計定理 5.1(p.100) 度数分布表からの分散・標準偏差の求め方高校 数学 I 西川確率統計 p.104 ヒストグラムからの標準偏差の求め方データの代表値・散らばりの尺度 分散・標準偏差・平均偏差 連絡
配布資料は1-503向かいの引出や http://hig3.netで再配布.
加減乗除と平方根(ルート)の使える電卓持ってきてね. 関数電卓で
なくてもいいです. 携帯電話の機能・アプリでもかまいません.
Learn Math Moodleの予習復習問題で来週の trialに備えてね.
樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614) 来週は教科書 西川確率統計 5.1.4, 5.1.5読んできて 統計検定のディスカウント受験受付中(– 2017-10-09月) 樋口まで. 3級 合格者はプチテストの点数の一部として使用可. 過去の2年生の受験体験記より: 僕は、数学教員を目指しており、数学を専門にするな ら統計学の知識はある程度つけておきたいと思ったことと、いろいろと資格に挑戦しようと思い、3 級を受験しました。(略) また、僕は授業を受ける前に検定を受けたのですが、2 年の後期に「確率 統計及び演習」という授業があり、この授業では 3 級や 2 級に出てくる公式や統計に関する知識を
箱ひげ図・データの変換・標準得点・2 変量データ
樋口さぶろお
龍谷大学理工学部数理情報学科
確率統計☆演習I L03(2017-10-04 Wed) 最終更新: Time-stamp: ”2017-10-04 Wed 13:22 JST hig”
今日の目標 複数の箱ひげ図,ヒストグラムから分布の性質 を記述できる データを1次関数で標準得点に変換して平均値 と分散を比較できる 2変量データの共分散,相関係数が求められる http://hig3.net
略解:データの代表値・散らばりの尺度 L02-Q1 Quiz解答:代表値 1 Q2 = 17cm, Q1= 14.5cm, Q3 = 18cm. 2 最頻値は18cm. 3 平均値は (14 +· · · + 25)/8 = 17.25cm. L02-Q2 Quiz解答:平均値中央値最頻値 N = 9. 1 中央値 Q2= x(5). よって階級21–23に含まれる. x(5) ≈ 21 + 2 × 1.52 = 22.5. 2 階級値を答えて, 10 3 1 9(10× 3 + 22 × 2 + 24 × 2 + 26 × 2) = 19.3
略解:データの代表値・散らばりの尺度 L02-Q3 Quiz解答:範囲 範囲はQ4− Q0 = 25− 14 = 11, 四分位範囲は Q3− Q1 = 18− 14.5 = 3.5,四分位偏差は 12(Q3− Q1) = 1.75. L02-Q4 Quiz解答:平均値・分散・標準偏差 平均値= 90kg, 分散 = 4kg2,標準偏差= 2kg.
箱ひげ図・データの変換・標準得点・2 変量データ 箱ひげ図
ここまで来たよ
2 略解:データの代表値・散らばりの尺度 3 箱ひげ図・データの変換・標準得点・2変量データ 箱ひげ図 分散の意味と平均値・分散・標準偏差の変換 変動係数・標準得点・偏差値 4 2変量データ 2変量データとクロス集計表・散布図 2変量データの相関箱ひげ図・データの変換・標準得点・2 変量データ 箱ひげ図
箱ひげ図 (Box Plot, Box and Whisker diagram)
西川確率統計 p.97150 155 160 165 170 某アイドル集団の身長の分布 身長(cm) 某アイドル集団 最 小 最 大 値 Q0, Q4, 四 分 位 点 Q1, Q2, Q3
箱ひげ図を描く手順
高校 数学 I Q0, Q4 Q1,Q2,Q3 と平均値x を求める Q2に縦線をいれる Q1,Q3を左右の端として箱を 描く Q0,Q4に短い縦線をいれ,点線 のひげで箱とつなぐ 平均値に+を1個描く この他に「外れ値を○で描く」こと もある. いまの場合,横軸:身長(cm),縦軸:意 味なし箱ひげ図・データの変換・標準得点・2 変量データ 箱ひげ図
スタートテストの結果
2年生 3年生以上 20 40 60 Placement Total 学年 2年生 3年生以上 0 25 50 75 100 0.0 2.5 5.0 7.5 10.0 0.0 2.5 5.0 7.5 10.0 点数 度数 縦軸の意味,ヒストグラムとの使い分け自分の言葉で
用語 裾(すそ,tail)が重い=裾をひいた 右/左に裾が長い=左/右に偏った自分の言葉で
箱ひげ図・データの変換・標準得点・2 変量データ 分散の意味と平均値・分散・標準偏差の変換
ここまで来たよ
2 略解:データの代表値・散らばりの尺度 3 箱ひげ図・データの変換・標準得点・2変量データ 箱ひげ図 分散の意味と平均値・分散・標準偏差の変換 変動係数・標準得点・偏差値 4 2変量データ 2変量データとクロス集計表・散布図 2変量データの相関箱ひげ図・データの変換・標準得点・2 変量データ 分散の意味と平均値・分散・標準偏差の変換
分散の意味 I
L03-Q1Quiz(分散の意味)
あるクラスで行われたテストで,英語の平均点は60点,標準偏差10点. 数学の平均点は60点,標準偏差20点. 英語の70点と数学の70点,どちらのほうが価値ある? 次のうちから正し いものを1つ選ぼう. 1 たぶん英語のほうが価値ある 2 たぶん数学のほうが価値ある 3 どちらも同じ 4 これだけの情報ではまったくわからない 5 平均点が60点だと再テストがあるだろう箱ひげ図・データの変換・標準得点・2 変量データ 分散の意味と平均値・分散・標準偏差の変換
平均値・分散・標準偏差の変換
西川確率統計§5.1.4x から y への変換
データ x1, x2, . . . , xn, xの平均値 x,分散 Sx2,標準偏差 Sx がわかってる とする. yi = axi+ b で新しいデータを作る(a, b 定数). データ y1, y2, . . . , yn, y の平均値 y, 分散S2y,標準偏差Sy はどうやって 求める? 例: 身長の換算y = 1.8(m) ← x = 80(cm) y = ax + b,a = 0.01, b = 1
箱ひげ図・データの変換・標準得点・2 変量データ 分散の意味と平均値・分散・標準偏差の変換
平均値, 分散, 標準偏差の変換
西川確率統計定理 5.2(p.101) y = ax + b のとき 1 y = ax + b 2 S2 y =|a|2× Sx2 3 Sy =|a| × Sx L03-Q2Quiz(平均値・分散・標準偏差の換算)
ある集団の身長(みんな大人で100cm以上)を, cm で書いたものの下2 桁 x cmの,平均値は60cm, 分散は 25cm2 だった. m で書いた身長 y mの平均値と分散と標準偏差を求めよう.箱ひげ図・データの変換・標準得点・2 変量データ 変動係数・標準得点・偏差値
ここまで来たよ
2 略解:データの代表値・散らばりの尺度 3 箱ひげ図・データの変換・標準得点・2変量データ 箱ひげ図 分散の意味と平均値・分散・標準偏差の変換 変動係数・標準得点・偏差値 4 2変量データ 2変量データとクロス集計表・散布図 2変量データの相関箱ひげ図・データの変換・標準得点・2 変量データ 変動係数・標準得点・偏差値
身長と靴のサイズじゃ標準偏差の意味が違う!
西川確率統計§5.1.5 Berryz工房内で,身長の標準偏差は20cmくらいだけど,靴のサイズの標 準偏差は3cmくらい. 標準偏差が大きい =いろんな体格の人がいる みたいに思いたいけど,身長と靴のサイズじゃ標準偏差の意味が違う.変動係数 (coefficient of variation)
(データx全体の)変動係数= Sx x × 100 これは無次元の数. すなわち単位がない量.単位を変更しても同じ値になる
. 分散 平均値 だと無次元の数にはならない.箱ひげ図・データの変換・標準得点・2 変量データ 変動係数・標準得点・偏差値
標準得点
標準得点 (standard score, z-score, z 得点)
(値xiの)標準得点zi= xi− x Sx 平均値から,上下どちらに,標準偏差の何倍離れているかを表す値. 例 n = 5 i 1 2 3 4 5 平均値 標準偏差 データ xi 15 13 12 11 9 12 2 標準得点 zi 1.50 0.5 0 −0.5 −1.50 0 1 L03-Q3
Quiz(標準得点と偏差値)
データ xは87, 93, 89, 91, 90で与えられる. 87の標準得点と偏差値を求 めよう.箱ひげ図・データの変換・標準得点・2 変量データ 変動係数・標準得点・偏差値
標準得点の性質
標準得点 z の性質
z =0
Sz2 =1
, Sz=√
1 = 1
z の単位はm
m
,無次元の数. 身長が 180cm, 80cm, 1.8m どれでも 同じ結果. なぜなら… いまa =
S
1
x, b =
−
x
S
x . z =ax + b = 1 Sx · x − x Sx = 0.箱ひげ図・データの変換・標準得点・2 変量データ 変動係数・標準得点・偏差値
偏差値
学力データ(テストの点数や成績?)によく使われる. 受験者1人1人の成績が,平均値から上,または下に離れている程度を見 られる.偏差値
(値xiの)偏差値w =10zi+ 50 =xi− x Sx × 10 + 50. a = , b = 異なるテスト,クラスでも比べられる. 偏差値の平均値は50
,偏差値の標準偏差は10
偏差値はまあ‘無次元の数’(1000点満点と100点満点を比較可能)箱ひげ図・データの変換・標準得点・2 変量データ 変動係数・標準得点・偏差値 L03-Q4
Quiz(偏差値)
(学力)偏差値について,次のうち正しいのはどれ(とどれ)? 1 偏差値の最低値は0である 2 偏差値の最高値は75である 3 平均点(をとった人)の偏差値は50である 4 100点のテストで満点を取った場合の偏差値は,他の人の成績しだい である 5 偏差値50の人の順位は上から1/2程度である 6 偏差値60の人の順位は上から15% 程度である.2 変量データ 2 変量データとクロス集計表・散布図
ここまで来たよ
2 略解:データの代表値・散らばりの尺度 3 箱ひげ図・データの変換・標準得点・2変量データ 箱ひげ図 分散の意味と平均値・分散・標準偏差の変換 変動係数・標準得点・偏差値 4 2変量データ 2変量データとクロス集計表・散布図 2変量データの相関2 変量データ 2 変量データとクロス集計表・散布図
2 変量データ
これまでやってたのはぜんぶ1変量データ. 2変量データはこんな例. (x, y)などと書く. x, y は各チームのデータ. x 勝利数 y (打った)シュート数 z 失点 JリーグDiv1. 2014年の34試合. データの個数 n = 18(チーム). (チーム名) x y z ベガルタ仙台 9 347 50 鹿島アントラーズ 18 512 39 .. . ... ... ... 計 · · · · · · · · · 他にも…(x, y) =(身長(cm), 体重(kg)), (人口 (人), 面積 (m2), (打率,本塁打数), (カロ リー,糖分含有量). . ..2 変量データ 2 変量データとクロス集計表・散布図
散布図=相関図
西川確率統計§5.2.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 5 10 15 0 100 200 300 400 500 J League Division 1 (2014) 34試合 勝利数 シュート数勝利数が多い
↔(
打った
)
シュート回数が多い
?2 変量データ 2 変量データとクロス集計表・散布図
クロス集計表と周辺分布
x:勝利数, y (打った)シュート数 クロス集計表 度数分布表の2変数版 上の表では…になってる18チーム全部のデータから作りました. ↓ y \xの階級→ 0以上5未満 10未満 15未満 20未満 計 200以上250未満 1 1 250以上300未満 1 1 300以上350未満 2 3 1 6 350以上400未満 1 4 3 8 400以上450未満 1 1 450以上500未満 0 0 500以上550未満 1 1 計 1 4 7 6 18 周辺分布とは自分の言葉で
2 変量データ 2 変量データの相関
ここまで来たよ
2 略解:データの代表値・散らばりの尺度 3 箱ひげ図・データの変換・標準得点・2変量データ 箱ひげ図 分散の意味と平均値・分散・標準偏差の変換 変動係数・標準得点・偏差値 4 2変量データ 2変量データとクロス集計表・散布図 2変量データの相関2 変量データ 2 変量データの相関
正の相関・負の相関・無相関
西川確率統計§5.2.3 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 強い正の相関 弱い正の相関 無相関 弱い負の相関 強い負の相関 r = 0.99 r = 0.55 r = 0 r =−0.55 r =−0.99 相関 ‘正の相関’: xが大きい ⇔ y が大きい ‘負の相関’: xが大きい ⇔ y が小さい 強い/弱い: 傾向がはっきりしている/していない r: 相関係数計算方法は以下.2 変量データ 2 変量データの相関
共分散
高校 数学 I 発展 西川確率統計§5.2.3 相関の強さを数で表したい xの平均値x =1 N N ∑ i=1 xi xの分散 Sx2 =1 N N ∑ i=1 (xi− x)2= 1 N N ∑ i=1 (xi− x)(xi− x) y, Sy2 も同様.共分散 (covariance)
x, yの共分散Cxy = 1 N N ∑ i=1 (xi− x) × (yi− y) 注: Cxy = Sxy, xの分散をSx2= Sxx, yの分散をSy2= Syy と書く自然な 記法がある.2 変量データ 2 変量データの相関 L03-Q5
Quiz(共分散)
1 x, y の共分散を求めよう 2 x, yの相関係数を求めよう. ただし, yの標準偏差= √ 122 5 = 4.94は 使っちゃっていい. x y 1 5 3 15 4 14 5 11 7 202 変量データ 2 変量データの相関
共分散の意味
西川確率統計 p.110 X Y (+,+) (−,−) (−,+) (+,−) Xの平均値 Yの 平均値 (+,−) = (xi− xの符号, yi− yの符号). 共分散が正に/負に大きい⇔ 正の/負の相関が強い(?) なぜなら自分の言葉で
しか∼し(次のスライド)2 変量データ 2 変量データの相関
相関係数
高校 数学 I 西川確率統計 p.111 共分散は x, y の1次関数による変換で変わる 西川確率統計定理 5.4(p.112) 次元のある量なので単位を変えると値が変わる
→ 比較に 不便 広い範囲にばらついていたほうが大きくなる
相関係数は,これらの影響を受けずに,相関の強さをそのまま表す.相関係数 (correlation coefficient)
x, yの相関係数r = Cxy S × S2 変量データ 2 変量データの相関
相関係数の性質
相関係数は無次元の量
−1 ≤ r ≤ +1 西川確率統計定理 5.5(p.114) r = 0⇔ ’無相関’しかし…(待て次回) r =±1 ⇔散布図の点が傾き正/負の一直線上 ⇔ yはxの1次関数. 西川確率統計定理 5.7(p.115) r は x, yの1次関数による変換のもとで不変 西川確率統計定理 5.6(p.114)2 変量データ 2 変量データの相関 連絡 次回は 1-609実習室. 動画見ます. イヤフォン持ってきて. Excel使います. 慣れてない人は Excel入門コースで第4章2 まで やっておいて. https://moodle.media.ryukoku.ac.jp 配布資料は1-503向かいの引出や http://hig3.netで再配布. 加減乗除と平方根(ルート)の使える電卓持ってきてね. 関数電卓で なくてもいいです. 携帯電話の機能・アプリでもかまいません.
Learn Math Moodleの予習復習問題で来週の trialに備えてね.
樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614)
来週は教科書 西川確率統計 5.2.4, 5.2.5, 5.2.6読んできて
統計検定のディスカウント受験受付中(– 2017-10-09月) 樋口まで. 3級
2 変量データの共分散・相関係数・回帰分析
樋口さぶろお
龍谷大学理工学部数理情報学科
確率統計☆演習I L04(2017-10-11 Wed) 最終更新: Time-stamp: ”2017-10-10 Tue 23:02 JST hig”
今日の目標 2変数の量的データから,手で共分散と相関係数 と回帰直線が求められる 1変数の量的データから, Excelで代表値・分散 が求められる 2変数の量的データから, Excelで共分散と相関 http://hig3.net 樋口さぶろお (数理情報学科) L04 2 変量データの共分散・相関係数・回帰分析 確率統計☆演習 I(2017) 1 / 24
箱ひげ図・データの変換・標準得点 L03-Q1 L03-Q2 Quiz解答:平均値・分散・標準偏差の換算 1.6m, 0.0025m2, 0.05m. L03-Q3 Quiz解答:標準得点と偏差値 平均値x = 90, 分散 Sx2 = 4,標準偏差Sx= 2. 標準得点z = (87− 90)/2 = −1.5. 偏差値w = (−1.5) × 10 + 50 = 35.
2 変量データの共分散・相関係数・回帰分析 2 変量データとクロス集計表・散布図
ここまで来たよ
1 箱ひげ図・データの変換・標準得点 2 2変量データの共分散・相関係数・回帰分析 2変量データとクロス集計表・散布図 2変量データの相関 回帰分析 Excelで統計2 変量データの共分散・相関係数・回帰分析 2 変量データとクロス集計表・散布図
2 変量データ
これまでやってたのはぜんぶ1変量データ. 2変量データはこんな例. (x, y)などと書く. x, y は各チームのデータ. x 勝利数 y (打った)シュート数 z 失点 JリーグDiv1. 2014年の34試合. データの個数 n = 18(チーム). (チーム名) x y z ベガルタ仙台 9 347 50 鹿島アントラーズ 18 512 39 .. . ... ... ... 計 · · · · · · · · · 他にも…(x, y) =(身長(cm), 体重(kg)), (人口 (人), 面積 (m2), (打率,本塁打数), (カロ リー,糖分含有量). . ..2 変量データの共分散・相関係数・回帰分析 2 変量データとクロス集計表・散布図
散布図=相関図
西川確率統計§5.2.2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 5 10 15 0 100 200 300 400 500 J League Division 1 (2014) 34試合 勝利数 シュート数勝利数が多い
↔(
打った
)
シュート回数が多い
?2 変量データの共分散・相関係数・回帰分析 2 変量データとクロス集計表・散布図
クロス集計表と周辺分布
x:勝利数, y (打った)シュート数 クロス集計表 度数分布表の2変数版 上の表では…になってる18チーム全部のデータから作りました. ↓ y \xの階級→ 0以上5未満 10未満 15未満 20未満 計 200以上250未満 1 1 250以上300未満 1 1 300以上350未満 2 3 1 6 350以上400未満 1 4 3 8 400以上450未満 1 1 450以上500未満 0 0 500以上550未満 1 1 計 1 4 7 6 18 周辺分布とは自分の言葉で
2 変量データの共分散・相関係数・回帰分析 2 変量データの相関
ここまで来たよ
1 箱ひげ図・データの変換・標準得点 2 2変量データの共分散・相関係数・回帰分析 2変量データとクロス集計表・散布図 2変量データの相関 回帰分析 Excelで統計2 変量データの共分散・相関係数・回帰分析 2 変量データの相関
正の相関・負の相関・無相関
西川確率統計§5.2.3 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 0 2 4 6 8 10 0 2 4 6 8 10 X Y 強い正の相関 弱い正の相関 無相関 弱い負の相関 強い負の相関 r = 0.99 r = 0.55 r = 0 r =−0.55 r =−0.99 相関 ‘正の相関’: xが大きい ⇔ y が大きい ‘負の相関’: xが大きい ⇔ y が小さい 強い/弱い: 傾向がはっきりしている/していない r: 相関係数rxy とも書く. 計算方法は以下.2 変量データの共分散・相関係数・回帰分析 2 変量データの相関
共分散
高校 数学 I 発展 西川確率統計§5.2.3 相関の強さを数で表したい xの平均値x =1 N N ∑ i=1 xi xの分散 Sx2 =1 N N ∑ i=1 (xi− x)2= 1 N N ∑ i=1 (xi− x)(xi− x) y, Sy2 も同様.共分散 (covariance)
x, yの共分散Cxy = 1 N N ∑ i=1 (xi− x) × (yi− y) 注: Cxy = Sxy, x分散をSx2 = Sxx, yの分散 Sy2= Syy と書く自然な記法 がある.2 変量データの共分散・相関係数・回帰分析 2 変量データの相関
共分散の意味
西川確率統計 p.110 X Y (+,+) (−,−) (−,+) (+,−) Xの平均値 Yの 平均値 (+,−) = (xi− xの符号, yi− yの符号). 共分散が正に/負に大きい⇔ 正の/負の相関が強い(?) なぜなら自分の言葉で
しか∼し(次のスライド)2 変量データの共分散・相関係数・回帰分析 2 変量データの相関
相関係数
高校 数学 I 西川確率統計 p.111 共分散は x, y の1次関数による変換で変わる 西川確率統計定理 5.4(p.112) 次元のある量なので単位を変えると値が変わる
→ 比較に 不便 広い範囲にばらついていたほうが大きくなる
相関係数は,これらの影響を受けずに,相関の強さをそのまま表す.相関係数 (correlation coefficient)
x, yの相関係数r = Cxy Sx× Sy2 変量データの共分散・相関係数・回帰分析 2 変量データの相関
相関係数の性質
相関係数は無次元の量
−1 ≤ r ≤ +1 西川確率統計定理 5.5(p.114) r = 0⇔ ’無相関’しかし…(待て次回) r =±1 ⇔散布図の点が傾き正/負の一直線上 ⇔ yはxの1次関数. 西川確率統計定理 5.7(p.115) r は x, yの1次関数による変換のもとで不変 西川確率統計定理 5.6(p.114)2 変量データの共分散・相関係数・回帰分析 2 変量データの相関 L04-Q1
Quiz(共分散と相関係数 (単位付き))
次の(xg, ycm) のデータがある 1 x, y の共分散を求めよう 2 x, y の相関係数を求めよう. ただし, y の標準偏差 = √ 122 5 = 4.94(cm) は使っちゃっていい. x(g) y(cm) 1 5 3 15 4 14 5 11 7 202 変量データの共分散・相関係数・回帰分析 回帰分析
ここまで来たよ
1 箱ひげ図・データの変換・標準得点 2 2変量データの共分散・相関係数・回帰分析 2変量データとクロス集計表・散布図 2変量データの相関 回帰分析 Excelで統計2 変量データの共分散・相関係数・回帰分析 回帰分析
回帰分析
西川確率統計§5.2.4 回帰(regression), 直線回帰=単回帰分析=1変数回帰分析 物理実験 2変量データ(x, y)が 相関係数 r =±1 に近い⇔散布図上のデータ点(x, y) がほぼ直線に載っ ている その直線(回帰直線
)の式 y = ax + b を知りたい! つまり回帰係数
a, 定数項b を決めたい. 400 420 440 460 480 500 520 250 300 350 400 450 FK shoot.receiv ed y: 目的変数(従属変数) x: 説明変数(独立変数) 何でそんなことしたいの? 法則を見つけたい x から y を予測したい2 変量データの共分散・相関係数・回帰分析 回帰分析
回帰直線の決め方
1 定規をあてて‘真ん中’を通るように 2 最小2乗法で. 最小2乗法 直線からのずれの2乗d2 の合計 L(a, b) = n ∑ i=1 d2i = n ∑ i=1 (yi− (axi+ b))2 の最小条件 ∂L ∂a = ∂L ∂b = 0 でa, bを決める. 微積分 I Y2 変量データの共分散・相関係数・回帰分析 回帰分析
直線回帰の公式
回帰直線
西川確率統計定理 5.8, 式 (5.11) xi, yi (i = 1, . . . , n)の平均値をx, y,標準偏差をSx, Sy,相関係数をr と する. このとき回帰直線は, y= r× Sy Sx × ( x− x) + y = ax+ b. 傾きは a = r×Sy Sx = Cxy S2 x ,切片は b = (点 (x, y)を通るような値) a: 回帰係数(xを1だけ変え たときのyの変化量) r2: 決定係数(あてはまりのよ さ) 西川確率統計§5.2.4 誤差 L(a, b) = N (1− r2)S2.2 変量データの共分散・相関係数・回帰分析 回帰分析
回帰直線の傾きのおぼえ方 I
広がり方 散布図上のデータ点の分布は,横2Sx,縦 2Sy → 傾き SSyx くらい? しか∼し,傾きには正負があるし,相関がなかったら傾きを0にしたいの で,相関係数 r をかけ算しておく. 単位チェック (x, y) の単位が(m,kg)だとする. rは無次元. 単位無し. 左辺 y (kg). 右辺 r×Sy(kg) Sx(m) × x(m) + b(kg) で, Sx/Sy かけると単位があう.2 変量データの共分散・相関係数・回帰分析 回帰分析 L04-Q2
Quiz(回帰係数と回帰直線)
ある2変量データ(x, y) について次のことがわかっている. x の平均値 x 9 y の平均値 y −4 x の分散 s2 x 49 y の分散 s2y 36 x, y の共分散sxy −25 (x, y) のデータの個数n 16 このとき,回帰直線の式を, x, yの式で書こう. 整理しなくてよい.2 変量データの共分散・相関係数・回帰分析 Excel で統計
ここまで来たよ
1 箱ひげ図・データの変換・標準得点 2 2変量データの共分散・相関係数・回帰分析 2変量データとクロス集計表・散布図 2変量データの相関 回帰分析 Excelで統計2 変量データの共分散・相関係数・回帰分析 Excel で統計
準備
統計ソフトウェア実習室にインストールされているのは R 無料. オープンソース. 解説書が多い. SPSS 伝統ある高級品. Excel 機能は限られ怪しいところもあるが,普及率高い. 龍大では Office365で無料. 今日は Excelを使ってみます. スタートボタン >Excel 2016 統計分析のための準備 ファイル>オプション>アドイン> Excelのアドイン>設定>分析ツール に チェックを入れて OKする.2 変量データの共分散・相関係数・回帰分析 Excel で統計
表計算ソフトウェア (Excel) による主な分析
高校 数学 I どこかの段階でデータ範囲を指定,または関数の引数にデータ範囲を指定. メニューベース 関数ベース 平均値, 分散, 標準偏差 データ > 分析 >データ分析 >基本統計量>統計情報 平 均 値 average, 分 散 var.p, 標 準 偏 差 stdev.p,最頻値mode 四分位数 データ > 分析 >データ分析 >順位と百分位数 中央値 median, 四分位 数quartile 度数分布表,ヒ ストグラム データ > 分析 >データ分析 >ヒストグラム>入力範囲と データ区間 frequency +グラフ 散布図 挿入>グラフ>散布図 共分散,相関係 数 データ > 分析 >データ分析 >共分散,相関 covar=covariance.p, correl 回帰分析 データ > 分析 >データ分析 >回帰分析 linest クロス集計表 挿入 > テーブル >ピボット テーブル 行=横のセル2 変量データの共分散・相関係数・回帰分析 Excel で統計
メニューベースの分析をするときの注意
Excelは, 1種類のデータは列方向(縦方向)にならんでいるとデフォルトでは想定する. 分析の種類によっては,列方向,行方向のどちらに並んでいるかを指定できるものも ある. 2変量(n変量)の統計量である,共分散Sxyや相関係数rxyの出力は Sxx Syx Sxy Syy , rxx ryx rxy ryy のように行列状にになっている. Syyやryy は, y = xであるときのSxy, r.よく考える と, Syy= Sy2, ryy= 1であることに気づく. n≥ 3のときはn× n行列になる. 回帰分析の出力では ▶ 重相関 R = 相関係数 r ▶ 重決定 R2 = 決定係数 r2 ▶ 切片の係数 = 回帰直線の切片 b ▶ X 値 1 の係数 = 回帰係数 a ▶ n≥ 3 の重回帰 (x1, x2, . . . , xn−1, y) というものがあり, そのときは X 値 2,· · · などとなっ ていく.2 変量データの共分散・相関係数・回帰分析 Excel で統計
連絡
2017-10-18水 は全学休講 2017-10-25水 は,今回の内容に相当する trial はありません. そのか わり予習復習問題がExcelが必要なヘビーなものになる予定. 締切 2017-10-25水23:59 2017-10-25水は,事前に各自で動画で学習,授業中に演習,授業の最 後に(その日の分の) trialとなる予定. 配布資料は1-503向かいの引出, http://hig3.netで再配布. 加減乗除と平方根(ルート)の使える電卓持ってきてね. 関数電卓で なくてもいいです. 携帯電話の機能・アプリでもかまいません. 樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614) 次回は 西川確率統計§1.4,§2.1,§2.2,§2.3 から内容の一部分を選択して進みます.離散型確率変数
樋口さぶろお
龍谷大学理工学部数理情報学科
確率統計☆演習I L05(2017-10-25 Wed) 最終更新: Time-stamp: ”2017-10-24 Tue 08:38 JST hig”
今日の目標
西川確率統計§1.4,西川確率統計§2 高校 数学 A 高校 数学 B
離散型確率変数の確率,母平均値,母分散,母期 待値が計算できる
2 変量データの共分散・相関係数・回帰分析 L04-Q1 Quiz解答:共分散と相関係数(単位付き) x = 4(g), Sx2 = 4(g2), Sx = 2(g). y = 13(cm), Sx2 = 122/5 = 24.4(cm2), Sy = √ 122/5 = 4.94(cm). 共分散 Sxy = 15[(1− 4)(5 − 13) + (3 − 4)(15 − 13) + (4 − 4)(14 − 13) + (5− 4)(11 − 13) + (7 − 4)(20 − 13)] = 41/5 = 8.2(g·cm). 相関係数 r = 41/5 2·√122/5 = 0.83. L04-Q2 Quiz解答:回帰係数と回帰直線 y + 4 = √−25√36 49√36√49× (x − 9).
離散型確率変数 事象と確率
ここまで来たよ
1 2変量データの共分散・相関係数・回帰分析 2 離散型確率変数 事象と確率 離散的確率変数 母期待値・母平均値・母分散・母標準偏差離散型確率変数 事象と確率
高校数学でありがちな設定
コインを1回投げる 結果 確率 表 1 2 裏 1 2 計 1 前回までの話(記述統計)との関係. {表,裏} = {高橋みなみ,渡辺麻友,· · · } ではない. とりあえず無関係な 別の話だと思って. アイドル作成ゲームで, 新しいメンバーをスカウトする ボタンを押した ら, CPU内部でサイコロが振られて(=確率)身長体重が決まって…を77 回繰りかえしたら, 77個からなる2変量データができた,みたいな関係. 推測統計まで行ったときに明らかになります離散型確率変数 事象と確率
事象と標本空間
高校 数学 A 試行(トランプから1枚引く)を行うと根源事象(♡1がでる)のどれか1 つが起きる. 標本空間 Ω ={♡1, . . . ,♠K} すべての根源事象を集めた集合. 事象 部分集合 A ={カード1,カード2, . . .} = {カードx|条件a(x)} ⊂ ω 全事象 Ω⊂ Ω. 空事象 ∅ ⊂ Ω 補事象 Ac= Ω\ A. Aが起きなかったという事象. 和事象 A∪ B または, 積事象 A∩ B かつ, 排反事象 「A, B が排反事象」 ⇔ A ∩ B = ∅. 同時に起きない離散型確率変数 事象と確率
事象の確率
「事象 A の確率」=P (A) =「条件 a(X) が成立する確率」=P (a(X)) Ω =(トランプ全体) のとき, P ({♡1, . . . , ♡K}) = P (Xが♡) = (♡がでる確率) P ({♡1}) = P (Xが♡1) = (♡1がでる確率) P ({♣1, . . . , ♣K, ♠1, . . . , ♠K}) = P (Xが黒札) = (X黒札がでる確率) ここではやらないこと 確率の公理西川確率統計§1.3 定義 1.1 確率に関する基本的定理 西川確率統計定理 1.1(p.15)
離散型確率変数 離散的確率変数
ここまで来たよ
1 2変量データの共分散・相関係数・回帰分析 2 離散型確率変数 事象と確率 離散的確率変数 母期待値・母平均値・母分散・母標準偏差離散型確率変数 離散的確率変数
離散的確率変数
西川確率統計§2高校数学でありがちな問題
袋に赤玉2個,白玉3個がはいっている. いちどに3個取り出したとき, 赤玉が x 個である確率は ? X が確率変数. X は離散型確率変数 離散型≈整数値 易しく言ったら, Ω ={0, 1, 2, 3}. この元がX. 厳密な流儀で言うと,確率変数とは,事象を数に対応させる関数. 例:カード7→ カードのマークの数離散型確率変数 離散的確率変数 x 確率 f (x) .. . 0 −1 0 0 101 = 1/5C3 1 106 = 2· 3/5C3 2 103 = 1· 3/5C3 3 0 .. . 0 計 1 言葉 確 率 分 布 (確 率 関 数) 西川確率統計§2.1.1 定義 2.1 f (x) = 1 10 (x = 0) 6 10 (x = 1) 3 10 (x = 2) 0 (他) 確率分布の性質 0 ≤ f(x) ≤ 1. ∑ xf (x) = 1.
離散型確率変数 母期待値・母平均値・母分散・母標準偏差
ここまで来たよ
1 2変量データの共分散・相関係数・回帰分析 2 離散型確率変数 事象と確率 離散的確率変数 母期待値・母平均値・母分散・母標準偏差離散型確率変数 母期待値・母平均値・母分散・母標準偏差
関数 ϕ(x) の母期待値
西川確率統計§2.2.1 定義 2.7 高校 数学 AB関数 ϕ(x) の母期待値 E[ϕ(X)]
離散型確率変数 X が確率分布 f (x) =· · · に従うとき, E[ϕ(X)] =∑ x f (x)× ϕ(x) ϕ は普通の関数. 例: ϕ(x) = x2, ex, (場合分けで書かれた関数), . . .性質
E[1] = 1. (ϕ(x) = 1 と∑xf (x) = 1 から)特に名前のついた量
母平均値 m = E[X]. (ϕ(x) = xってこと). (xの)母期待値とも 母分散 = V [X] = E[(X− m)2]. (ϕ(x) = (x− m)2ってこと) 母標準偏差=√V [X]離散型確率変数 母期待値・母平均値・母分散・母標準偏差
事象の確率
事象A の確率 ⇔ 条件 a(X)が成立する確率特徴関数
関数1[a(X)](x) = { 1 (a(x)が真) 0 (a(x)が偽) とすると,P (A) = P (a(X)) = E[1[a(X)](X)]
例
1[X2≤4](x) =
{
1 (−2 ≤ x ≤ 2) 0 (他)
離散型確率変数 母期待値・母平均値・母分散・母標準偏差 L05-Q1
Quiz(
離散的な確率変数の母平均・母分散・母標準偏差)
確率変数X は次の確率分布に従う. f (x) = 4 12 (x =−1) 5 12 (x = 0) 3 12 (x = 2) 0 (他) 1 母期待値E[eX]を求めよう. 2 X の母平均値を求めよう. 3 X の母分散を求めよう. 4 X の母標準偏差を求めよう. 5 事象 X≤ 1の確率を求めよう.離散型確率変数 母期待値・母平均値・母分散・母標準偏差
母平均値, 母分散の性質
母平均値の性質
西川確率統計定理 2.7(p.48) の特別な場合 高校 数学 B X: 確率変数, a, b∈ R:定数 のとき, E[aX + b] =∑ x f (x)× (ax + b) = ( a∑ x f (x)x ) + b∑ x f (x) = aE[X] + b. E[ϕ1(X) + ϕ2(X)] = ∑ x f (x)× (ϕ1(X) + ϕ2(X)) =E[ϕ1(X)] + E[ϕ2(X)].もちろん一般には E[ϕ(X)]̸= ϕ(E[X]), E[X2]̸= (E[X])2.
離散型確率変数 母期待値・母平均値・母分散・母標準偏差
母分散の性質
高校 数学 B X: 確率変数, a, b∈ R:定数 のとき, V[aX + b] = a2V[X].母分散の性質
西川確率統計定理 2.12(p.54) 高校 数学 B V[X] = E[X2]− (E[X])2離散型確率変数 母期待値・母平均値・母分散・母標準偏差 L05-Q2
Quiz(確率変数の変換)
確率変数 X の母期待値,母分散は次を満たす. V[X] = 9, E[X] = 2. 1 母期待値 E[−X2+ 2X− 3]を求めよう. 2 確率変数 Y =−2X − 3 の母分散V[−2X − 3] を求めよう.離散型確率変数 母期待値・母平均値・母分散・母標準偏差 L05-Q3
Quiz(離散的な確率変数の母平均値・母分散・母標準偏差・確率)
確率変数 X は次の確率分布に従う. f (x) = { x 55 (0≤ x ≤ 10) 0 (他) 1 確率 P (X ≤ 5)を求めよう. 2 母平均値 E[X]を求めよう. 3 母分散V[X]を求めよう.離散型確率変数 母期待値・母平均値・母分散・母標準偏差 L05-Q4 西川確率統計問題 2.3(p.44) L05-Q5 西川確率統計演習 2.1(p.59) L05-Q6 西川確率統計演習 2.6(p.59)
離散型確率変数 母期待値・母平均値・母分散・母標準偏差
連絡
Excelでやる回帰分析の「レポート」Learn Math Moodle 2017-10-27
金まで. 2017-11-01水1 教室変更あるかも 2017-11-22水1 プチテスト予定 配布資料は1-503向かいの引出, http://hig3.netで再配布. 加減乗除と平方根(ルート)の使える電卓持ってきてね. 関数電卓で なくてもいいです. 携帯電話の機能・アプリでもかまいません. 樋口オフィスアワー月3.5(1-539)金4(1-502), Mathラウンジ月-木昼 (1-614) 次回は 西川確率統計 1.5.
多次元の確率分布と独立性
樋口さぶろお
龍谷大学理工学部数理情報学科
確率統計☆演習I L06(2017-11-01 Wed) 最終更新: Time-stamp: ”2017-10-31 Tue 07:53 JST hig”
今日の目標 同時分布から周辺分布,母期待値,母共分散,母 相関係数が計算できる 西川確率統計§2.3 確率変数の独立性を判定し利用できる 西川確率統計§1.5.4 http://hig3.net
離散型確率変数 L05-Q1 Quiz 解答:離散的な確率変数の母平均・母分散・母標準偏差 1 期待値 E[eX] = 4 12· e−1+ 5 12 · e 0+ 3 12· e 2. 2 母平均値 E[X] = 4 12 · (−1) + 5 12· 0 + 3 12 · 2 = 1 6(= µ). 3 母分散 V[X] = E[(X− µ)2] = 124 · (−1 −16)2+125 · (0 −61)2+123(2− 16)2= 4736. 4 母標準偏差√V[X] = √ 47 36. 5 確率 E[1 [a(X)](X)] = 124 · 1 + 5 12· 1 + 3 12 · 0 = 9 12 = 3 4. L05-Q2 Quiz 解答:確率変数の変換 E[X2] = V[X] + E[X]2= 13.
1 E[−X2+ 2X− 3] = −E[X2] + 2E[X]− 3E[1] = −13 + 2 · 2 − 3 · 1 = −12. 2 V[−2X − 3] = V[−2X] = (−2)2V[X] = 36.