生物統計学演習
担当 茅野 光範 (かやの みつのり)!
帯広畜産大学 !
グローバルアグロメディシン研究センター! (研究域:畜産衛生学研究部門)!
研究室: 総合研究棟Ⅰ号館 N2302-6!
E-mail: [email protected]
1
1回目:ガイダンスとエクセルに慣れる
今日の内容
演習の話(ガイダンス)
到達目標、講義資料と評価方法、
生物統計学について
Excel(エクセル)の実習
1. エクセルに慣れる
2. ヒストグラムを描く
3. 平均や分散を求める 4. 棒グラフを描く
5. 散布図を描く。相関係数を求める
2
演習の話(ガイダンス)
到達目標、講義資料と評価方法など
3
この演習の目標
1年生のときに習った統計学の内容+αを エクセルで行えるようになる
[記述統計学]
• ヒストグラムや散布図を描き、基本統計値を使って、
データのとりまとめをする (平均や分散)
[推測統計学]
• 母数(特に母平均)の信頼区間を求める
• 仮説検定 特に t検定やカイ二乗検定を行う
4
講義の予定 全
4日
1日目 ガイダンス&エクセルに慣れる
(ヒストグラムを描く、平均や分散を求める)
2日目 散布図と相関係数、回帰直線 3日目 確率分布と信頼区間、t-検定
4日目 いろいろな検定: カイ二乗検定と分散分析
5
教科書と評価方法
• 教科書:
打波守・野地澄晴(訳)
「アットザベンチ バイオ実験室の統計学」
メディカルサイエンスインターナショナル 2012
• 評価:課題提出と期末試験など による総合評価を予定
6
参考書
教科書等
1. 馬場裕 「初歩からの統計学」 牧野書店,1994年
基本的な内容をまんべんなく、コンパクトにまとめてある
2. 涌井良幸・涌井貞美 「統計処理ポケットリファレンス」 技術評論社 2013 Excelや統計ソフトウェアRの例が充実している
漫画
4. 向後千春「まんがと図解でわかる統計学」宝島社 2014年
その他
5. 「Statistics for Veterinary and Animal Science」
数式は最小限、幅広い内容
7
宣伝: 獣医畜産の統計の本(洋書)
1. 「Statistics for Veterinary and Animal Science」
数式は最小限、幅広い内容
2. 「Biotatistics for Animal Science」
数式も例題も豊富、内容幅広い。統計的に少しハード
¥6,368
Amazon ¥9,883
Amazon
C a B Intl; 2版 (2009) Wiley-Blackwell; 3版 (2013)
8
その他
Wiley 2015/11/9発売
Amazonより
9
Excelの使い方の本
エクセルの操作を、
詳しく知りたい場合に。
他にも、Googleなど の検索も使える 例:「excel t-検定」
演習の話(ガイダンス)
生物統計学について
10
生物統計学とは
統計学の生物学に対する応用領域で、様々な生物学領域を含む。
特に医学と農学への応用が重要である。
医学では生物統計学、農学では生物測定学の名を用いることが多い。
古くは“biometrics”の名が使われたが、現在バイオメトリクスという呼
称は異なる分野を指す語となっている。
しかしバイオメトリクスの基本的な理念や方法論(例えば指紋による 個人識別)は古典的な生物統計学にルーツを求めることができる。
また理論生物学とも密接な関係がある。
11
[ウィキペディアより]
生物統計学のルーツ:農学など
• 「ロザムステッド農業試験場(イギリス)」 R.A. Fisher 90年分の肥料の成分と穀物の収穫量、降水量の記録
⇒ 「実験計画法」(1935年)や最尤法など
• 「F. Galton生物測定研究所(イギリス)」 F. GaltonとK. Pearson 家族の身長、体重、特定の骨の測定値など
(簡単に測れる形質の遺伝の調査)
⇒ 「平均への回帰」や
「K. Pearsonによる確率分布」(1900年頃)など
“観測データは常に誤差を含む不確実なもので、
確実なものはデータの背後にある確率分布”
• 「ギネスビール社(アイルランド)」 W.S. Gosset(スチューデント)
ビールに使われる酵母数の推定など
⇒ 「ポアソン分布の実例」 (1904年)、
「スチューデントのt分布」(1908年)など
参考書:「統計学を拓いた異才たち」日本経済新聞社2006年 12
19世紀から20世紀初頭
画像出典:ウィキペディア
2013年1月発売
あえて断言しよう。
あらゆる学問のなかで
統計学が最強の学問であると。
(中略)
「ビッグデータ」などの言葉が流行 ることもそうした状況の現れだが、
はたしてどれだけの人が、
その本当の魅力とパワフルさを 知っているだろうか。
「統計学を上手く使うと
色々なことがわかってきます」
hVp://d.hatena.ne.jp/the-world-is-yours/20130207/p1
統計学が最強
!?(少なくとも注目されている)“
次の
10年間で
魅力的な仕事は統計学者である
”“I keep saying that
the sexy job in the next 10 years will be sta7s7cians.”
Hal Varian,
Chief Economist, Google.
For Today’s Graduate, Just One Word: Stacsccs, August 5, 2009
hVp://www.nycmes.com/2009/08/06/technology/06stats.html?_r=1
(統計を使える人=データサイエンティスト)
14
統計学は海外でも注目を集めている
基本的な手法と具体例
1/3t-検定 (Gosset) 平均値の差の検定
例: 薬を投与すると
マウスの体重は変化するか?
15
参考書: 「医学への統計学」朝倉書店1993年 「逆引き統計学」講談社2009年 「生物統計学入門」(ハーバード大学講義テキスト) 丸善2005年
「バイオ実験室の統計学」(エクセルで学ぶ生物統計の基本) 画像出典:ウィキペディア
x y
50556065体重 (g)
control case 対照群 投与群 p=4×10-5
対照群 マウス1 マウス2 マウス3 ・・・ マウス30 体重(g) 54.2 62.8 55.5 51.1 投与群 マウス1 マウス2 マウス3 ・・・ マウス30 体重(g) 59.4 58.9 53.8 55.8
観測データ
基本的な手法と具体例
2/3カイ2乗検定 (K. Pearson)
例: 新薬の副作用は出やすいのか?
16
参考書: 「医学への統計学」朝倉書店1993年 「逆引き統計学」講談社2009年 「生物統計学入門」(ハーバード大学講義テキスト) 丸善2005年
「バイオ実験室の統計学」(エクセルで学ぶ生物統計の基本) 画像出典:ウィキペディア
副作用
あり なし 症例数 対照薬 7 30 37
新薬 18 20 38 計 25 50 75 p=0.018
対象薬 個体1 個体2 個体3 ・・・ 個体37 副作用 なし なし あり なし
新薬 個体1 個体2 個体3 ・・・ 個体38 副作用 あり なし あり あり
観測データ
基本的な手法と具体例
3/3分散分析 (ANOVA)
複数の平均値の差の検定
例:薬の違いによって
マウスの体重に差があるか?
17
群 薬1 薬2 薬3 体重(g) 50.6
47.5 43.4
55.0 49.4 47.8
47.7 44.8 60.7
観測データ
参考書: 「医学への統計学」朝倉書店1993年 「逆引き統計学」講談社2009年 「生物統計学入門」(ハーバード大学講義テキスト) 丸善2005年
「バイオ実験室の統計学」(エクセルで学ぶ生物統計の基本)
体重 (g)
投与群1 投与群2 投与群3
・・・ ・・・ ・・・
ANalysis Of VAriance
統計的な方法をどうやって使うのか?
• 統計ソフトに組み込まれている Excelに入っている
• 分析内容がわからなくても、
どの方法を使えばいいのかわからなくても、
とりあえず結果が出る
⇒ 誤用につながる 応用が利かなくなる
統計(ソフト)を使いこなすためにも、
まずは、統計学の知識が必要(1年生)
つぎに、Excelなどの実習が必要(2年生)
18
Excel
(エクセル)の実習
1.エクセルに慣れる
2.
ヒストグラムを描く
3.
平均や分散を求める
4.棒グラフを描く
19
Excel
(エクセル)の実習
1.エクセルに慣れる
エクセルを開く
電卓として使う
データを入力するなど
20
まずは、エクセルを開く
21
ショートカットから開く
メニューから開く
ダブルクリックする
Excelを選んで
クリックする
Excel
の画面の説明
タブ
セル
タブ
ここに、データや数式を書く
↑ 行
↓
←列→
Excel
を電卓として使う
1/2Enterキー
23
Excel
を電卓として使う
2/224
Enterキー
データを入力する
25
入力したデータを行ごとに足す
1/4Enterキー
26
入力したデータを行ごとに足す
2/4Enterキー
27
入力したデータを行ごとに足す
3/4D4セルの右下の隅に
カーソルを合わせる 下までドラッグする
28
入力したデータを行ごとに足す
4/4D4セルの内容がコピーされ、
計算してくれる
29
入力したデータを行ごとに引く
1/2足し算と同様
30
入力したデータを行ごとに引く
2/2計算できた
31
エクセルファイルを保存する(畜大)
32
「ファイル」タブから
「名前を付けて保存」
を選択
HOME(¥¥filesvedu)(H: )にある、
マイドキュメントを選択し、
適当なファイル名(ここでは、Book1)をつけて保存する
参考画面
Excel
(エクセル)の実習
2.ヒストグラムを描く
教科書3.3節 33
準備
1/2: 分析ツールを入れる
「データ」タブに「データ分析」がない場合、
以下の手順で分析ツールを入れる
1. 「ファイル」タブから「オプション」を選ぶ 2. 「アドイン」で、「設定」を選ぶ
3. 「分析ツール」にチェックを入れ、「OK」とする 4. 「データ」タブに「データ分析」があればOK
1回だけでよい
34
準備
2/2:データ入力と階級の設定
35
15人の身長のデータ
単位はcm
階級は以下のように設定する
• 160cm以下
• 160cmより大きい、165cm以下
• 165cmより大きい、170cm以下
• 170cmより大きい、175cm以下
• 175cmより大きい、180cm以下
• 180cmより大きい、185cm以下
シート「身長」
ヒストグラムを描く
1/3• 「データ」タブから、
「データ分析」を選ぶ
• 右画面で、「ヒストグラム」を 選ぶ
• 右下のような画面が出てくる
36
ヒストグラムを描く
2/3• 右下の画面で、「入力範囲」(データ)、
「データ区間」(階級の設定)、「出力先」を設定する
• 一番下の「グラフ作成」をチェックする
37
ヒストグラムを描く
3/338
度数分布表とヒストグラムが出力される
きれいなヒストグラムを描く
1/41. 図を大きくする → グラフエリアを広げる。
具体的には、カーソルをグラフ右下に合わせてドラッグする 2. 凡例(■頻度)を消す
→ 「■頻度」にカーソルを合わせて「delete」か「Backspace」を押す
3. 棒の幅を広げ、枠線を入れる (詳細は次項)
→ 棒のどれかにカーソルを合わせ、右クリック。
「データ系列の書式設定」を選択。
「系列のオプション」で、「要素の間隔」を「なし」にする
「枠線の色」で、「線(単色)」などを選び、適当な色を設定する 4. 横軸のラベルを「身長(cm)」にする
→ 「データ区間」にカーソルを合わせ、「身長(cm)」と打ち込む 5. 縦軸の目盛りを1刻みにする (詳細は2枚後)
→ 縦軸の目盛りにカーソルを合わせ右クリックし、「軸の書式設定」を選択39
きれいなヒストグラムを描く
2/440
3. 棒の幅を広げ、枠線を入れる
→ 棒のどれかにカーソルを合わせ、右クリック。
「データ系列の書式設定」を選択。
「系列のオプション」で、
「要素の間隔」を「なし」にする
「枠線の色」で、「線(単色)」
などを選び、適当な色を設定 する(ここでは黒にした)
きれいなヒストグラムを描く
3/441
5. 縦軸の目盛りを1刻みにする
→ 縦軸の目盛りにカーソルを合わせ右クリックし、「軸の書式設定」を選択
「軸のオプション」で 目盛り間隔を「1」にする
きれいなヒストグラムを描く
4/442
出来上がったヒストグラム
Excel
(エクセル)の実習
3.
平均や分散を求める
教科書3.2.2節 43
和と平均値を求める
44
和: 「SUM」を使う 平均値: 「AVERAGE」を使う
平均値=171となる 参考:中央値は「MEDIAN」を使えば良い
求めた平均値を確認する
和をデータ数n(=15)で割ればいい
45
分散と標準偏差を求める
46
分散: 「VAR.P」を使う
標準偏差=7.08…となる
標準偏差: 「SQRT」を使う
あるいは、「STDEV.Pを使う」
求めた分散の確認のためには、
偏差の2乗平均を計算すればいい 分散=50.13…となる
標準誤差を求める
標準偏差を
データ数n(=15)の平方根で 割ればいい
標準誤差=1.82…になる
47
Excel
(エクセル)の実習
4.棒グラフを描く
48
棒グラフを描く
1/249
シート「身長2」にある 身長の平均値と
標準誤差を求める
平均値を選択し、
「挿入」タブから
「縦棒」の「2-D縦棒」、
特に、「集合縦棒」を選ぶ
棒グラフを描く
2/250
棒グラフが出力される
棒グラフを見やすくする
• 「■系列1」を消す
• 縦軸の目盛りを165から175にする
得られた棒グラフ
51
棒グラフにエラーバーをつける
1/452
グラフを選択(クリック)し、
「レイアウト」タブから、「誤差範囲」
→「その他の誤差範囲オプション」を選択する
52
棒グラフにエラーバーをつける
2/453
「誤差範囲の書式設定」ダイアログが 開くので、
「縦軸誤差範囲」タブ
・ 「表示」で、「正方向」をチェックする
・ 「誤差範囲」で「ユーザー設定」を チェックする
→ 「値の指定」をクリック
棒グラフにエラーバーをつける
3/454
誤差範囲として、身長1と身長2の標準誤差を選択
棒グラフにエラーバーをつける
4/455
出力結果
散布図と相関係数 散布図を描く
相関係数を求める
56
数学と英語のデータ
学生10人の数学と英語の成績
学生No 1 2 3 4 5 6 7 8 9 10 数学 (x) 5 3 6 10 4 7 7 3 9 6 英語 (y) 7 8 4 8 3 6 10 2 5 5
57!
) , , 2 , 1 (
) , (
) ,
(, ),
, ( ), ,
( 1 1 2 2
n i
y x or
y x y
x y
x
i i
n n
!
!
=
1人目のデータ
「初歩からの統計学」【例1.4.1】
=5
=7
=3
=8
=6
=4
散布図を描く
58!
2変数の関係の強さは? → 相関係数 関係式は? → 回帰分析
1. データを選択する
2. 「挿入」タブから 「散布図」を選ぶ
復習: 相関係数の定義
Pearson(ピアソン)相関係数とも呼ばれる
y x
xy
s s r = s :
相関係数
) (
) 1 (
, ) 1 (
) (
) )(
1 (
1
2 1
2 1
の標準偏差 と
は と
の共分散 と
y x
s s
y n y
s x
n x s
y x
y y
x n x
s
y x
n i
i y
n i
i x
n i
i i
xy
∑
∑
∑
=
=
=
−
=
−
=
−
−
=
−1≤ r ≤1
59!
標準偏差(SD; Standard Deviacon)
復習: 相関係数
rの解釈
r=0 : 相関がない(無相関)
r>0 : 正の相関があるかもしれない
rが大きいほど相関が強い (r>0.3, >0.4など)
r=1: 全てのデータが右上がりの直線上にある
r<0: 負の相関があるかもしれない
rの絶対値が大きいほど相関が強い
r=-1: 全てのデータが右下がりの直線上にある
60!
正
負 0
(r<-0.3,
<-0.4など)
復習: 散布図と相関係数の対応
61!
-2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -3 -2 -1 0 1 2
-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
正
-2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5
-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4
-2.5 -1.5 -0.5 0.5 1.5 2.5
負
r ≒ 0.3 r ≒ 0.6
r ≒ 0.9
r ≒ -0.3 r ≒ -0.6
r ≒ -0.9
課題 1
年ごとの乳量(kg/日・頭)
個体 90年 95年 00年 1 31.1 20.7 32.6 2 23.1 36.5 41.4 3 20.7 33.5 36.3 4 25.2 31.7 41.9 5 25.0 32.4 32.1 6 16.1 35.8 26.4 7 25.8 34.7 40.3 8 32.5 32.0 34.3 9 27.2 25.6 34.0 10 27.9 41.4 34.6
*データは仮のものです 右表の乳量のデータについて
1. 年ごとに以下を行う
(1) 平均値、分散、標準偏差、
標準誤差を求める (2) ヒストグラムを描く
2. すべてのデータについて 以下を行う 平均値を使って棒グラフを描く (エラーバーをつける)
階級は例えば、
20キロ以下
20キロより大きい25キロ以下、
25キロより大きい30キロ以下、
30キロより大きい35キロ以下、
35キロより大きい40キロ以下、
40キロより大きい45キロ以下、とする
62
シート「milk data」
課題
2相関係数などを求める 散布図を描く
6363!!
シート「数学と英語」
課題の提出(畜大)
• 提出先: ファイルサーバー内のフォルダ 「茅野」 ⇒「生物統計学演習1」
• 要領 : 作成したエクセルファイルを
ファイルサーバー内のフォルダに保存する
• 学籍番号と名前
:エクセルファイルの名前に、
学籍番号と名前を記入
例:学籍番号s100番、茅野光範なら、
ファイル名は「s100茅野光範.xlsx」
64!