• 検索結果がありません。

生物統計学演習

N/A
N/A
Protected

Academic year: 2021

シェア "生物統計学演習"

Copied!
64
0
0

読み込み中.... (全文を見る)

全文

(1)

生物統計学演習

担当 茅野 光範 (かやの みつのり)!

      帯広畜産大学 !

      グローバルアグロメディシン研究センター!       (研究域:畜産衛生学研究部門)!

      研究室: 総合研究棟号館 N2302-6!

      E-mail: kayano@obihiro.ac.jp

1

1回目:ガイダンスとエクセルに慣れる

(2)

今日の内容

演習の話(ガイダンス)

  到達目標、講義資料と評価方法、

  生物統計学について

Excel(エクセル)の実習

  1. エクセルに慣れる

2. ヒストグラムを描く

  3. 平均や分散を求める   4. 棒グラフを描く

  5. 散布図を描く。相関係数を求める

2

(3)

演習の話(ガイダンス)

到達目標、講義資料と評価方法など   

3

(4)

この演習の目標

1年生のときに習った統計学の内容+αを エクセルで行えるようになる

[記述統計学]

•  ヒストグラムや散布図を描き、基本統計値を使って、

データのとりまとめをする  (平均や分散)

[推測統計学]

•  母数(特に母平均)の信頼区間を求める

•  仮説検定 特に t検定やカイ二乗検定を行う

4

(5)

講義の予定 全

4

1日目 ガイダンス&エクセルに慣れる

     (ヒストグラムを描く、平均や分散を求める)

2日目 散布図と相関係数、回帰直線 3日目 確率分布と信頼区間、t-検定

4日目 いろいろな検定: カイ二乗検定と分散分析

5

(6)

教科書と評価方法

•  教科書:

  打波守・野地澄晴(訳)

  「アットザベンチ バイオ実験室の統計学」 

   メディカルサイエンスインターナショナル  2012

•  評価:課題提出と期末試験など      による総合評価を予定

6

(7)

参考書

教科書等  

1. 馬場裕 「初歩からの統計学」 牧野書店,1994

    基本的な内容をまんべんなく、コンパクトにまとめてある

2. 涌井良幸・涌井貞美 「統計処理ポケットリファレンス」 技術評論社 2013     Excelや統計ソフトウェアRの例が充実している

  

漫画

4. 向後千春「まんがと図解でわかる統計学」宝島社 2014年

その他

5. 「Statistics for Veterinary and Animal Science」

   数式は最小限、幅広い内容

7

(8)

宣伝: 獣医畜産の統計の本(洋書)

1. 「Statistics for Veterinary and Animal Science」

   数式は最小限、幅広い内容

2. 「Biotatistics for Animal Science」

  数式も例題も豊富、内容幅広い。統計的に少しハード

¥6,368

Amazon ¥9,883

Amazon

C a B Intl; 2(2009) Wiley-Blackwell; 3(2013)

8

(9)

その他

Wiley 2015/11/9発売

Amazonより

9

Excelの使い方の本

エクセルの操作を、

詳しく知りたい場合に。

他にも、Googleなど の検索も使える 例:「excel t-検定」

(10)

演習の話(ガイダンス)

  生物統計学について

10

(11)

生物統計学とは

統計学の生物学に対する応用領域で、様々な生物学領域を含む。

特に医学と農学への応用が重要である。

医学では生物統計学、農学では生物測定学の名を用いることが多い。

古くは“biometrics”の名が使われたが、現在バイオメトリクスという呼

称は異なる分野を指す語となっている。

しかしバイオメトリクスの基本的な理念や方法論(例えば指紋による 個人識別)は古典的な生物統計学にルーツを求めることができる。

また理論生物学とも密接な関係がある。       

       

11

[ウィキペディアより]

(12)

生物統計学のルーツ:農学など

•  「ロザムステッド農業試験場(イギリス)」       R.A. Fisher     90年分の肥料の成分と穀物の収穫量、降水量の記録

    ⇒ 「実験計画法」(1935年)や最尤法など

•  F. Galton生物測定研究所(イギリス)」        F. GaltonK. Pearson     家族の身長、体重、特定の骨の測定値など

    (簡単に測れる形質の遺伝の調査)

    ⇒ 「平均への回帰」や

       「K. Pearsonによる確率分布」(1900年頃)など

       観測データは常に誤差を含む不確実なもので、

        確実なものはデータの背後にある確率分布

「ギネスビール社(アイルランド)」 W.S. Gosset(スチューデント)

    ビールに使われる酵母数の推定など

    ⇒  「ポアソン分布の実例」  (1904年)、

       「スチューデントのt分布」(1908年)など

参考書:「統計学を拓いた異才たち」日本経済新聞社2006 12

19世紀から20世紀初頭

画像出典:ウィキペディア

(13)

20131月発売

あえて断言しよう。

あらゆる学問のなかで

統計学が最強の学問であると。

(中略)

「ビッグデータ」などの言葉が流行 ることもそうした状況の現れだが、

はたしてどれだけの人が、

その本当の魅力とパワフルさを 知っているだろうか。

「統計学を上手く使うと

 色々なことがわかってきます」

hVp://d.hatena.ne.jp/the-world-is-yours/20130207/p1

統計学が最強

!?(少なくとも注目されている)

(14)

次の

10

年間で

魅力的な仕事は統計学者である

I keep saying that

the sexy job in the next 10 years will be sta7s7cians.”

Hal Varian,

Chief Economist, Google.

For Today’s Graduate, Just One Word: Stacsccs, August 5, 2009

hVp://www.nycmes.com/2009/08/06/technology/06stats.html?_r=1

(統計を使える人=データサイエンティスト)

14

統計学は海外でも注目を集めている

(15)

基本的な手法と具体例

1/3

t-検定 (Gosset)  平均値の差の検定

例: 薬を投与すると

   マウスの体重は変化するか? 

15

参考書: 「医学への統計学」朝倉書店1993年  「逆引き統計学」講談社2009        「生物統計学入門」(ハーバード大学講義テキスト) 丸善2005

       「バイオ実験室の統計学」(エクセルで学ぶ生物統計の基本) 画像出典:ウィキペディア

x y

50556065体重 (g)

control case 対照群 投与群 p=4×10-5

対照群 マウス1 マウス2 マウス3 ・・・ マウス30 体重(g) 54.2 62.8 55.5 51.1 投与群 マウス1 マウス2 マウス3 ・・・ マウス30 体重(g) 59.4 58.9 53.8 55.8

観測データ

(16)

基本的な手法と具体例

2/3

カイ2乗検定 (K. Pearson

例: 新薬の副作用は出やすいのか?

16

参考書: 「医学への統計学」朝倉書店1993年  「逆引き統計学」講談社2009        「生物統計学入門」(ハーバード大学講義テキスト) 丸善2005

       「バイオ実験室の統計学」(エクセルで学ぶ生物統計の基本) 画像出典:ウィキペディア

副作用

あり なし 症例数 対照薬 7 30 37

新薬 18 20 38 25 50 75 p=0.018

対象薬 個体1 個体2 個体3 ・・・ 個体37 副作用 なし なし あり なし

新薬 個体1 個体2 個体3 ・・・ 個体38 副作用 あり なし あり あり

観測データ

(17)

基本的な手法と具体例

3/3

分散分析 (ANOVA)

複数の平均値の差の検定

例:薬の違いによって

  マウスの体重に差があるか?

17

薬1 2 3 体重(g) 50.6

47.5 43.4

55.0 49.4 47.8

47.7 44.8 60.7

観測データ

参考書: 「医学への統計学」朝倉書店1993年  「逆引き統計学」講談社2009        「生物統計学入門」(ハーバード大学講義テキスト) 丸善2005

       「バイオ実験室の統計学」(エクセルで学ぶ生物統計の基本)

体重 (g)

投与群1 投与群2 投与群3

・・・ ・・・ ・・・

ANalysis Of VAriance

(18)

統計的な方法をどうやって使うのか?

•  統計ソフトに組み込まれている Excelに入っている

•  分析内容がわからなくても、

  どの方法を使えばいいのかわからなくても、

  とりあえず結果が出る

 ⇒ 誤用につながる  応用が利かなくなる

 統計(ソフト)を使いこなすためにも、

 まずは、統計学の知識が必要(1年生)

つぎに、Excelなどの実習が必要(2年生)

18

(19)

Excel

(エクセル)の実習   

1.

エクセルに慣れる

2.

ヒストグラムを描く

  

3.

平均や分散を求める   

4.

棒グラフを描く

19

(20)

Excel

(エクセル)の実習   

1.

エクセルに慣れる

 エクセルを開く

   電卓として使う

   データを入力するなど

20

(21)

まずは、エクセルを開く

21

ショートカットから開く

メニューから開く

ダブルクリックする

Excelを選んで

クリックする

(22)

Excel

の画面の説明

タブ

セル

タブ

ここに、データや数式を書く

(23)

Excel

を電卓として使う 

1/2

Enterキー

23

(24)

Excel

を電卓として使う

2/2

24

Enterキー

(25)

データを入力する

25

(26)

入力したデータを行ごとに足す

1/4

Enterキー

26

(27)

入力したデータを行ごとに足す

2/4

Enterキー

27

(28)

入力したデータを行ごとに足す

3/4

D4セルの右下の隅に

カーソルを合わせる 下までドラッグする

28

(29)

入力したデータを行ごとに足す

4/4

D4セルの内容がコピーされ、

計算してくれる

29

(30)

入力したデータを行ごとに引く

1/2

足し算と同様

30

(31)

入力したデータを行ごとに引く

2/2

計算できた

31

(32)

エクセルファイルを保存する(畜大)

32

「ファイル」タブから

「名前を付けて保存」

を選択

HOME¥¥filesvedu)(H: )にある、

マイドキュメントを選択し、

適当なファイル名(ここでは、Book1)をつけて保存する

参考画面

(33)

Excel

(エクセル)の実習

  2.

ヒストグラムを描く   

教科書3.3 33

(34)

準備

1/2

: 分析ツールを入れる

「データ」タブに「データ分析」がない場合、

以下の手順で分析ツールを入れる

1. 「ファイル」タブから「オプション」を選ぶ 2. 「アドイン」で、「設定」を選ぶ

3. 「分析ツール」にチェックを入れ、「OK」とする 4. 「データ」タブに「データ分析」があればOK

1回だけでよい

34

(35)

準備

2/2

:データ入力と階級の設定

35

15人の身長のデータ

単位はcm

階級は以下のように設定する

•  160cm以下

•  160cmより大きい、165cm以下

•  165cmより大きい、170cm以下

•  170cmより大きい、175cm以下

•  175cmより大きい、180cm以下

•  180cmより大きい、185cm以下

シート「身長」

(36)

ヒストグラムを描く

1/3

•  「データ」タブから、

  「データ分析」を選ぶ

•  右画面で、「ヒストグラム」を   選ぶ

•  右下のような画面が出てくる

36

(37)

ヒストグラムを描く

2/3

•  右下の画面で、「入力範囲」(データ)、

  「データ区間」(階級の設定)、「出力先」を設定する

•  一番下の「グラフ作成」をチェックする

37

(38)

ヒストグラムを描く

3/3

38

度数分布表とヒストグラムが出力される

(39)

きれいなヒストグラムを描く

1/4

1. 図を大きくする  グラフエリアを広げる。

  具体的には、カーソルをグラフ右下に合わせてドラッグする 2.  凡例(■頻度)を消す

「■頻度」にカーソルを合わせて「delete」か「Backspace」を押す

3. 棒の幅を広げ、枠線を入れる (詳細は次項)

 棒のどれかにカーソルを合わせ、右クリック。

   「データ系列の書式設定」を選択。

   「系列のオプション」で、「要素の間隔」を「なし」にする

   「枠線の色」で、「線(単色)」などを選び、適当な色を設定する 4. 横軸のラベルを「身長(cm)」にする

 「データ区間」にカーソルを合わせ、「身長(cm)」と打ち込む 5. 縦軸の目盛りを1刻みにする (詳細は2枚後)

縦軸の目盛りにカーソルを合わせ右クリックし、「軸の書式設定」を選択39

(40)

きれいなヒストグラムを描く

2/4

40

3. 棒の幅を広げ、枠線を入れる

 棒のどれかにカーソルを合わせ、右クリック。

   「データ系列の書式設定」を選択。

「系列のオプション」で、

「要素の間隔」を「なし」にする

「枠線の色」で、「線(単色)」

などを選び、適当な色を設定 する(ここでは黒にした)

(41)

きれいなヒストグラムを描く

3/4

41

5. 縦軸の目盛りを1刻みにする

縦軸の目盛りにカーソルを合わせ右クリックし、「軸の書式設定」を選択

「軸のオプション」で 目盛り間隔を「1」にする

(42)

きれいなヒストグラムを描く

4/4

42

出来上がったヒストグラム

(43)

Excel

(エクセル)の実習

  

3.

平均や分散を求める   

教科書3.2.2 43

(44)

和と平均値を求める

44

和: 「SUM」を使う 平均値: 「AVERAGE」を使う

平均値=171となる 参考:中央値は「MEDIAN」を使えば良い

(45)

求めた平均値を確認する

和をデータ数n=15)で割ればいい

45

(46)

分散と標準偏差を求める

46

分散: 「VAR.P」を使う

標準偏差=7.08…となる

標準偏差: 「SQRT」を使う

あるいは、「STDEV.Pを使う」

求めた分散の確認のためには、

偏差の2乗平均を計算すればいい 分散=50.13…となる

(47)

標準誤差を求める

標準偏差を

データ数n=15)の平方根で 割ればいい

標準誤差=1.82…になる

47

(48)

Excel

(エクセル)の実習   

4.

棒グラフを描く

48

(49)

棒グラフを描く

1/2

49

シート「身長2」にある 身長の平均値と

標準誤差を求める

平均値を選択し、

「挿入」タブから

「縦棒」の「2-D縦棒」、

特に、「集合縦棒」を選ぶ

(50)

棒グラフを描く

2/2

50

棒グラフが出力される

(51)

棒グラフを見やすくする

•  「■系列1」を消す

•  縦軸の目盛りを165から175にする

得られた棒グラフ

51

(52)

棒グラフにエラーバーをつける

1/4

52

グラフを選択(クリック)し、

「レイアウト」タブから、「誤差範囲」

「その他の誤差範囲オプション」を選択する

52

(53)

棒グラフにエラーバーをつける

2/4

53

「誤差範囲の書式設定」ダイアログが 開くので、

「縦軸誤差範囲」タブ

・ 「表示」で、「正方向」をチェックする

・ 「誤差範囲」で「ユーザー設定」を   チェックする

    「値の指定」をクリック

(54)

棒グラフにエラーバーをつける

3/4

54

誤差範囲として、身長1と身長2の標準誤差を選択

(55)

棒グラフにエラーバーをつける

4/4

55

出力結果

(56)

散布図と相関係数 散布図を描く

相関係数を求める

     

56

(57)

数学と英語のデータ

 学生10人の数学と英語の成績

学生No 1 2 3 4 5 6 7 8 9 10 数学 (x) 5 3 6 10 4 7 7 3 9 6 英語 (y) 7 8 4 8 3 6 10 2 5 5

57!

) , , 2 , 1 (

) , (

) ,

(, ),

, ( ), ,

( 1 1 2 2

n i

y x or

y x y

x y

x

i i

n n

!

!

=

1人目のデータ

「初歩からの統計学」【例1.4.1

=5

=7

=3

=8

=6

=4

(58)

散布図を描く

58!

2変数の関係の強さは? → 相関係数       関係式は?   → 回帰分析

1. データを選択する

2. 「挿入」タブから   「散布図」を選ぶ

(59)

復習: 相関係数の定義

Pearson(ピアソン)相関係数とも呼ばれる

y x

xy

s s r = s :

相関係数

) (

) 1 (

, ) 1 (

) (

) )(

1 (

1

2 1

2 1

の標準偏差

の共分散

y x

s s

y n y

s x

n x s

y x

y y

x n x

s

y x

n i

i y

n i

i x

n i

i i

xy

=

=

=

=

=

=

1 r 1

59!

標準偏差(SD; Standard Deviacon)

(60)

復習: 相関係数

r

の解釈

r=0 : 相関がない(無相関)

r>0 : 正の相関があるかもしれない

    rが大きいほど相関が強い r>0.3, >0.4など)

r=1: 全てのデータが右上がりの直線上にある

r<0: 負の相関があるかもしれない

    rの絶対値が大きいほど相関が強い

r=-1: 全てのデータが右下がりの直線上にある

60!

0

r<-0.3,

<-0.4など)

(61)

復習: 散布図と相関係数の対応

61!

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -3 -2 -1 0 1 2

-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5

-2.5 -1.5 -0.5 0.5 1.5 2.5 -6 -4 -2 0 2 4

-2.5 -1.5 -0.5 0.5 1.5 2.5

r 0.3 r 0.6

r 0.9

r -0.3 r -0.6

r -0.9

(62)

課題 1

年ごとの乳量(kg/日・頭)

個体 90年 95年 00年 1 31.1 20.7 32.6 2 23.1 36.5 41.4 3 20.7 33.5 36.3 4 25.2 31.7 41.9 5 25.0 32.4 32.1 6 16.1 35.8 26.4 7 25.8 34.7 40.3 8 32.5 32.0 34.3 9 27.2 25.6 34.0 10 27.9 41.4 34.6

*データは仮のものです 右表の乳量のデータについて

1. 年ごとに以下を行う

 (1) 平均値、分散、標準偏差、

   標準誤差を求める  (2) ヒストグラムを描く  

2. すべてのデータについて 以下を行う  平均値を使って棒グラフを描く (エラーバーをつける)

階級は例えば、

20キロ以下

20キロより大きい25キロ以下、

25キロより大きい30キロ以下、

30キロより大きい35キロ以下、

35キロより大きい40キロ以下、

40キロより大きい45キロ以下、とする

62

シート「milk data」

(63)

課題

2

 相関係数などを求める      散布図を描く

6363!!

シート「数学と英語」

(64)

課題の提出(畜大) 

•  提出先: ファイルサーバー内のフォルダ         「茅野」 ⇒「生物統計学演習1

•  要領 : 作成したエクセルファイルを

       ファイルサーバー内のフォルダに保存する

•  学籍番号と名前

     :エクセルファイルの名前に、

      学籍番号と名前を記入

      例:学籍番号s100番、茅野光範なら、

        ファイル名は「s100茅野光範.xlsx」 

64!

参照

関連したドキュメント

統制の意図がない 確信と十分に練られた計画によっ (逆に十分に統制の取れた犯 て性犯罪に至る 行をする)... 低リスク

分配関数に関する古典統計力学の近似 注: ややまどろっこしいが、基本的な考え方は、q-p 空間において、 ①エネルギー En を取る量子状態

お客さまが発電設備を当社系統に連系(Ⅱ発電設備(特別高圧) ,Ⅲ発電設備(高圧) , Ⅳ発電設備(低圧)

当初申請時において計画されている(又は基準年度より後の年度において既に実施さ

巣造りから雛が生まれるころの大事な時 期は、深い雪に被われて人が入っていけ

社会調査論 調査企画演習 調査統計演習 フィールドワーク演習 統計解析演習A~C 社会統計学Ⅰ 社会統計学Ⅱ 社会統計学Ⅲ.

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

 貿易統計は、我が国の輸出入貨物に関する貿易取引を正確に表すデータとして、品目別・地域(国)別に数量・金額等を集計して作成しています。こ