応用動物行動学における統計解析の進展(後編)

(1)

誌名

誌名 Animal behaviour and management ISSN

ISSN 18802133 著者

著者多田, 慎吾

新村, 毅巻/号

巻/号 53巻3号

掲載ページ

掲載ページ p. 117-126 発行年月

発行年月 2017年9月

農林水産省農林水産技術会議事務局筑波産学連携支援センター

Tsukuba Business-Academia Cooperation Support Center, Agriculture, Forestry and Fisheries Research Council Secretariat

(2)

ー解説一

応用動物行動学における統計解析の進展後編：一般化線形モデル

多田慎吾1* . 新村毅

1農研機構北海道農業研究センター酪農研究領城，札幌市， 062‑8555

2東京農工大学大学院農学研究院，府中， 183‑8538

℃ orresponding author. E‑mail address: [email protected] (多田慎吾），

[email protected] (新村毅）

要約

近年、一般線形モデルを拡張して、正規分布以外の分布も仮定できるようにした一般化線形モデルが普及してきており、応用動物行動学および家畜管理学分野でも一層の利用が期待される。前編では、フリーのソフトウェアである R を用いて、一般線形モデルの概念と実データを用いた解析例について解説した。本稿では、後編として、一般線形モデルの拡張である一般化線形モデルについて、その概念と練習用データを用いた解析例を、実際のRのコマンドを示しつつ解説する。

キーワード：分布、一般化線形モデル、一般線形モデル、行動、 R

Animal Behaviour and Management, 53 (3): 117‑126, 2017 (2016. 2. 24受付； 2017. 5. 17受理）

はじめに

本解説記事の前編では、 Rを活用しながら、正規分布を前提とする一般線形モデルの概要を述べた。本稿ではまず、データによってはなぜこの手法をそのまま用いることができないのか説明する。その後、いよいよ一般線形モデルを拡張した一般化線形モデルはとは何か、具体例を示しながら解説する。なお、練習用のデータおよび Rのコマンドをまとめた付録Excelファイルは、

本解説が掲載されている J‑STAGEのWebページ (URL:https://www.jstage.jst.go.jp/browse/‑ char/ja/)もしくは応用動物行動学会のWebペー

ジ(URL:http:/ /www.jsaab.org/)からダウンロード可能である。

一般線形モデルが適用できない場合とは？

一般線形モデルの前提は「データの誤差が正規分布に従う」であった。しかしながら、行動学分野では誤差が正規分布に従わないデータも多く扱う。代表的なものは、ある時間の中で観察された行動の回数（例えば敵対行動の回数や排糞回数など）といったカウントデータである。カウントデータの特徴として、そもそも 0以上の整数値しかとらないという点が挙げられる。正規分布は小数も含めた連続量を表す分布であり、この点だけで

も正規分布はカウントデータに適合しないといえる。また、分布の形状も正規分布のように左右対称にならない場合が多く、この点でも正規分布を前提としたモデルに当てはめるのはふさわしくなしヽ。

もう一つ、正規分布に従わない代表的なデータとして0 1の値で示される割合データがある。例えば、観察群のうち発情行動を示した頭数の割合などである。カウントデータとは異なり小数値をとる連続値という点では正規分布と共通するが、何しろこの種のデータは最小値が0、最大値が1と定まっている。もちろん正規分布は0

より小さな値も 1より大きな値もとりうるので、

このようなデータに一般線形モデルを当てはめると、割合データなのにモデル予測が負の値をとったり、 1より大きな値をとったりというような明

らかな矛盾が起きる。

これらの誤差が正規分布しないデータに対処する方法として、これまで変数変換やノンパラメトリック法が用いられてきた。変数変換はデータの対数をとる、正弦変換するなどの操作を行なうことでデータの分布を正規分布に近づける方法である。しかしながら、特に誤差のばらつきの大きいデータで、変数変換を行なっても正規性を仮定できない場合も多い。一方、ノンパラメトリック検定はデータに誤差分布の仮定をしない統計手法で

(3)

0.4

0.3

2 n i

梱睾

0.1

゜゜

2

二

4 6 8 観察された回数

10 12

図13.ポアソン分布の形状

入がデータの平均値に一致する。入が小さいときは極度に右裾の広い形状をとるが、入が大きくなるにつれて左右対称の形状に近づく。

あり、どんなデータにでも適用できるのが特長である。しかし、データを一度順位情報に変換して計算が行われるなど、データの情報の多くを削ってしまうため、分布を仮定した統計方法に比べて検出力が低い。また、複数の要因や交互作用の検討が困難であるといった問題もある。

ここで、一般線形モデルのデータを足し算の関係で表すという部分はそのままにして、正規分布以外の分布も扱えるように拡張したものが一般化線形モデルである。上で述べたカウントデータにはポアソン分布が（図13)、割合データには二項分布（図 14)といった分布に従うことが多いとされている。一般化線形モデルでは、これらの正規分布以外の分布を扱うためにリンク関数といった概念が導入されるが、考え方は一般線形モデル

0.4

0.3

2

゜

憾睾

0.1

と変わらない。以下では、カウントデータ、割合データそれぞれの一般化線形モデルについて実例を示しながら説明する。

ここで、元のデータの集団がポアソン分布や二項分布、またその他の正規分布ではない分布であったとしても、その平均値の誤差分布は中心極限定理により正規分布に近似できる場合があるということを注意しておきたい。この例としてよく挙げられるのが、 6面サイコロの目のでる頻度で

ある。普通のサイコロであれば、 1 6の目が同程度の頻度で出るはずである。この頻度分布は、

明らかに正規分布ではない。しかし、サイコロを 10回ふって、その10回の平均値を算出するといった操作を何度も行なうとどうだろう？きっと平均値の頻度分布は、平均3.5の正規分布に従う

゜゜

² 観察された回数⁴ ⁶

8 10

図14.二項分布の形状

確率pで起こる事象を N回行なったとき、何回その事象が起きるかを表す分布である（図は N= 10の場合）。 pX Nが期待値と一致する。 pが小さいと

き右裾の広い形状をとり、 pが0.5に近いと左右対称の形状に近づく。

(4)

多田・新村

‑<

‑2 ‑1

゜

2

μ+ax 図 15.A = e<μ+ a X)とした対数リンク関数

このように入は常に正の値をとる。 eは自然対数の底を表し、値は2.718・・・である。

ものとなる。すなわち、元のデータの誤差分布が正規分布ではなかったとしても、平均値の誤差分布を統計解析に用いるならば、正規分布を前提とした一般線形モデルを用いるのが妥当な場合が多い。いずれにせよ、検討するデータの誤差分布を自分で確認することが重要である。

カウントデータの解析

ここでは、動物1頭あたりの飼養面積が異なる場合の敵対行動の回数を表した架空データを用いて説明する（付録Excel、シート 5;通常の飼養面積を対照群 (Tl)とし、飼養面積を狭くした小面積群を処理群 (T2)とする；帰無仮説は「試験処理に効果はない」である）。前述のように、

敵対行動の回数のようなカウントデータは、 0以上の整数値しかとらないという特徴がある。この条件を満たす分布の 1つがポアソン分布である。

正規分布は、平均値μと分散6の2つのパラメータによって定義されるのに対し、ポアソン分布は 1つのパラメータ入（ラムダ）によって定義される分布である。入はデータの平均値に一致し、非負の値しかとらないパラメータで、図13に示したようにこの入の値によって分布の形状は異なる。

一般線形モデルにおいてはデータに最も当てはまるように、

y=μ+ux+E

の式のパラメータを推定したが、ポアソン分布を用いる一般化線形モデルにおいてはデータに最も当てはまるような入の値をもとめることが目的である。しかし、ここで一般線形モデルのときと同様に単純に、

入=μ+llX

のような線形式としてしまうと問題が生じる。こ

のような式の場合、μや aの値によっては、入が負の値をとりうることになる。これに対処する方法が、リンク関数の導入である。すなわち、線形式を以下のようにする。

入=^e(μ+ax)

このようにすればμ+axがどんな値であっても、

入は 0より大きな値しかとらない（図 15)。このリンク関数は、一般に対数リンク関数と呼ばれる。

以上のことを、 R を用いて解析する場合、以下のコマンドで一般化線形モデルのパラメータ推定をすることができる。

1. データを "dat5"として読み込む。

datS

< ‑

read.table("clipboard", header= T) 2. "dat5"のデータを用いて、説明変数として

Tを含め、対数リンク関数を用いて誤差分布にポアソン分布を指定した一般化線形モデルを "fm5a"とする。ここでは本解説記事前編で用いたlm関数ではなく、 glm関数を用いている。 lm関数と同様に、カッコ内には、初めにモデルの構造を「y T」のように記載し、 Tを説明変数と指定している。次に使用するデータ（今回の場合dat5) を記載しているのも同様だが、 glm関数ではその後ろでさらに用いる分布とリンク関数を指定している（今回の場合family=poisson(link=

"log"))。「family= poisson」で分布がポアソン分布 (Poissondistribution)であることを、

「link= "log"」でリンク関数が対数リンク関数 (Logarithm(log) link function) を指定したことを示している。

fmSa

< ‑

glm(y T, data=datS, family=poisson(link = "log"))

3. "fm5a"の要約を表示する（図16)。

(5)

> datS <‑read.table("clipboard", header= T)

> fmSa <‑glm(y T, data=datS, family=poisson(link = "log"))

> summary(fmSa) Call:

glm(formula = y T, family= poisson(link = "log"), data= datS) Deviance Residuals:

Min lQ Median 3Q Max

‑2.2978 ‑0.7834 0.0000 0.6579 1.7785 Coefficients:

Estimate Std. Error z value Pr(>lzl) (Intercept) 0.6932 0.1000 6.931 4.16e‑12 ***

TT2 0.2776 0.1326 2.094 0.0362 *

Signif. codes: 0 '***'0.001 '**'0.01 '*'0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1)

Null deviance: 99.270 on 99 degrees of freedom Residual deviance: 94.842 on 98 degrees of freedom AIC: 348.01

Number of Fisher Scoring iterations: 5

図16.Rの出力結果（付録Excel、シート 5その1)

summary(fm5a)

図16の(Intercept)がμを、 TT2がa.を示している。各群の入は対数リンク関数にこれらの値を代入することで求められる。すなわち、対照群では入=e<0.6932) = 2̲0、小面積群では入=e co.6932 + 0.2116) = 2.6となる。対照群と小面積群それぞれについて、

推定したパラメータから得られたポアソン分布とデータをあわせたものを図17に示した。それぞれポアソン分布がデータに当てはまっていることが分かる。

有意差検定についても、基本的には一般線形モデルと同様の考え方で行なう。すなわち、検討したい要因を含んだモデルと含まないモデルでデー

対照群 0.4

0.3

2

゜

憾啜

0.1

タに対する当てはまり具合に差があるかを検討する。ただし、データの当てはまりの指標としては、

正規分布を前提としたモデルで用いる F値ではなく Devianceで示されるモデル間の対数尤度の差を用いる。今回の例の場合、 Devianceの頻度分布はパラメトリック・ブートストラップ法でもとめられる。また、 Devianceは

x

二乗分布に従うことから、 x二乗分布を用いて P値を計算することもできる。Rでのコマンドは以下の通りである。

4. "dat5"のデータを用い、説明変数を含めず、

対数リンク関数を用いて誤差分布にポアソン分布を指定した一般化線形モデルを "fm5b"

処理群

J . . = 2.0

},.̲= 2.6

゜

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

観察された回数観察された回数

図17.データヘのポアソン分布の当てはめ

バーがデータの頻度、実線がポアソン分布を示す。対照群では入=eo.s932 = 2̲0、処理群では入 =e(0.6932+0.2TT6) = 2.6と推定された。

(6)

多田・新村

> fm5b <‑glm(yl, data=dat5, family=poisson)

> anova(fm5a, fm5b, test="Chi") Analysis of Deviance Table Model 1: y T

Model 2: y 1

Resid. Df Resid. Dev Df Deviance Pr(>Chi) 1 98 94.842

2 99 99.270 ‑1 ‑4.4279 0.03536 *

Signif. codes: 0'***'0.001'**'0.01'*'0.05'.'0.1''1

> n <‑10000

> DValue <‑numeric(n)

> for (i in 1:n) {

+ dat5$y2 <‑simulate(fm5b) [,1]

+ fm5z <‑glm(y2 T,data=dat5,family=poisson)

+ DValue[i] <‑summary(fm5z)$null.deviance[l]‑summary(fm5z)$deviance[l]

＋｝

> sum(DValue>=(summary(fm5a)$null.deviance[l]‑summary(fm5a)$deviance[l]))/n [1] 0. 0323

パラメトリック・ブートストラップ法による P値の算出結果（この図では0.0323)は生成された乱数によるのでこの図の値と一致するとは限らない。

とする。

fm5b

< ‑

glm(y‑1, data=dat5, family=poisson) 5. X二乗分布を用いたP値を算出する (fm5a

とfm5bのデータヘの当てはまりを x二乗検定で比較）。

anova(fm5a, fm5b, test=℃ hi")

6. 以下ではパラメトリック・ブートストラップにより P値を算出している。

n

< ‑

10000

DValue

< ‑

numeric(n) for (i in 1 :n) {

dat5$y2

< ‑

simulate(fm5b)[, 1] fm5z

< ‑

glm(y2‑T,data=dat5,famil y=poisson)

DValue[i]

< ‑

^sû^m^mâ^r^y⁽^f^m⁵^z⁾^$ⁿû^l^l^.

d e v i a n c e [ 1 ]‑

summary(fm5z)$deviance[1]

｝

7. 生成データから得たx二乗値の分布において、実際のデータから観測された

x

二乗値より大きかったものの数をカウントし、繰り返し数で除して頻度を算出する（これがP値）。 sum(DValue >= (summary(fm5a)$null.

deviance[1 ]‑summary(fm5a)$deviance[1 ]))/ n

x二乗検定による P値 (0.03536) とパラメトリック・ブートストラップ法から算出された値 (0.0323) がほぼ等しいことが分かる（図18)。これらの結果から、今回実際のデータから得られたDevianceの値は「試験処理に効果はない」とするならば、 3 4%程度の低頻度でしか観察されないものということになる。 5% (0.05) を基

準とすると、帰無仮説が棄却され、対立仮説「試験処理に効果がある」が採択される。すなわち、

飼養面積を狭くすると敵対行動の回数が増加するという仮説を支持することができる。

（参考） glm関数で一般線形モデルの解析

一般線形モデルの解析（当解説前編）ではIm 関数を用いたが（付録Excel、シート 1 4

)、 glm関数を用いても同様の解析を行なうことがで

きる。具体的には、 familyのところに正規分布を表すgaussian、linkの部分にリンク関数を用いない（そのままである）ことを表すidentityを指定

してやればよい（付録Excel、シート 6)。 1. データを"dat6"として読み込む。

dat6

< ‑

read.table("clipboard", header= T) 2. "dat6"のデータを用いて、説明変数としてx

を含め、誤差分布に正規分布を指定した一般化線形モデルの要約を表示する。

summary(glm(y‑x, dat6, family=gaussian( link="identity")))

3. Im関数を用いた場合の一般線形モデルの要約を表示する。

summary(fmくーlm(yx,dat6))

アウトプットがglm関数と Im関数で一致していることが分かる（図 19)。

割合データの解析

割合データの場合にも、基本的にはカウントデータの一般化線形モデルと同様にして、一般線形モデルの拡張を行なう。データは最小値が0、最大値が 1であるデータを表せる分布が二項分

(7)

> dat6 <‑ read.table("clipboard", header= T)

> summary(glm(y x, dat6, family=gaussian(link="identity"))) Call:

glm(formula = y x, family= gaussian(link = "identity"), data= dat6) Deviance Residuals:

‑5.3595 ‑2.2804 0.3482 1.9505 6.2005 Coefficients:

Estimate Std. Error t value Pr(>ltl) (Intercept) 9. 5495 0. 6451 14. 802 <2e‑16 ***

xtreatment 2.0645 0.9123 2.263 0.0294 *

Signif. codes: 0'***'0.001'**'0.01'*'0.05'.'0.1''1 (Dispersion parameter for gaussian family taken to be 8.323794)

Null deviance: 358.93 on 39 degrees of freedom Residual deviance: 316.30 on 38 degrees of freedom AIC: 202.23

> summary(lm(y x, dat6)) Call:

lm(formula = y x, data= dat6) Residuals:

‑5.3595 ‑2.2804 0.3483 1.9505 6.2005 Coefficients:

Estimate Std. Error t value Pr(>ltl) (Intercept) 9. 5495 0. 6451 14. 802 <2e‑16 ***

xtreatment 2.0645 0.9123 2.263 0.0294 *

Signif. codes: 0'***'0.001'**'0.01'*'0.05'.'0.1''1 Residual standard error: 2.885 on 38 degrees of freedom

Multiple R‑squared: 0.1187, Adjusted R‑squared: 0.09556 F‑statistic: 5.12 on 1 and 38 OF, p‑value: 0.02944

図 19.Rの出力結果（付録 Excel、シート 6)

布である。二項分布は、正規分布がμと 8の2つのパラメータ、ポアソン分布が入の1つのパラメータで定義されたのと同様に、 pという 1つのパラメータで定義される。すなわち、このpの値により、様々な分布の形状をとることができ（図 14)、二項分布を用いる一般化線形モデルにおいては、データに最も当てはまるようなpの値をも

とめることが目的である。

しかしこのパラメータ pもどんな値でもよいというわけでなく、 O lの範囲の値しかとれないという制限がある。そのため、この場合も単純に、

p=μ+ax

のような線形式としてしまうと、 pがO lの範囲外の値をとりうることになってしまう。そのため、二項分布を用いた一般線形モデルでは次のよ

うなロジットリンク関数を用いる。

p=l/e ^（^ー⁽^μ^+a^x⁾⁾

このようにすればpが0 1の範囲の値しかとらない（図20)。

Rでは、以下のコマンドで一般化線形モデルのパラメータ推定をすることができる（付録 Excel、シート 7)。ここでは飼養施設が従来のものである対照群と設備の配箇を改良した処理群とで、全頭数のうち敵対行動を示した頭数の割合について検討することを考える（帰無仮説は「試験処理に効果はない」である）。 T列がTlのものが対照群のデータ、 T2が処理群のデータで、 A 列が敵対行動を示した頭数、 B列が示さなかった頭数である。

1. データを "dat7"として読み込む。

dat7

< ‑

read.table("clipboard", header= T)

(8)

多田・新村

ー10 ‑5

゜

5

10 μ+ax

図20.p = 1 / e< ‑<μ+ a x))としたロジットリンク関数 pは常に0 1の範囲の値をとる。

2. "dat7"のデータのA/(A+B)を目的変数とし、

説明変数としてTを含め、ロジットリンク関数を用いて誤差分布に二項分布を指定した一般化線形モデルを "fm7a"とする。先ほどのポアソン分布や正規分布での glm関数と同様に、モデルの構造 (cbind(A,B) T)、用いるデータ (dat7)および分布とリンク関数 (family=binomial(link="logit")) を記載している。なお、前述のように二項分布では割合p で起こる事象を、この場合、 A+B回観測した場合の分布を表すので、 AおよびBそれぞれの値が計算に反映されるように、今回はこのようにcbindコマンドを用いた特殊な表

記をしている。また、 familyのbinomialはポアソン分布を、 linkのlogitはロジットリンク関数を指定したことを示している。

fm7a<‑glm(cbind(A, B)‑T, data=dat7, family=binomial(link="logit"))

3. "fm7a"の要約を表示する（図21)。 summary(fm7a)

アウトプットの(Intercept)がμ をTT2がaを示している。各群の敵対行動を示した頭数の割合p はロジットリンク関数にこれらの値を代入することで求められる。すなわち、対照群ではp= 1 I e―1.1695

=

0.76、設備の配置を改良した処理群で

> dat7 <‑ read.table("clipboard", header= T)

> fm7a<‑glm(cbind(A, B) T, data=dat7, family=binomial(link="logit"))

> summary(fm7a) Call:

glm(formula = cbind(A, B) T, family= binomial(link = "logit"), data= dat7)

Deviance Residuals:

‑2.27702 ‑0.54876 0.08337 0.59563 2.94172 Coefficients:

Estimate Std. Error z value Pr(>lzl) (Intercept) 1.1695 0 .1054 11. 097 <2e‑16 ***

TT2 ‑1. 2529 0 .1395 ‑8. 983 <2e‑16 ***

Signif. codes: 0'***'0.001'**'0.01'*'0.05'.'0.1''1 (Dispersion parameter for binomial family taken to be 1)

Null deviance: 185.58 on 99. degrees of freedom Residual deviance: 100.23 on 98 degrees of freedom AIC: 345.43

(9)

対照群処理群 0.4

0.3 2 1

n i o

赳薯 p = 0.76

p= 0.48

゜

⁰ ⁰^.² ⁰観察割合^.⁴ ⁰^.⁶ ⁰^.⁸ ¹ ⁰ ⁰^.² ⁰観察割合^.⁴ ⁰^.⁶ ⁰^.⁸ 図22.データヘの二項分布の当てはめ

バーがデータの頻度、実線が二項分布（仮にN = 10としたもの）を示す。対照群ではp= 1 le―1.1695=0.76、処理群ではp=1/e―(1.1695+ (‑1.2529))=0.48と推定された。

はP= 1 / e,‑,1.1695 ‑1.2s29 ))= 0.4Sとなる。対照群と処理群それぞれについて、推定したパラメータから得られた二項分布とデータをあわせたものを図 22に示した。それぞれ二項分布がデータに当てはまっていることが分かる。

有意差検定についても、基本的には一般線形モデルと同様の考え方で行なう。すなわち、検討したい要因を含んだモデルと含まないモデルでデータに対する当てはまり具合に差があるかを検討する。ポアソン分布の一般線形モデルと同様に Devianceを当てはまりの指標とする。同様にx

二乗検定により P値を計算することができる。

4. "dat7"のデータの A/(A+B)を従属変数とし、

説明変数を含めず、ロジットリンク関数を用いて誤差分布に二項分布を指定した一般化線形モデルを "fm7b"とする。

fm7b

< ‑

glm(cbind(A, 8)1, data=dat7, family=binomial(link="logit"))

5. X二乗分布を用いた P値を算出する (fm7a とfm7bのデータヘの当てはまりを x二乗検定で比較；図23)。

anova(fm7a, fm7b, test=℃ hi")

x二乗検定による P値が、 2.2e‑16 (= 2.2 X 1/

(10の16乗））未満であり、非常に小さい値と算出された。これは設備配置の改良に効果がないとするならば、今回データから得られた Deviance の値が得られるのは0.001%ほどもない、すなわち、ほぼありえないことを意味する。よって、

5% (0.05)を基準とすると、帰無仮説が棄却され、

対立仮説「試験処理に効果がある」が採択される。すなわち、設備の配置を変えた処理区では敵対行動を示す個体の頭数割合が低下するという仮説を支持することができる。

まとめ

分散分析、回帰分析および共分散分析はいずれも正規分布を仮定し、平均値と処理の効果と誤差との足し算の関係で表す、一般線形モデルという一つの枠組みに集約される。この一般線形モデル

を拡張し、リンク関数を利用して正規分布でない分布（ポアソン分布や二項分布など）も扱えるようにしたものが一般化線形モデルである。そして一般化線形モデルにおける有意差検定は仮定した分布が何であっても、要因を含んだモデルと含まないモデルとでデータに対する当てはまりに差があるかを検討するものとして捉えることができる。多種多様に感じられる統計手法も、分布を仮

> fm7b <‑glm(cbind(A, B) l, data=dat7, family=binomial(link="logit"))

> anova(fm7a, fm7b, test="Chi") Analysis of Deviance Table Model 1: cbind(A, B) T Model 2: cbind(A, B) 1

Resid. Of Resid. Dev Df Deviance Pr(>Chi) 1 98 100.23

2 99 185.59 ‑1 ‑85.354 < 2.2e‑16 ***

Signif. codes: 0 '***'0.001 '**'0.01'*'0.05'.' 0.1''1 図23.Rの出力結果（付録Excel、シート 7その2)

(10)

多田・新村

定するもの、すなわち、パラメトリックな手法はこのように多くの部分が共通している。言い換えれば、碁本的な考え方さえ理解していれば、これらの手法を適宜用いることは容易であると思われる。本稿で解説してきたようにRを利用する場合にはコマンドの一部を変更するだけで、モデルに含める要因、リンク関数や仮定する分布、また、

検定について適宜選択することができるので、ぜひ自身のデータにふさわしい統計モデルの構築を行なっていただきたい。

おわりに

本稿ではRを用いながら、分散分析や回帰分析を含む一般線形モデルの概要、そして、これを拡張した一般化線形モデルを用いたカウントデータや割合データの解析の流れを解説した。本稿により一般線形モデルおよび一般化線形モデルの理解が深まり、読者のみなさまの実際のデータ解析に役立てていただければ幸いである。さらに遡れば、これらの手法を用いるにあたっては、実験前に自然と統計モデルの構造を頭に置き、また、データの誤差分布を把握するのに充分なデータ数を考慮することになるため、実験の組み立てがより洗練されたものになることも期待される。

また、先に書いたことと矛盾するようであるが、カウントデータであってもポアソン分布に従わない、割合データであっても二項分布に従わない、また、そもそもこれまで検討してきた分布のいずれにも従わないデータはいくらでも実在し、

本稿の内容だけではデータ解析の実践に不足であることは充分に考えられる。ポアソン分布や二項分布を用いた一般化線形モデルで分布の当てはまりを確認する際の一つの目安としては、モデルの出力結果に表示される Residualdevianceをその自由度で除して算出する Dispersionparameter

(VenablesとRipley2002)がある(1から乖離するほど適合していない；図16の例の場合、 94.842 I 98 = 0.968)。モデル予測値および実際のデータのプロットのチェックや、 Dispersionparameter が大きい場合の過分散検定（ポアソン分布モデルではAERパッケージのdispersiontest関数：

KleiberとZeileis2008)により、用いた分布が不適切と判断される場合には、ここでは述べな

かった手法である擬似ポアソン分布や擬似二項分布の利用、その他、ガンマ分布や負の二項分布といった分布を用いること、さらには、一般化線形モデルをさらに拡張して個体差などの変量効果も扱うようにした一般化線形混合モデル (Generalized linear mixed model: GLMM) の利用 (Rでは主にlme4パッケージ： Batesら2015) など、いくつかの対処方法が考えられる。また、

その他、本稿では特に触れなかった交互作用を含んだモデルの検討、群間の多重比較 (Rでは主に multcompパッケージ： Hothornら2008) など、

各々が必要とする統計手法は様々であると思う。

幸運なことに、インターネット検索すると、これらの統計手法を Rで扱うプログラムがインターネット上に数多く公開されていることが分かる。

そのマニュアルや解説記事を読みながらプログラム例を実践してみることでそれらの手法に触れることはかなり容易であり、ぜひ試行してみていただきたい。読者のみなさまの体験をもとに、本稿の内容で触れなかったが加えるべき内容、また、

本稿で分かりづらかった点、さらに説明すべき項目などについてのご意見、また、著者ら自身も統計の専門家ではないため、本稿の内容で誤った点のご指摘など、あればぜひご連絡をいただきたい。

今後の記事作成の参考にさせていただきたい。

参考文献

Bates D, Maechler M, Bolker B, Walker S. 2015. Fitting Linear Mixed‑Effects Models Using lme4. Journal of Statistical Software 67, 1‑48. Hothorn T, Bretz F and Westfall P. 2008.

Simultaneous Inference in General Parametric Models. Biometrical Journal 50, 346‑363.

Kleiber C, Zeileis A. 2008. Applied Econometrics with R. Springer‑Verlag, New York.

R Core Team. 2015. R: A Language and Environment for Statistical Computing [homepage on the Internet]. R Foundation for Statistical Computing, Vienna, Austria. [cited 27 January 2016]. Available from URL:

https:/ /www.R‑project.org

Venables WN, Ripley BD. 2002. Modern Applied Statistics with S. 4th edn. Springer, New York.

(11)

Progress of statistics in applied animal behaviour science (2):

Generalized linear model

Shingo Tadau, Tsuyoshi Shimmura2*

1 Dairy Production Research Division, NARO Hokkaido Agricultural Research Center, Sapporo, Hokkaido, 062-8555, Japan

2 Institute of Agriculture, Tokyo University of Agriculture and Technology, Fuchu, Tokyo, 183- 8538, Japan

*Corresponding author. E-mail address: [email protected] (S. Tada),

[email protected] (T. Shimmura)

Summary

Recently, generalized linear model have become widely used even in the research :fields of applied animal behaviour science and livestock management. The generalized linear model is the extension of the general linear model and deal with various distribution including normal distribution. In the previous paper, we introduced the concepts of general linear model and showed the examples of analysis with sample data using free software "R". In this manuscript, we introduce the concepts of generalized linear model and then show the examples of analysis with sample data and practical commands using "R".

Keywords: behaviour, distribution, general linear model, generalized linear model, R

Animal Behaviour and Management, 53 (3): 117-126, 2017 (Received 24 February 2016; Accepted for publication 17 May 2017)

応用動物行動学における統計解析の進展(後編)

誌名

誌名 Animal behaviour and management ISSN

ISSN 18802133 著者

著者 多田, 慎吾

新村, 毅 巻/号

巻/号 53巻3号

掲載ページ

掲載ページ p. 117-126 発行年月

発行年月 2017年9月

応用動物行動学における統計解析の進展後編：一般化線形モデル

゜ ゜

二

゜

゜ ゜

゜

< ‑

< ‑

゜

x

゜

< ‑

< ‑

< ‑

< ‑

< ‑

< ‑

x

< ‑

< ‑

゜

=

n i o

゜

< ‑

Progress of statistics in applied animal behaviour science (2):

Generalized linear model

Summary

著者多田, 慎吾

新村, 毅巻/号

゜゜

゜゜