[本文リンク:研究部会のサイト] CV 草薙邦広のページ

40 

Loading....

Loading....

Loading....

Loading....

Loading....

全文

(1)

1

確率分布

外国語教育研究

ータ

草薙 邦広

広島大学

概要

稿 ,数理的 研究実践 教育業務 改善 応用 念頭 置い ,観測 対 あ 確率 布 確率密度関数 い 確率質 関数 ッ ,外 国語 運用 教育 関連 現象 い 優 数理的近似 得 手続 い 概観

。 稿 , 散確率 布 あ 布, ン 布,幾何 布,負 布, 過剰 ン 布,連続確率 布 あ 正規 布, ン 布, 布,

布,ワ 布,対数正規 布,指数正規合成 布,一般化極値 布, ,

数 ン 混合 布 。 , ッ 関連 手法 最尤推

定 い , , 連鎖 ン 法 MCMC 後 布 ン

ン い 紹 。 稿 ,全編 渡 ,可 性 実用性 視 ,数理的 原 理 明 避 , 代わ 統計解析環境R 解析 例 併記 。

Keywords:

数理的

,確率

布,最尤推定,

連鎖

MCMC

,研究方法論

1.

問題 所在

1.1

外国語教育研究 け 変数 多様化

外国語教育研究 , 的研究 主流 学際的 あ 。 , 的研究 一

口 い , あ ,姿勢, 思想 い ,学際的

いう 足 多岐 渡 。 稿 内容 , う 多様性 い 思弁的

論 い。 , 多様性 , 研究実践 扱う

種類 表 。

2000 頃,第 言語習得研究 SLA 浸透 あ 認知主義 影響 ,心

理学実験 い 使用 各種 言語行動 ,国内 外国語教育研究 入 。言語行動 , 断課題 正答率, 応時間 , 解時間

, 視線計測 含 。 , 後,脳神経科学 影響 ,

脳機能 ン わ 。時 , 言語学や自

(2)

2

有益 一種 う 。 ,心理統計 psychometrics 影 響 ,因子 析や 目 応理論 い 潜 変数 , 構造方程式 ン

SEM 析方法 及 う , や質問紙 対 回答 ,

一 要 研究資源 考え う 。

外国語教育研究 学際化 伴う変数 多様化 関 ,国内 2010 代 動 , い あ 。社 会 学 影 響 , 社会 経済 的 地

SES い 調査用変数 , 教育政策的視 関わ 要視

う い 。 ,高等教育研究や教育 学 影響 ,大 記録

学習 歴 利活用 い 研究者 注目 集 草薙, 2017a , ュ

ョ ン い 用 語 知 う 草 薙 石 ,

2016 。 時 ,数多 実践研究 ,教育業務 従 者 視 ,比較

的自 出 変数 多数 う 特筆 あ う。

外国語教育研究 学際化 , 扱う変数 様 多様化

い ,基 的 望 い あ 。 , 扱う変数 多様化 , 変数 数理的特性 十 吟味 い う , あ 意 味危険 あ 。変数 多様化 い 現 状況 , え 変数 数理的特

性 い 吟味 要 う。

1.2

外国語教育研究 け 数理的 プ ーチ

変数 数理的特性 い 吟味 , う い , 抽象的

あ 。 体化 , 稿 ,観測 確率 布 関係 いう 観 着

目 。 , 観 触 前 , 稿 基盤 数理的 筆者

研究姿勢 い 簡単 紹 い。数理的 , 実践例

数 比 , 背 い 述 比較的少 。

数理的 ,第一 ,外国語教育研究 目的論 関 ,帰結主義, 利主義 全面的 入 い 。 ,外国語教育 関 研究実践 結果 生 社会的 個人的効用 最大化 ,研究目標 あ 。特 , 外国語教育 関 意思決定 媒 ,社会 個人 効用

前 い 。 ,外国語運用 関わ 認知機能 完全 解明 , い 自然主義的 課題 , 帰結 個人や社会 大 効用 期待 い限 ,主 研究目的 い。 う 考え方 ,認知科学 いう ,社会学,

経済学, 学, 近 流行 い ン 通 あ 。

,観測 可能 象 い 合理主義的 推論 対 過度 信 置 , 必要 要素 積極的 捨象 , いう方針 あ 。程度 問題 帰

(3)

3

特 外国語運用 関わ 内的機構 い ,直接的 観測 可能 象 い , あ 計算論的 再現可能 あ いう う 捉え い。 ,行動主 義や経験主義 見 一種 強い 度 あ 差 支え い。 ,一 般的 行動主義者 う う ,認知主義者 仮定 う 機構 ,物理的

自然主義的 存 得 い い 場面 含意 ,主 研究

対象外 あ 。

第 ,数理的 ,外国語教育研究 見 諸概念 い

共訳 可能性 い 。 鑑 , 共訳 可能性 招 や い自然言語 思弁的記述 ,数理的 記号的 , わ 形式的記述 優先

。 ,観測 関 形式的記述 ,研究者間 ュ ョン

い 効率的 , 確実性 高い手段 あ いう信念 。 う 姿勢 ,現 日 外国語教育研究 ,主流 明 外 あ う。 時 ,統計科学 援用 応用的学術 , あ 姿勢 あ 筆者 考え い 。

数理的 い ,観測 現象 優 数理的近似 得 , 基 的 研究方法 あ , 指針 あ 。 え ,公

い ,任意 目 出 確率 , 散一様 布 discrete uniform distribution 従う。 散

一様 布 いう数学的概念 ,いわ あ , 振 自

体 い。 , 振 優 数理的近似 い 。 ,

実際 振 出 目 繰 返 観測 , , ,

散一様 布 いう概念 い 考え , 予測や意思決定 可能

。 数理的近似 検証,予測, 帰結 意思決

定 通 ,社会や個人 あ 種 効用 得 う。少 ,実際 振 大幅 削減 いう意味 ,最 限 効用 明白 あ 。

, 利主義 ,人間 振 ,あ 目 出 いう物理的

現象 関 要因や, 因果 考慮 い, いう

注目 い。 え , 握 手 形,手 中 配置 状

, 力,風 ,物体間 摩 ,気温, 投 者 性格,人 , 運 ,実際 現象 強 影響 い , 散一様 布 いう概念 ,

実際 優 数理的近似 い あ , 実際 う い

あ , 記 諸要素 積極的 捨象 。 い , 数理的近

似 , 投 いう現象 い 実 性 考え い。

,数理的 , 振 いう現象 関連 因果 い

,観測 経 合理主義的 推論 試 基 的 い。 ,

(4)

4

い 用語 立 , 風 目 出 確率 影響 , 性格 目 出 確率 独立 あ いう う 自然言語 題 ,

整理 多数列記 い いう う 避 。 現 ,国内

外 外 国 語 教 育 研 究 い 主 流 方 策 近 い 。 , 数 理 的 ,

公 目 ,n = 6 散一様 布 従う いう簡潔 わ や い記述

好 。 共訳 可能性 回避 ,共訳可能性 担保 方策 あ 。

外国語教育研究 数理的 実践 , 例 う 簡単

,やや複雑 あ 。 ,数理的 国内 応用研究 ,近 , 筆者や 共 研究者 実践 限 ,多数見 う 。 え , 応時間や 解時間 対 指数正規合成 布 ex-Gaussian distribution ッ

Kusanagi 2014 ,Tamura and Kusanagi 2015a, 2015b ,Tamura, Harada, Kato, Hara, and

Kusanagi 2016 ,草薙 2017b , ン ン学習 歴 従う 布 最尤推定

検 証 草 薙 2017a , ッ ン 増 語 数 ン 布

Poisson distribution 化 川口 室 後藤 草薙 2016 , 種 情

報 確率過程 あ 隠 化 草薙 川口 阪

to appear ,単 時間 最大増 語数 一般化極値 布 generalized extreme value

distribution 化 草薙 2015 あ 。 研究 扱 い

確率 布や確率過程 ,確 一見複雑 あ 。 ,あ 観測 対 数理 的近似 得 , 数理的近似 い 考察 い いう , 目

あ 。 ,観測 数理的特性 , 特性 抽象 数理的近似 手 研究 進 , いう あ 。いう ,数理的近似 得

目標 自体 , 要 手段 い。

う 数理的 研究実践 基 的 方法 ,観測 対 確率 布 ッ , 母数 推定 あ 。 方法 , 稿 以降, 体的 紹 い あ 。

1.3

観測 対 確率分布をフ ッ せ 手続 利点

得 観測 対 確率 布 ッ 手続 ,数理的 基

あ , い , 方法 稿 述 数理的

限 い。一般的 い ,明 正規 布 従わ い変数 対 , 確率 布 ッ , 母数 報告 手続 ,記述統計 方法 , 優 あ 。 体的 いえ ,確率 布 ッ ,中心傾向 わ い意思 決定 可能 。 え , ッ 裾 い 布 従う変数 裾

う 値 予測 場合,適 確率 布 ッ ,予測精度 大

(5)

5

裾 い 布形状 見 変数 ,比較的多数 あ 考え 。

近 , a 一 般 化 線 形 GLM , b 一 般 化 線 形 混 合 効 果 GLMM , c 階 ベ ,外国語教育研究 入 う

い 。 , 確率 布 扱う ,観測 対 確率 布

ッ 手続 親 , 記 適 使用 最初 足

。 ベ 統計 関 , 前 布 設定 い 確率 布 知

識 可 あ , あ 。 後述 ,一般化線形

最尤推定 母数 推定 ,手法 非常 似通 い 。 え , ン 関数

恒等関数 identity function ,誤差 ン 布 従う 一般化線

形 い , 回帰係数 値 ,最尤推定 母数λ 推定値 一 。 う ,確率 布 ッ い 理解 ,一般的 意味 解析精度

関 ,間接的 役立 考え 。

2.

確率分布 フ ッ

2.1

概論

,確率 布 ッ ,観測, 所 あ 確率変数

代表 関数 母数 探 手続 あ 。 いう関数 , 確率密度関数 probability density function, PDF や確率質 関数 probability mass function,

PMF 指 。前者 連続確率 布 関数 あ ,後者 散確率 布 関数 あ 。

代表 , ,観測 関数 い 近似 い 状 あ 。 体的 , a 観測 関数 期待値 総合的 見 十 い, b

条件 ,あ 関数 十 い, い 性質や,確率的

複雑 ン , 方法 特 。

通常,確率 布 ッ 手続 , a 確率 布 選択, b 母数 推定, c 誤差や適合性 検討, いう3 程 わ e.g, Ricci, 2005 。以

, 程 い 概要 述 い 。

2.2

確率分布 選択

最初 工程 ,確率分布 選択 あ 。 ,フ ッ せ 確率分布を選択す 前 ,得

た観測 特性を見極め べ あ 。分布形状 限っ いえば,以下 う 点 参考 。

a 連続確率 布 散確率 布

b 値域 非負

c 布 対称型 非対称型

(6)

6

え , 1 う 観測 。 ,統計解析環境 R R

Core Team, 2016 併記 明 う。 記 R 入力

, 結果 得 あ 。

1. 観測 表 例

#図1 ータを作成し, ス 可視化

set.seed(0); dat<-rgamma(1000, shape=3,scale=2)

hist(dat,main="",xlab="Value",col="lightblue")

観測 ,連続確率 布 属 う あ , 非対称型 あ 見 。 ,極端 値, 中心 値 正 方向 偏 い わ 。 後述 , う 形状 示 ,対数正規 布 log-normal distribution , ン 布 Gamma distribution , ワ 布 Weibull distribution , 布

Rayleigh distribution ,指数正規合成 布 適 化 場合 多い。

要領 ,あ 観測 特性 考え,単一 い 複数 確率 布 選択 。

特性 観測 可視化 確認 , 発生

い 知識 入 確率 布 選択 い。 え ,単

時間あ あ 象 発生回数 , ン 布 従う 知 い 。 稿 , 外 国 語 教 育 研 究 潜 的 関 連 深 う , 布 binomial distribution , ン 布,幾何 布 geometric distribution ,負 布 negative binomial distribution , 過剰 ン 布 zero-inflated Poisson distribution ,正規

布, ン 布, 布 Cauchy distribution , 布,ワ 布,対

数 正規 布, 指数正規合 成 布,一 般化極値 布,混合 布 mixture distribution

model 。 布 特 , 記 観 あわ ,表 1 。

表 ,非常 簡略的 あ , 正確 あ い。

蓑谷 2003 , 確率 布 文献 参考 い。 Valつe

r

e

q

e

0 5 10 15 20 25

0

5

0

1

0

0

1

5

0

2

0

0

2

5

(7)

7 表1.

布 特

値域 対称性 中心傾向/極端 値

布 散 非負 対称 中心 集

ン 布 散 非負 主 対称 中心 集

幾何 布 散 非負 非対称 正 極端 値

負 布 散 非負 非対称 正 極端 値

過剰 ン 布 散 非負 非対称 0 特

正規 布 連続 正負 対称 極端 値 非常 少 い

ン 布 連続 非負 非対称 正 極端 値

布 連続 正負 対称 極端 値 少 い

布 連続 非負 非対称 正 極端 値

ワ 布 連続 非負 非対称 正 極端 値

対数正規 布 連続 非負 主 非対称 正 極端 値 指数正規合成 布 連続 正負 非対称 正 極端 値 一般化極値 布 連続 正負 主 非対称 正 極端 値 混合 布 主 連続 主 正負 主 非対称 場合

確率 布 , 母数 値 ,形状 変わ あ ,

布 確率密度関数 確率質 関数 型的 例 , 2 示 。 う

い。 2 関 R 稿 省略 。

2. 布

0 2 4 6 8 1 0

0 . 0 0 0 . 1 0 0 . 2 0

二 項

0 5 1 0 1 5 2 0 2 5 3 0

0 . 0 0 0 . 0 4 0 . 0 8

0 2 4 6 8 1 0

0 . 0 0 0 . 1 0 0 . 2 0 0 . 3

0 幾 何

0 5 1 0 1 5 2 0 2 5 3 0

0 . 0 0 0 . 0 4 0 . 0 8

負 二 項

0 5 1 0 1 5 2 0 2 5 3 0

0 . 0 0 0 . 1 0 0 . 2 0

過 剰 ン

0 2 0 4 0 6 0 8 0 1 0 0

0 . 0 0 0 . 0 2 0 . 0 4

正 規

0 2 0 4 0 6 0 8 0 1 0 0

0 . 0 0 0 0 . 0 1 0 0 . 0 2 0

0 2 0 4 0 6 0 8 0 1 0 0

0 . 0 0 0 0 . 0 1 5 0 . 0 3 0

コ ー シ ー

0 2 0 4 0 6 0 8 0 1 0 0

0 . 0 0 0 0 . 0 1 5 0 . 0 3

0 ー ー

0 2 0 4 0 6 0 8 0 1 0 0

0 . 0 0 0 . 0 2 0 . 0 4

0 2 0 4 0 6 0 8 0 1 0 0

0 . 0 0 0 . 0 4 0 . 0 8

対 数 正 規

0 2 0 4 0 6 0 8 0 1 0 0

0 . 0 0 0 0 . 0 1 0 0 . 0 2 0

指 数 正 規 合 成

0 2 0 4 0 6 0 8 0 1 0 0

0 . 0 0 0 . 0 2 0 . 0 4

一 般 化 極 値

0 2 0 4 0 6 0 8 0 1 0 0

0 . 0 0 5 0 . 0 1 5

(8)

8

当 研究 先行研究 ,過去 研究実践 い , 使用 い 布 選択 ,十 有益 方策 あ 。 , 確率 布 特性 ,明 確 対象 現象 ッ 場合 あ 。 え ,表2 う 例 ,外国語教 育研究や 関連 い ,あ 程度異論 使用 考え あ 。

う 例 参考 ,確率 布 選択 い。

表2.

布 適用例

適用 例

布 正答回数, 復 伴う課題 成 回数

ン 布 単 時間 ッ ン 増 語数,単 時間

ン ン教材 回数

幾何 布 一度成 復 続 課題 い ,成

回数

負 布 複数回成 復 続 課題 い ,成

回数,文中 語や節 数

過剰 ン 布 単 時間 ン ン教材 回数 ,

原因 い特段 理 あ

正規 布 誤差 布

ン 布 ン ン学習 学習時間,回答時間,

成績, 復 伴う課題 要 時間,資産や

布 正規 布 明 裾 い場合

布 ン ン学習 学習時間, 成績

ワ 布 ン ン学習 学習時間,回答時間,

断課題 応時間, 解時間

対数正規 布 ン ン学習 学習時間,回答時間,

断課題 応時間, 解時間,文中 語や節 数, 成績,資産や

指数正規合成 布 断課題 応時間, 解時間

一般化極値 布 復 伴う課題 最高成績,個人 単 時間あ 書 最大 語数

(9)

9

2.3

母数 推定

ッ 確率 布 決定 , , 確率 布 母数 観測

推定 程 。母数 ,一般 θ 表記 , 確率

布 特 値 あ 。 ン 布 例 あ , ン 布 2 母数 。 形状母数 あ k, う 尺度母数 あ θ あ 。 ,形状 母数 α,逆尺度母数 い 比率母数 β 扱う場合 あ 。後者 ,ベ ン 好 母数化 う あ 。 稿 ,都合 ,両方 場合 使い い ,十

注意 い。 え , ン 布 確率密度関数 い ,観測 適合

2 母数 組 合わ 探 ,母数 推定 あ 。

2.3.1

最尤推定 母数 点推定

非常 大雑把 明 ,母数 推定 ,観測 関数 期待値 や, 観測 条件 関数 ,最 化 最大化 値 組 合わ ,

場合,機械的 計算 手続 あ 理解 い。

,結局 ,観測 対 任意 関数 数理的近似 度合い 最大化

母数 値 あ 。 手 ッ いう。 体的 , ン

法や最尤推定 使用 多い。 ,最尤推定 例 概 。

最尤推定 い 概 前 , 尤度 ゆう い 明 。尤度 , 観測 場合 関数 値 あ 。 値 最大化 方法 ,最尤 推定 あ 。x 観測 示 確率変数,θ 母数 ,

| 1

,母数 観測 起 や あ , 確率密度関数 あ ,逆 x

所 , 母数 あ いえ 。

,一般 ,尤度関数 L

| = | 2

いう関係 わ 。尤度 ,あ 母数 条件 い ,確率密度関数

え 観測 確率 積 計算 。 え , 3 う

(10)

10

#図3 ータを作成し, ス 可視化

set.seed(0); dat<-rnorm(1000, 50,10)

hist(dat,main="",xlab="Value",col="lightblue")

3. 正規 布 従う観測 例

観測x いう条件 い , え ,母数θ μ = 20, σ = 10 尤度 ,以 う 計算 。 ,一般的 行わ い う , 確率 対数 和 方法 使用 い 。

#尤度を計算

L<-sum(log(dnorm(dat,20,10)))

L

ッ 値 ,-8171.67 あ 。一方, 観測 x いう条件

母数θ μ = 50, σ = 10 尤度 ,以 う 計算 。

#尤度を計算

L2<-sum(log(dnorm(dat,50,10)))

L2

母数 尤度 ,-3719.16 あ 。 ,母数θ ,μ = 20, σ = 10 あ

,μ = 50, σ = 10 あ う ,断然 い 考え 。参考

, 4 ,μ = 20, σ = 10 確率密度曲線 μ = 50, σ = 10 確率密度曲線 足

。μ = 50, σ = 10 確率密度曲線 う , 適合 い 視覚

的 わ う。

Valつe

r

e

q

e

20 30 40 50 60 70 80

0

5

0

1

0

0

1

5

0

2

0

(11)

11

#確率密度曲線 描画

x<-seq(0,100,.1)

hist(dat,main="",xlab="Value",col="lightblue",freq=F,xlim=c(0,100))

lines(x,dnorm(x,20,10),lwd=2,lty=2,col="pink")

lines(x,dnorm(x,50,10),lwd=2,lty=2,col="lightgreen")

4. 正規 布 従う観測 2 確率密度曲線

,便宜的 ,母標準偏差 10 固定 母 均 尤度関数 , 5 う 。 ,母 均 0 100 間 い , 数 2桁刻 計算 い 。

5. 母 均 い 尤度曲線 例

Valつe

e

s

i

0 20 40 60 80 100

0

.

0

0

0

.

0

1

0

.

0

2

0

.

0

3

0

.

0

4

0 20 40 60 80 100

-1

6

0

0

0

-1

2

0

0

0

-8

0

0

0

-4

0

0

0

mつ

(12)

12

#尤度関数 描画

L<-numeric(1000);mu<-numeric(1000)

for(i in 1:1000){

mu[i]<-i/10

L[i]<-sum(log(dnorm(dat,mu[i],10)))

}

result<-data.frame(mu,L)

plot(result,type="l",lwd=2,col="blue")

5 わ う ,母 均 50 近 あ う , 値 ,

い わ 。最尤推定 , う ,

い 値 探 索 方 法 あ 。 実 際 計 算 い , 準 ュ ン 法 quasi-Newton

method ,特 BFGS 法や 類 ,最適化問題 解 見 復計算

行わ 。R ,準 ュ ン法 汎用最適化関数

optim 関数 用意 い 。 , ッ 関数 あ mle 関数や,bbmle

ッ Ben Bolker and R Development Core Team, 2016 mle2関数 あ 。 , 記 い ,正規 布 選択 ,母 均 母標準偏差 い ,mle 関 数 mle2関数 最尤推定 記 。 関数 ,

BFGS 法 使用 い 。 ,直接 optim 関数 推定

, 稿 省略 。

#mle 最尤推定 例

eval<-function(mu,sigma){L<--sum(log(dnorm(dat,mu,sigma)));L}

fit.mle<-mle(eval,start=list(mu=50,sigma=10))

fit.mle

#mle2 最尤推定 例

library(bbmle)

eval<-function(mu,sigma){L<--sum(log(dnorm(dat,mu,sigma)));L}

fit.mle2<-mle2(eval,start=list(mu=50,sigma=10))

fit.mle2

最尤推定 ,基 的 ,初期値 指定 必要 あ 。 ,

(13)

13

ン 定理 う , い 万能 方法 い あ 。 , ン 法 先 使用 推定値 初期値 , 記述統計 利用 , い 方法

十 結 果 得 多 い 。 , 後 述 MASS ッ Venables, Ripley, 2002 fitdistr 関数や,fitdistrplus ッ Delignette-Muller & Dutang,

2015 fitdist 関数 , 布 ,初期値 自動 設定 ,

一般的 使用 ,特 わ い場合 多い。

, 関数 ,μ = 49.84,σ = 9.98 推定 。

対数尤度 ,-3719.03 あ 。 推定値 ,母数 最尤推定 あ

いえ 。 推定値 母数 ,当 観測 確率密度曲線 足 , 6 う 。 母数 確率密度曲線 ,観測 対 い数理的近似

い 見 。

#確率密度曲線 描画

x<-seq(0,100,.1)

hist(dat,main="",xlab="Value",col="lightblue",freq=F,xlim=c(0,100))

lines(x,dnorm(x,49.84,9.98),lwd=2,lty=2,col="blue")

6. 正規 布 従う観測 最尤推定 母数 値 確率密度曲線

2.3.2

比較的間便 方法

実 際 ,MASS ッ fitdistr 関 数 や ,fitdistrplus ッ

fitdist 関数 使用 ,尤度関数 自 用意 ,

場合初期値 設定 ,容易 最尤推定 う 。 ,

MASS ッ fitdistr関数 最尤推定 例 示 。

Valつe

e

s

i

0 20 40 60 80 100

0

.

0

0

0

.

0

1

0

.

0

2

0

.

0

3

0

.

0

(14)

14

#fitdistr関数 最尤推定

library(MASS)

fit.fitdistr<-fitdistr(dat,densfun="normal")

coef(fit.fitdistr)

,fitdistrplus ッ fitdist関数 例 以 あ 。

#fitdist関数 最尤推定

library(fitdistrplus)

fit.fitdist<-fitdist(dat,"norm")

coef(fit.fitdist)

fitdistr 関数 ,ベ 布 beta distribution , 布, 乗 布,

指数 布,f 布, ン 布,幾何 布,対数正規 布, ッ 布,負 布,正規 布, ン 布,t 布, ワ 布 い 。

,fitdist 関数 ,確率密度関数や確率質 関数, 累積 布関数

え い , う 布 い 推定 。 関数 ,前

者 関数 異 , ン 法や最大適合度推定 maximum goodness-of-fit estimation , 誤差や適合度 評価 関 ,非常 便利 機能 連

携 。以降, 稿 , 関数 中心 記 い 。

2.4

誤差や適合性 検討

母数 推定 , 誤差や適合性 検討 必要 あ 。 ,fitdist 関数 中心 ,母数 推定後 手続 い 概 。 ン 布 例

#数値例 作成

set.seed(0)

dat2<-rgamma(1000,shape=2,rate=1/10)

#最尤推定

fit<-fitdist(dat2,"gamma")

生成 fit , 可視化 。

(15)

15

#可視化

plot(fit)

7. fitdistrplus ッ 可視化 例

, 置 ,観測 表 ,推定 母数 確率密

度曲線 あ 。右 置 ,Q-Q ッ

あ 。 ,理論 確率密度曲線 観測 比較 使用 。 , 横軸 理論 確率密度曲線 得 数,縦軸 観測 数 あ 。

, 確率密度曲線 観測 い数理的近似 い あ , ッ

結 直線 近 あ 。 置 ,理論 累積 布関数 経 験累積 布関数 ECDF い あ 。右 ,P-P ッ

,Q-Q ッ 要領 ,累積確率 理論的期待値 観測

累積確率 ッ あ 。 ,視覚的 ッ 度

合い 把握 可能 。

,fitdist 関数 得 summary 関数 渡

, 各 母 数 推 定 値 , 標 準 誤 差 , 対 数 尤 度 , 赤 池 情 報 基 準

AIC ,ベ 情報 規準 BIC , 各母数 相関行列 知 。

#要約

summary(fit)

分 m た i r i げ a l a そ こ っ h e ぞ r e っ i げ a l こ e そ s .

) a っ a

e

s

i

0 2 0 4 0 6 0 8 0

0 . 0 0 0 0 . 0 1 5 0 . 0 3 0

0 2 0 4 0 6 0 8 0 1 0 0

0 2 0 4 0 6 0 8 0

Q - Q た l ぞ っ

T h e ぞ r e っ i げ a l q つ a そ っ i l e s

m

i

r

i

a

l

q

a

i

l

e

s

0 2 0 4 0 6 0 8 0

0 . 0 0 . 4 0 . 8

分 m た i r i げ a l a そ こ っ h e ぞ r e っ i げ a l ( ) 切 s

) a っ a

0 . 0 0 . 2 0 . 4 0 . 6 0 . 8 1 . 0

0 . 0 0 . 4 0 . 8

P - P た l ぞ っ

T h e ぞ r e っ i げ a l た r ぞ け a け i l i っ i e s

m

i

r

i

a

l

r

a

i

l

i

i

e

(16)

16

標準誤差,対数尤度や各種 情報 基準 ,以 う

出 。

#各情報 取 出し

#母数 標準誤差

fit$sd

#対数尤度

fit$loglik

#AIC

fit$aic

#BIC

fit$bic

対数尤度 ッ log-likelihood plot 機能 便利 あ 。fitdistrplus

ッ ,llplot 関数 ,母数 組 合わ 尤度 ッ

表現 。当 例 対数尤度 ッ , 8 示 。

#対数尤度 ッ

llplot(fit)

8. 対数尤度 ッ 例

場合 ,複数あ 母数 う , い 固定 状 ,

母数 値 推定 い場合 あ 。 え ,形状母数 値 理 1.95 2.00 2.05 2.10 2.15 2.20 2.25

0 . 0 9 5 0 . 1 0 0 0 . 1 0 5 0 . 1 1 0

shaたe

r

a

e

-3925

-3 925 -392

0 -3 920 -3 915 -3 91 5 -391

(17)

17

既知 あ 状況 あ 。 , 実質科学的 い方法 あ い い問題 あ ,結果的 母数 倹約 ,適合度 観 い ,

適 制約 え い場合 あ え 。い ,fitdist関数 ,以

う 母数 固定 , 自 母数 値 推定 。

#形状母数を2 固定し 比率母数を推定

fit2<-fitdist(dat,"gamma",fix.arg=list(shape=2))

#対数尤度 ッ

llplot(fit2)

, 母数 推定 場合,対数尤度 ッ ッ

, 9 う 尤度曲線 返 。 , 5 場合 要領 あ 。

9. 母数 固定 尤度曲線 例

,誤差や信 区間 検討 , ッ 法 適用 。外

国語教育研究 ッ 法 概 い ,草薙 2014 あ

,手法自体 い 参照 い。

fitdistrplus ッ ,bootdist関数 いう専用 関数 あ , ッ

ッ ン ッ ッ 両方

い 。 関数 ,fitdist関数 返 使用 。 ,B =

1,000 ン ッ ッ 法 , ッ

ン 信 区間 構築 。 ,α = .05 。

0.0385 0.0395 0.0405 0.0415

-4

5

4

5

.

5

-4

5

4

5

.

0

-4

5

4

4

.

5

-4

5

4

4

.

0

raっe

l

g

l

i

k

e

l

i

h

(18)

18

#B = 1,000, ン ッ 法 ー ス ッ

#環境 数 計算時間 場合もあ

boot.fit<-bootdist(fit,bootmethod="nonparam",niter=1000)

# ー ス ッ 結果 要約

summary(boot.fit)

boot.fit$CI

ッ 作成 summary関数 渡 ,

母数 い , ッ 得 布 中央値,2.5% ,97.5%

返 。 2.5% 97.5% , ン ッ ッ

法 ン 信 区間 限 限 あ 。

,以 う , ッ 得 布,

ッ 標 直接的 可視化 。 10 示 。

# ー ス ッ 推定値

boot.shape<-boot.fit$estim[,1]

boot.rate<-boot.fit$estim[,2]

# を ス 描い ,中央値, ー ンタ 信頼区間を描 入

par(mfrow=c(1,2))

hist(boot.shape,col="lightblue",main="Shape",xlab="Estimate")

abline(v=quantile(boot.shape,c(0.025,.5,.975)),col=2)

hist(boot.rate,col="lightblue",main="Rate",xlab="Estimate")

abline(v=quantile(boot.rate,c(0.025,.5,.975)),col=2)

10. ッ 標 可視化

S h a た e

分sっimaっe

r

e

q

e

1.9 2.0 2.1 2.2 2.3 2.4 2.5

0 5 0 1 0 0 1 5 0 2 0 0

R a っ e

分sっimaっe

r

e

q

e

0.09 0.10 0.11 0.12

(19)

19

実際 研究実践 , 観測 対 複数 確率 布 ッ , 確率 布 統計 や情報 基準 比較 あ 。 う 比較

,fitdistrplus ッ gofstat関数 使用 便利 あ 。 関数 , a

検定 統計 , b ン 検定 統計 ,

c ン ン ン 検定 統計 , d 赤池情報 基準, e ベ 情報

規準 。 ,当 ン 布 従う 対 , a ン 布,

b 正規 布, c 対数正規 布 3 ッ , 適合度 比較 手

続 う。 ,表3 う 結果 得 。

# 布を ッ させ

gam<-fitdist(dat2,"gamma")

norm<-fitdist(dat2,"norm")

logn<-fitdist(dat2,"lnorm")

#比較 ス 入

gofstat(list(gam, norm, logn), fitnames=c("gamma", "normal",

"lognormal"))

表3.

適合度 示 統計 情報 基準 比較

統計 情報 基準 ン 布 正規 布 対数正規 布

統計 0.02 0.11 0.05

ン 統計 0.06 4.06 0.85

ン ン ン 統計 0.41 24.14 5.71

赤池情報 基準 7791.70 8188.35 7883.08

ベ 情報 規準 7801.51 8198.17 7892.90

指標 , い値 う ,優 適合度 示

。 ,当然 ,総合的 見 ン 布 適合 い いえ

う あ 。

統計的帰無仮 検定 有意性 , 値 断的 適合度 度合い 調 , い方法 い ,観測 対 適合 い う 一標

検定 定 場合 あ 。参考 ,一標

(20)

20

#正規 布 場合

set.seed(0)

dat.ks.norm<-rnorm(100,0,1)

ks.test(dat.ks.norm,"pnorm")

#特定 平均 標準偏差をも 正規 布

set.seed(0)

dat.ks.norm2<-rnorm(100,0,1)

ks.test(dat.ks.norm2,"pnorm",0,1)

# ン 布

set.seed(0)

dat.ks.gamma<-rgamma(100,2,3)

ks.test(dat.ks.gamma,"pgamma",2,3)

#ワ 布

set.seed(0)

dat.ks.weibull<-rweibull(100,2,3)

ks.test(dat.ks.weibull,"pweibull",2,3)

3.

確率分布 フ ッ け 実際

以 ,観測 対 確率 布 ッ 手続 基 あ 。 ,

外国語教育研究 応用 念頭 置い , 実際 い 要 述 い 。

3.1

研究実践 け 報告 仕方

日 外国語教育研究 い ,観測 対 確率 布 ッ 手続 , 筆者や 共 研究者 研究実践 中心 数例見 , ,業界全体 広 入 い 方法 いい い。 ,実際 研究実践 い , 手 法 結果 う 報告 い ,一定 指針 示 い。

,以降 う 処理 ,得 観測自体 い 適 記述 変わ い。 記述 い , 4 程度

ン 均, 散,歪度,尖度 ,い 報告 い う。

節 ,形状母数 α 4,比率母数 β 0.1 母数 ン 布 従う1,000 個

(21)

21

# 数値例 作成

set.seed(1)

dat3<-rgamma(1000,shape=4,rate=1/10)

最 初 ン 計 算 あ , moments ッ Komsta &

Novomestky, 2015 使用 。

# ー ン 計算

library(moments);moments.dat<-numeric(0)

moments.dat[1]<-mean(dat3)

moments.dat[2]<-var(dat3)

moments.dat[3]<-skewness(dat3)

moments.dat[4]<-kurtosis(dat3)

moments.dat

あ 。 ,quantile 関数 使用 ,最 値,第一 数,中央

値,第 数,最大値 。 値 数要約値 いわ 。

# 位数 計算

quantiles.dat<-quantile(dat);quantiles.dat

あ 例 あ , 情報 元 ,表4 表5 要領 値 報告 い。

表4.

観測 ン N = 1,000

均 散 歪度 尖度

観測 38.94 390.16 0.91 4.06

表5.

観測 数要約値 N = 1,000

最 値 第一 数 中央値 第 数 最大値

(22)

22

, , 密度曲線,箱 適

宜可視化 い。作成 可視化 例 11 示 。 ,経験累積 布関数 有益 あ 。 12 経験累積 布関数 例 示 。

#画面 割

par(mfrow=c(3,1))

# ス

hist(dat3,main=" ス ",col="lightblue",xlab="Value")

# ー 密度曲線

x<-seq(0,150,.1)

plot(density(dat3),col="blue",lwd=2,main=" ー 密度曲線

",xlab="Value")

#箱ひ 図

boxplot(dat3,horizontal=T,ylim=c(0,150),col="lightblue",xlab="Value

",main="箱ひ 図")

#経験累積 布関数

par(mfrow=c(1,1))

plot(ecdf(dat3),main="ECDF",col="blue",lwd=3,xlab="Value")

11. 方法 可視化 例

V a l つ e

r

e

q

e

0 5 0 1 0 0 1 5 0

0 5 0 1 0 0 1 5 0 2 0 0

0 5 0 1 0 0 1 5 0

0 . 0 0 0 0 . 0 1 0 0 . 0 2 0

ー 密 度 曲 線

V a l つ e

e

s

i

0 5 0 1 0 0 1 5 0

箱 ひ 図

(23)

23

12. 経験累積 布関数 例

,確率 布 選択 。確率 布 選択 い ,紙幅 許 , い理 付記 あ 。 え , 11 見 わ う , 観測 布形状 ,明 正規 布 逸脱 あ 考え 。 観測 , 正方向 い裾 連続変数 あ , う 特性 表現 う a ン 布, b 対数正規 布, c ワ 布 3 ッ 試

い 文言 あ 。

,実際 ッ 試 際 ,推定方法や初期値 設定方法 い ,

言及 あ 。例 あ , 布 母数 推定法 ,

最尤推定 あ , 初期値 α = 10,β = 1 あ 。 ,初期値 設

定 ,推定結果 劇的 変わ う 場合 ,基 的 ッ 十 い 多い。

後,実際 推定 母数 報告 , 前 ,あ 選択 う

, 布 観測 適合 い い 記述 。 ,後者

先 う 仮定 例 あ 。 , 記 通 ,当 対 , ン 布,対数正規 布,ワ 布 3 ッ 。 適合度 表6

0 50 100 150

0

.

0

0

.

4

0

.

8

分 ( ) 切

Valつe

(

(24)

24

# 布を ッ させ

gam<-fitdist(dat3,"gamma")

lnorm<-fitdist(dat3,"lnorm")

weib<-fitdist(dat3,"weibull")

#比較 ス 入

gofstat(list(gam,lnorm,weib),fitnames=c("gamma","log-normal","Weibull"))

表6.

当 例 適合度 示 統計 情報 基準 比較

統計 情報 基準 ン 布 対数正規 布 ワ 布

統計 0.02 0.04 0.04

ン 統計 0.03 0.46 0.43

ン ン ン 統計 0.23 3.25 2.70

赤池情報 基準 8644.39 8705.13 8670.85

ベ 情報 規準 8654.21 8714.94 8680.66

う 複数 基準 示 , 各種 検定統計 や情報 基準 総合的 評

価 , ン 布 観測 対 優 適合 示 考え いう

う 結論 。 ,観測 布 示 ,各 布 確率密度曲線

一見 わ や 。 13 う 。 ,青

ン 布,赤 対数正規 布,緑 ワ 布 確率密度曲線 あ 。青 ン 布

比 い近似 い わ 。 ,Q-Q ッ 示

有益 あ 。

#描画

x<-seq(0,150,.1)

hist(dat3,col="lightblue",main="",xlab="Value",freq=F,ylim=c(0,.04)

,breaks=20)

lines(x,dgamma(x,coef(gam)[1],coef(gam)[2]),lwd=2,col="blue")

lines(x,dlnorm(x,coef(lnorm)[1],coef(lnorm)[2]),lwd=2,col="red")

(25)

25

13. 複数 確率 布 ッ 場合 比較 例

, ッ 布 い 推定値,誤差,信 区間 報告 あ 。

推定値 報告 あ , 観測 対 ン 布 ッ ,

母数 推定値 ,α = 3.80,β = 0.10 あ いう う 簡潔 表現 い。 ,誤 差や信 区間 報告 あ , 方法 , α = .05,B = 1,000 , ン

ッ ッ 法 ン 信 区間 構築 いう う

明示化 , 推定値 併 , ン 布 母数 推定値 ,α = 3.80

[3.51, 4.12] ,β = 0.10 [0.09, 0.11] あ 記 い う。

3.2

ま ま 確率分布をフ ッ せ ため コー

, 確率 布 ッ 例 , 示 い 。

布 ッ 観測用 , 前 布 従う擬似乱数 作

成 い 。 外 国 語 教 育 研 究 念 頭 置 い 数 値 ュ ョ ン い , 草 薙

2016 参考 い。

3.2.1

二項分布

布 母数 ,試行回数n 成 確率p あ ,成 確率p 最尤推定 ,成 回数 m

= 3

あ 。 う 成 確率p 自体 ,非常 簡単 あ ,

便宜的 当 省略 。

Valつe

e

s

i

0 50 100 150

0

.

0

0

0

.

0

1

0

.

0

2

0

.

0

3

0

.

0

(26)

26

3.2.2

ン分布

ン 布 母数 ,λ あ 。以 う ッ 。

# ン 布 従う数値例 作成

set.seed(0)

dat.poisson<-rpois(1000,4)

# ッ

fit.poisson<-fitdist(dat.poisson,"pois")

fit.poisson

第1節 触 う , 母数 ,一般化線形 使 以 う 要領 。観測 階 あ ,一般化混合効果

使 変 効果 い 推定 い。 布 い , 様 方法 推定 場合 多い。

#一般化線形 片 推定

fit.poisson2<-glm(dat.poisson~1,family=poisson(identity))

coef(fit.poisson2)

#ま ち も い

fit.poisson2<-glm(dat.poisson~1,family=poisson)

exp(coef(fit.poisson2))

3.2.3

幾何分布

幾何 布 母数 ,成 確率p あ 。以 う ッ 。

#幾何 布 従う数値例 作成

set.seed(0)

dat.geom<-rgeom(1000,.5)

# ッ

fit.geom<-fitdist(dat.geom,"geom")

fit.geom

3.2.4

負 二項分布

負 布 母数 ,成 回数 r,成 確率 p あ 。以 う

(27)

27

#負 二項 布 従う数値例 作成

set.seed(0)

dat.negbin<-rnegbin(1000,5,.5)

# ッ

fit.negbin<-fitdist(dat.negbin,"nbinom")

fit.negbin

3.2.5

過剰 ン分布

過剰 ン 布 母数 ,λ μ σ あ 。以 う ッ 。 ,gamlss ッ Rigby & Stasinopoulos, 2005 使用 い 。

# 過剰 ン 布 従う数値例 作成

library(gamlss)

set.seed(0)

dat.ZIP<-rZIP(1000,8,.2)

# ッ

fit.ZIP<-gamlss(dat.ZIP~1,family=ZIP)

fit.ZIP

# ,係数 変換す 必要 あ

3.2.6

正規分布

正規 布 母数 ,μ σ あ 。必要性 い場合 多い ,以 う

ッ 。

#正規 布 従う数値例 作成

set.seed(0)

dat.norm<-rnorm(1000,50,10)

# ッ

fit.norm<-fitdist(dat.norm,"norm")

(28)

28

3.2.7

ン 分布

ン 布 母数 , 稿 繰 返 述 い う ,k θ ,α β あ

。 繰 返 ,以 う ッ 。

# ン 布 従う数値例 作成

set.seed(0)

dat.gamma<-rgamma(1000,5,.1)

# ッ

fit.gamma<-fitdist(dat.gamma,"gamma")

fit.gamma

3.2.8

コーシー分布

布 ,観測 ッ いう ,ベ 統計 い 前 布 使用 場合 多い。 布 母数 ,一母数 x0 尺度母数 γ あ 。以

う ッ 。

#コーシー 布 従う数値例 作成

set.seed(0)

dat.cauchy<-rcauchy(1000,0,1)

# ッ

fit.cauchy<-fitdist(dat.cauchy,"cauchy")

fit.cauchy

3.2.9

ー分布

布 母数 あ , 母数 σ あ 。以 う

ッ 。 ,VGAM ッ Yee, 2010 使用 い 。 ,

初期値 4 入 い 。

# ー 布 従う数値例 作成

library(VGAM);set.seed(0)

dat.ray<-rrayleigh(1000,5)

# ッ

fit.ray<-fitdist(dat.ray,"rayleigh",start=list(4))

(29)

29

3.2.10

対数正規分布

対数 布 母数 ,対数 均 log μ 対数標準偏差 log σ あ 。以 う

ッ 。

#対数正規 布 従う数値例 作成

set.seed(0)

dat.lnorm<-rlnorm(1000,1,10)

# ッ

fit.lnorm<-fitdist(dat.lnorm,"lnorm")

fit.lnorm

3.2.11

指数正規合成分布

指数正規合成 布 , 国内 外国語教育研究 い ,奇 正規 布 繁 使用 い 布 あ い。 布 母数 μ,σ, 指

数成 あ τ あ 。retimes ッ Massidda, 2013 使用 ,以 う

ッ 。

#指数正規合成 布 従う数値例 作成

library(retimes)

set.seed(0)

dat.exgauss<-rexgauss(1000,2000,1000,500)

# ッ

fit.exgauss<-timefit(dat.exgauss)

fit.exgauss

3.2.12

一般化極値分布

一般化極値 布 ,母数 値 ンベ 型, 型, ワ

型 類 , 最 大 値 従 う 布 知 い 。ismev ッ

Original S functions written by Janet E. Heffernan with R port and R documentation provided by

(30)

30

#一般化極値 布 従う数値例 作成

library(ismev)

dat.gev<-numeric(1000)

for(i in 1:1000){dat.gev[i]<-max(rnorm(100,50,10))}

# ッ

fit.gev<-gev.fit(dat.gev)

fit.gev$mle

3.2.13

混合分布モ

混合 布 ,一般的 確率 布 やや種類 異 あ 。 ,単変

混合正規 布 や混合 ン 布 ,使用目的 ,

布 様 扱う 。混合 布 母数 推定 ,一般的 EM 方法 使用 。

,要素数 2 単変 混合正規 布 い 扱う。 場合 母 数 , 混 合 比 λ,μ1,μ2,σ1,σ2 5 あ 。 mixtools ッ Benaglia, Chauveau, Hunter, & Young, 2009 使い,EM ,混合 布

ッ 紹 。

#要素数2 混合正規 布 従う数値例 作成

library(mixtools)

set.seed(0)

dat.mixnorm2<-c(rnorm(100,50,10),rnorm(200,120,20))

# ッ

fit.mixnorm2<-normalmixEM(dat.mixnorm2)

fit.mixnorm2

, 確率密度関数 以 う 定義 。

#要素数2 混合正規 布 確率密度関数

dnormmix<-function(x,lambda, mu1, mu2, sigma1, sigma2){

y<-lambda*dnorm(x,mu1,sigma1)+(1-lambda)*dnorm(x,mu2,sigma2)

y

(31)

31

,要素数 2 混合 ン 布 い 扱う。 場合 母数 ,

λ,α1,α2,β1,β2 5 あ 。先述 様 , 混合 布 ッ

紹 。

#要素数2 混合 ン 布 従う数値例 作成

set.seed(0)

dat.mixgamma2<-c(rgamma(100,4,1),rgamma(300,10,.2))

# ッ

fit.mixgamma2<-gammamixEM(dat.mixgamma2)

fit.mixgamma2

, 確率密度関数 以 う 定義 。

#要素数2 混合 ン 布 確率密度関数

dmixgamma<-function(x,lambda,a1,a2,b1,b2){

y<-lambda*dgamma(x,a1,b1)+(1-lambda)*dgamma(x,a2,b2)

y

}

3.3

コフ連鎖モン 法

,主 ,最尤推定 布母数 推定 い 報告 。

, 度主義 方法 あ , 母数 真 値 い

う見方 依拠 い 。 ,ベ 推定 見方 , 度主義 対極的 ,母数 確率 布 捉え 。後者 う ,外国語教育 実務的状況 適 い 場 合 あ ,解析精度 い , 面 い 優 あ 。

ベ 推定 概略 い , 稿 範 い , , 連鎖 ン

法 MCMC ,母数 後 布 posterior distribution ン

得 方法 い 紹 。ベ 推定やMCMC自体 い ,豊 2015, 2016 ,

松浦 2016 参考 い。 ,昨 ,草薙 2017b ,草薙 岡 2016 ,

草薙 石 2016 ,草薙 to appear ,ベ 統計 応用 外国語教育 関

研究実践や学会主催 ワ ョッ 見 う 。

(32)

32

#正規 布 従う ータ例 作成

set.seed(0)

dat.mcmc1<-rnorm(1000,50,10)

R い ,母 均値 母 散 後 布 ン 得 簡単 方法

,MCMCpack ッ Martin, Quinn, & Park, 2011 MCMCregress関数 coda ッ Plummer, Best, Cowles, & VInes, 2006 使 う あ う 。

MCMCregress 関数 来, ン ン 一般線形 係数

後 布 関数 あ , 援用 ,母 均 母 散 後 布 ン ン う 。 関数 ,回帰係数 前 布 多変 正規 布 , 条件 誤 差 散 前 布 逆 ン 布 設 定 い 。 ン ン 区 間

1,000, 後 復回数 10,000 , 前 布 形状 い , 関数

従う場合,以 う MCMC計算 う 。

#MCMC 例

library(MCMCpack);library(coda);set.seed(0)

posterior1<-MCMCregress(dat.mcmc1~1,burnin=1000,mcmc=10000)

後 布 ン 要約 ,以 う 情報 得 。母数 ン

い 2.5% 97.5% , 95%ベ 信用区間 限 限

, 値 信用区間 論文 報告 い。

Iterations = 1001:11000

Thinning interval = 1

Number of chains = 1

Sample size per chain = 10000

1. Empirical mean and standard deviation for each variable,

plus standard error of the mean:

Mean SD Naive SE Time-series SE

(Intercept) 49.84 0.3139 0.003139 0.003139

sigma2 99.77 4.4784 0.044784 0.046521

2. Quantiles for each variable:

2.5% 25% 50% 75% 97.5%

(Intercept) 49.23 49.63 49.84 50.05 50.46

(33)

33

MCMC 結果 可視化 , plot 関数 渡

便利 あ 。 結果 14 あ 。 側 ,MCMC計算 各母数 表 ,右側 , 後 布 得 各母数 布 密度曲線 表 あ 。

summary(posterior1)

plot(posterior1)

14. MCMC 各母数 後 布 正規 布 例

MCMC 計算 う際 , 束診断 可 あ 。 Geweke 束

診断 断 。Geweke 束診断 , 連鎖 前後 値 差 検

討 ,慣習的 ,[Z] < 1.96 あ い e.g., Plummer, Best, Cowles, &

VInes, 2006 。 例 ,両方 母数 問題 束 断 。

geweke.diag(posterior1)

ン 布 ッ 場合 様 ,MCMCpoisson 関数 使用 母数λ

後 布 ン 得 。

# ン 布 場合

set.seed(0);dat.mcmc2<-rpois(1000,5)

posterior2<-MCMCpoisson(dat.mcmc2~1,burnin=1000,mcmc=10000)

(34)

34

布 い ,尤度関数 自 用意 , 例 様

, 母数 後 布 い 検 討 。 , 法

MCMCmetrop1R 関数 使 ,指数正規合成 布 母数 い 検討 。 初

期値 正解 設定 。 , 前 布 無情報 前 布 設定

, ン ン区間 1,000, 復回数 50,000回 あ 。 , 15 MCMC計

算 結果 可視化 。

#指数正規合成 布 従う数値例を作成

set.seed(0)

dat.mcmc3<-rexgauss(1000,3000,1000,1000)

#関数を準備

llf<-function(beta,x){

sum(log(dexgauss(x,beta[1],beta[2],beta[3])))

}

#MCMC計算

posterior3<-MCMCmetrop1R(llf,theta.init=c(3000,1000,1000),x=dat.mcmc3,

mcmc=50000,burnin=1000)

plot(posterior3)

(35)

35

例 い , 必要性 薄い , 後 布 ン い ,推

定 値 多 箱 示 あ 。 16 あ 。 ,

紙幅 節約 いう 都合 いい , 母数 大

い , 親 注意 必要 あ 。

#箱ひ 図

post.df<-as.data.frame(posterior3)

boxplot(post.df,names=c("mu","sigma","tau"),col="lightblue",

horizontal=T,xlab="Estimate")

16. 各母数 後 布 示 箱

う ,最尤推定 ,一種 ベ 推定 要領 ,確率 布

母数 い 柔軟 検討 。 ベ 推定 利 一部

過 , ,得 推定値や推定区間 い ,最尤推定や 後

ッ 法 信 区間 構築 大差 い。 ,ベ 推定 主 利 ,階 ベ

う , 複雑 構築 , 母数 前 布 い

,研究者 自 設定 あ 。 関 機会 譲 い。

3.4

確率分布 推定母数 期待値や分散

観測 対 確率 布 ッ 方法 ,従来 記述統計 代わ い。 稿 述 う ,観測 従来 や 方 記述 要

い。 ,仮 ,観測 対 あ 確率 布 十 ッ い 場合, 確率 布 推定母数 ,期待値や 散 計算 理解 あ 。 え , ン 布 従う変数X 期待値 ,k θ 母数化 ,

m

s

i

g

m

a

a

1000 1500 2000 2500 3000

(36)

36

= 4

あ ,α β 母数化 ,

= 5

あ 。 , 散 ,k θ 母数化 ,

= 6

あ ,α β 母数化 ,

= 7

あ 。歪度 8 式,尖度 9 式 う 。 k α 替え い。

= 2

8

=6 9

ン 布 簡単 例 あ , 布 い 様 期待値

計算 。 , ン 布 母数 , 均, 散,歪度,尖度 計算 以 通 あ 。

gammadescriptive<-function(shape,scale){

m<-shape*scale

v<-shape*(scale^2)

s<-2/sqrt(shape)

k<-6/shape

result<-list("mean"=m,"variance"=v,"skew"=s,"kurtosis"=k)

result

(37)

37

う ,観測 対 あ 確率 布 適合 , 母数 報告 い 研究実践 い ,仮 記述統計 落 , 後的

値 計算 可能 あ 。 , 均, 散,歪度,尖度 任意 布 母数 正確 推定 , 容易 い。

3.5

乱数生成 再現可能性

記 少 関連 ,確率 布 ッ 方法 , ュ ョン研 究 強い関連 い 。観測 代表 関数 あ , 関数 従う

生成 可能 あ , 場合,観測 対 確率 布

ッ 実践 ,計算 再現性 高 行 草薙, 2016 。 ,発

展的 関数 , ュ ョン研究 可能 いう

要 利 あ 。外国語教育研究 関 ュ ョン研究 ,い 幕 開い いえ い状況 あ ,観測 対 確率 布 ッ 実践 ,

自体 瑣 あ , 新 い種類 研究 可能性 あ 。

4.

総括

稿 ,外国語教育研究 数理的 い 概 ,外国語 運用 教育 関 現象 対 , 優 数理的近似 得 体的 方法 基礎 紹 。 体的 いえ ,最尤推定 ,観測 対 任意 確率 布 ッ , 母数 推定 方法 中心 ,種々 周辺的技法 い 述 。

稿 紹 方法 ,い 階 性 い単変 場合 適用 あ 。 , 来 数理的 ,階 性や時系列性 主 対象

, 全体 見 , 稿 内容 非常 限定的 い。

,数理的 ,合理主義的 推論 いう ,確率 布や確率過程 い 数理的特性 手 ,経験主義的 研究 進 あ 。 , 観測 確率 布 ッ ,母数 推定値 得 実践 終始 ,実質科学的

議論 い, いう い。 ,観測 う 生成 ,

仕組 明 ,究極的 目標 あ 。

, 稿 最初 述 還 あ ,昨 ,外国語教育研究 学際化 伴い,外国語教育研究 関 変数 多様化 い 。新 研究 入 う

変数 , ,従来 変数 う 数理的特性 い い。 , 数理的特性 明 変数 多い。 ,研究 発展 い 自然 あ 。 , う 比較的新 い変数 対 ,従来 正規 布

依拠 析 ッ う ,容易 予想 あ 。学

(38)

38

数理的特性 丹念 吟味 姿勢 必要 い う 。 稿 紹 手法や 背 あ 考え方 , う 姿勢 者 共通言語

考え い 。

大風呂敷 広 う 稿 ,外国語教育研究 ,現状

い あ 確率 布 いう観 見 ,外国語教育研究 布 , 大局的 見 明 状 あ い い。 稿 ,現実 観測

扱わ , 稿 限界 あ ,筆者 力 足 あ , 現状 表 い いえ 。 後, 研究対象 専門 研究者

, 扱う 体的 変数 数理的特性 い 報告 ,い

, 稿 う 形 成果 い, 筆者 前向

考え い 。 う 試 ,少 筆者 信念 ,外国語教育研究 以 発展 見込 い 。

参考文献

Ben Bolker and R Development Core Team (2016). bbmle: Tools for General Maximum Likelihood

Estimation. R package version 1.0.18. https://CRAN.R-project.org/package=bbmle

Benaglia, T., Chauveau, D., Hunter, D. R., & Young, D (2009). mixtools: An R package for analyzing finite mixture models. Journal of Statistical Software, 32(6), 1–29.

Delignette-Muller, M. L., & Dutang, C. (2015). fitdistrplus: An R package for fitting distributions.

Journal of Statistical Software, 64(4), 1–34.

川口勇作 室 大 後藤亜希 草薙邦広 (2016). ッ ン 増

語数 時系列推移傾向 ッ 評価 関係― ッ ン 用い 検討―

Language Education & Technology, 52, 319–343.

Komsta, L, & Novomestky, F. (2015). moments: Moments, cumulants, skewness, kurtosis and

related tests. R package version 0.14. https://CRAN.R-project.org/package=moments

Kusanagi, K. (2014). Speeded effect on accuracy, sensitivity, response bias and reaction time of L2 learners' grammaticality judgments: Using signal detection theory. JABAET Journal, 18, 37– 54.

草薙邦広 (2014). 外国語教育研究 ッ 法 応用可能性 外国語教

育 学会 LET 関西支部 研究部会報告論集 5, 1–15.

草薙邦広 (2015). 一般化極値 布 い 単 時間内 最大語数 ン

第 55 回外国語教育 学会全国研究大会 公募 ン . 千 ン ン .

草薙邦広 (2016). 外国語教育研究 数値 ュ ョン 基礎―

(39)

39 支部 研究部会報告論集 9, 1–19.

草薙邦広 (2017a). ン ン学習 歴 統計的 扱い 広島外国語教育研究

20, 231–244.

草薙邦広 (2017b). 外国語 解時 相 強制現象―ベ 統計

― 中部地区英語教育学会紀要 46, 33–38.

草薙邦広 (to appear). 外国語教育研究者 ベ 統計入門 第57回外国語教育 学会全国研究大会 ワ ョッ . 城大学.

草薙邦広 石 雄隆 (2016). 的研究 最前線―ベ 統計 ン ― 第

42回全国英語教育学会埼玉研究大会 ワ ョッ . 獨協大学.

草薙邦広 岡大 (2016). 外国語 形 統語的鈍感性 ン :ベ

統計学 再検証 科学研究 17, 61–83.

草薙邦広 川口勇作 阪 辰也 (to appear). 隠 ン 過

程 把握 形成的評価 援用 第 57回外国語教育 学会全国研究大会. 城大学.

Martin, A. D., Quinn, K. M., & Park, J. H. (2011). MCMCpack: Markov chain monte carlo in R.

Journal of Statistical Software. 42(9), 1–21.

Massidda, D. (2013). retimes: Reaction Time Analysis. R package version 0.1-2. https://CRAN.R-project.org/package=retimes

松浦健太郎 (2016). Stan R ベ 統計 ン Wonderful R 共立出 . 蓑谷千凰彦 (2003). 統計 布 ン ッ 朝倉書店.

Original S functions written by Janet E. Heffernan with R port and R documentation provided by Alec G. Stephenson. (2016). ismev: An Introduction to Statistical Modeling of Extreme Values. R package version 1.41. https://CRAN.R-project.org/package=ismev

Plummer, M., Best, N., Cowles, K., & Vines, K. (2006). CODA: Convergence diagnosis and output analysis for MCMC. R News, 6, 7–11.

R Core Team. (2016). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/

Ricci, V. (2005). Fitting distributions with R. Contributed Documentation available on CRAN. Rigby R. A., & Stasinopoulos, D. M. (2005). Generalized additive models for location, scale and

shape. Applied Statistics, 54(30). 507–554.

Tamura, Y. & Kusanagi, K. (2015a). Asymmetrical representation in Japanese EFL learners' implicit and explicit knowledge about the countability of normal/material nouns. Annual

Review of English Language Education in Japan, 26, 253–268.

(40)

40

language. International Journal of Curriculum Development and Practice, 17, 25–37.

Tamura, Y., & Harada, Y., Kato, D., Hara, K., & Kusanagi, K. (2016). Unconscious but slowly activated grammatical knowledge of Japanese EFL learners: A case of tough movement.

Annual Review of English Language Education in Japan, 27, 169–184.

豊 秀樹 (2015). 基礎 ベ 統計学: ン ン 法 実践

的入門 朝倉書店.

豊 秀樹 (2016). 統計 析―ベ 的 p 値時代 統計学―

朝倉書店.

Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with S. Fourth Edition. Springer, New York.

Yee, T. M. (2010). The VGAM Package for categorical data analysis. Journal of Statistical

Updating...

参照

Updating...

関連した話題 :