• 検索結果がありません。

JLTA2016WS1 02 最近の更新履歴 JLTAWS2016

N/A
N/A
Protected

Academic year: 2018

シェア "JLTA2016WS1 02 最近の更新履歴 JLTAWS2016"

Copied!
78
0
0

読み込み中.... (全文を見る)

全文

(1)

JLTA 2016

Workshop 1

⻑⾕川佑介(上越教育⼤学) 髙木修一(福島大学)

はじめて学ぶ効果量

〜基礎概念から実践まで〜

資料置場への行き方

「JLTAWS2016」と検索 またはhttp://goo.gl/fi8pIWと入力

はじめに

(2)

自己紹介

• ⻑⾕川佑介(上越教育⼤学)

髙木修一(福島大学)

※画像:「かわいいフリー素材集いらすとや」http://www.irasutoya.com/

• 様々な方々の参加を歓迎いたします

• かんたんに自己紹介をお願いします

今日の流れ

入門編 (⻑⾕川 [40分])

理論編 (髙木 [55分])

休憩 (15分)

実践編 (髙木 [30分] + ⻑⾕川 [45分])

質疑応答 (15分)

(3)

入門編

入門編の位置づけ

統計の背景知識は不要

• 入門編・・・全体像をおさえる

• 理論編・・・詳しい枝分かれ

※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/

(4)

入門編の位置づけ

• お詫び:統計分析のプロではありません

• 「難しい話を分かりやすく話すこと」を目指します

• どんなに初歩的な質問でも大歓迎です

• フロアからの補足説明も大歓迎です

一緒に考えましょう

入門編の位置づけ

<入門編の目次>

効果量とは

統計的検定とp 値

効果量の報告

差が有意になる条件

色々な効果量

「大・中・小」の感覚

論文のあれこれ

※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/

(5)

効果量とは

• 最近よく耳にする「効果量」

• どんな場面で「効果量」という言葉を見ましたか?

• 「効果量って何?」と同僚に聞かれたらどう説明しますか?

※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/

効果量とは

• 「一つの変数が他の変数に対して、あるいは二つ以上の変数間 の関係に対して持つ効果の強さの尺度」

• 英語教育の論文では・・・

統計的検定 効果量の報告

※出典:リチャーズ, J. C., シュミット, R. (編). (2013).『ロングマン言語教育・応用言語学用語辞典』東京: 南雲堂.

(6)

効果量とは

• 例:大学のリーディング授業で音読を取り入れてみた

• 数週間の音読指導を行ったところ,読みの速度があがった

※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/

まぐれじゃないの?

統計的検定 効果量の報告 ドングリの背比べ

じゃないの?

統計的検定と p 値

• 「有意」という言葉はあちこちで見かける

• 有意などと言わなくても,平均値だけ分かればいいのでは?

「平均値に有意差がみられた(p = .049)」とか

(7)

統計的検定と p 値

たとえば・・・

• 音読指導の前は、86.58 wpmでした!

• 音読指導の後は、113.01 wpmになりました!

• 1分間あたり26.43語も多く読めるようになりました!

※参考:Hasegawa, Y. (2016). Does reading aloud contribute to EFL reading fluency among learners with higher/lower phonological awareness?Bulletin of Joetsu University of Education, 36 (1), 165–172.

統計的検定と p 値

• だまされてはいけません

まぐれじゃないの?

※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/

(8)

統計的検定と p 値

• 実験協力者が1名の場合(Aくん)

• Aくんは、まぐれで速く読めただけかも

86.58 wpm 113.01 wpm

※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/

統計的検定と p 値

• 実験協力者が2名の場合(Aくん・Bさん)

• 2人とも、まぐれで速く読めただけかも

平均86.58 wpm 平均113.01 wpm

※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/

(9)

統計的検定と p 値

• 実験協力者がたくさんの場合

• だんだん「単なる偶然」とは考えにくくなってくる

平均86.58 wpm 平均113.01 wpm

※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/

統計的検定と p 値

まぐれじゃないの?

統計的検定

※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/

(10)

統計的検定と p 値

詳しくは理論編で

について紹介します 帰無仮説検定

と信頼区間

効果量の報告

• 統計の力を借りて「偶然かどうか」を見極めることが大切!

統計的検定の結果が有意なら効果を主張できるんだ!

• それなら効果量なんて報告しなくてもよいのでは?

※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/

(11)

効果量の報告

たとえば・・・

• 音読の指導前と指導後で、学生のwpmを比べました!

• t 検定の結果、その差は5%水準で有意でした!

• 「とにかく有意だったなら、大きな差があったのだろう」

効果量の報告

• 「結果は有意でした」といっても効果の大きさは分からない!

(12)

効果量の報告

• だまされてはいけません

ドングリの背比べ じゃないの?

※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/

効果量の報告

効果量の報告

詳しくは理論編で

について紹介します 効果量

(13)

差が有意になる条件

• 「偶然の誤差ではない」 = 有意

①たくさんの人数がいる場合

②指導前と指導後の差が大きい場合

「データのばらつき具合」その他、

「調べたい要因の数」など

差が有意になる条件

• 対応なしのt 検定の場合

• 論文では、効果量をt 値や人数とともに報告する

• 3つの要素には相互関係がある

= × 1 2

1+ 2

• じつは、t 値は「効果量と人数のかけ算」で決まる!(とも言える?)

※出典:南風原朝和. (2014).『続・心理統計学の基礎:統合的理解を広げる』東京: 有斐閣アルマ.

(14)

差が有意になる条件

• (検定統計量)=(標本における効果量)×(標本の大きさ)

※出典:南風原朝和. (2014).『続・心理統計学の基礎:統合的理解を広げる』東京: 有斐閣アルマ.

t 値 効果量 計算した値人数から

例: d = 0.2 10人 vs. 10人 例: d = 0.5 50人 vs. 52人 例: d = 0.8 99人 vs. 102人

一般化すると・・・

差が有意になる条件

詳しくは理論編で

について紹介します 検定力

(15)

色々な効果量

• 音読の効果を調べたい! どうすれば良いか?

指導前後を比べる?

Before After

色々な効果量

• あるクラスと別のクラスを比べる?

音読クラス 要約クラス

(16)

色々な効果量

• 指導の効果があらわれた人数を調べる?

効果あり50名 効果なし30名

色々な効果量

• そもそも読みの速さは,もともとの英語力と関係している?

読む速度

もともとの英語力

(17)

色々な効果量

• 分析の種類に応じて,効果量の計算方法も異なる

※出典:水本篤・竹内理. (2008).「研究論文における効果量の報告のために:基礎的概念と注意点」『英語教育研究』31, 57–66.

色々な効果量

• ①「平均の差」をみる効果量

対応あり/なしのt 検定・・・ いわゆるCohenのd

※画像:「かわいいフリー素材集いらすとや」http://www.irasutoya.com/

Hedgesのgや GlassのΔとの違いは? どう計算するの?

差がどれくらい大きいか

(18)

色々な効果量

• ②「関係の強さ」をみる効果量

相関分析・・・ r

重回帰分析・・・ R2

χ2検定・・・ φ

分散分析・・・ η2

※画像:「かわいいフリー素材集いらすとや」http://www.irasutoya.com/

データの何%を説明できるか

「効果量が大きい」何%だと と言えるの?

「大・中・小」の感覚

Schmitt(2010, pp. 166–167) によると・・・

• 語彙習得の研究では,色々なタイプの比較を行う

• 現在では,p 値とは別に効果量を記載するのが主流である

small effect・・・ r = .10(分散全体の約1%を説明)

medium effect・・・ r = .30(分散全体の約9%を説明)

large effect・・・ r = .50(分散全体の約25%を説明)

※出典:Schmitt, N. (2010).Researching vocabulary: A vocabulary research manual. New York, NY: Palgrave Macmillan.

(19)

「大・中・小」の感覚

• 分散の1%とはどれくらい?

これくらいの円だと… これが1%

「大・中・小」の感覚

• 分散の9%とはどれくらい?

これくらいの円だと… これが9%

(20)

「大・中・小」の感覚

• 分散の25%とはどれくらい?

これくらいの円だと…

これが25%

「大・中・小」の感覚

• 参考:GeoGebra(ジオジェブラ)

• 図やグラフが自在に描けるオンラインツール

※画像:GeoGebraウェブサイト https://www.geogebra.org/

(21)

論文のあれこれ

語彙習得研究の例(Chen & Truscott, 2010)

台湾の大学1年生(中級)

7つの短い物語文(300語以内)

• 10語の低頻度語が身につくか

3つの条件を比較

※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.

論文のあれこれ

E1条件

(24名)

E3条件

(24名)

E7条件

(24名)

※画像:「かわいいフリー素材集いらすとや」http://www.irasutoya.com/

(22)

論文のあれこれ

E1条件

E3条件

E7条件

発音を聞いて書くテスト 英単語を訳すテスト

平均1.08点(SD= 0.72) 平均0.13点(SD= 0.45)

平均2.12点(SD= 1.12) 平均0.58点(SD= 0.53)

平均2.71点(SD= 1.60) 平均1.50点(SD= 1.35)

有意? 効果量?

有意? 効果量?

※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.

有意? 効果量?

有意? 効果量?

論文のあれこれ

E1条件

E3条件

E7条件

発音を聞いて書くテスト

平均1.08点(SD= 0.72)

平均2.12点(SD= 1.12)

平均2.71点(SD= 1.60)

有意! d = 1.130

NS d = 0.434

※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.

Kruskal-Wallis検定 LSD法の多重比較

(いずれも5%水準)

Cohenのd(広義)

「ある群と別の群の 平均値がSDいくつぶん

離れているかを示す」

大:0.80以上

中:0.50以上…とした 小:0.20以上

(23)

論文のあれこれ

E1条件

E3条件

E7条件

発音を聞いて書くテスト 英単語を訳すテスト

平均1.08点(SD= 0.72) 平均0.13点(SD= 0.45)

平均2.12点(SD= 1.12) 平均0.58点(SD= 0.53)

平均2.71点(SD= 1.60) 平均1.50点(SD= 1.35)

※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.

NS d = 0.652

有意! d = 0.807

論文のあれこれ

「大・中・小」の感覚

※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/

1年間、牛乳を 飲み続けた結果…

d = 1.0

(24)

論文のあれこれ

「大・中・小」の感覚

※画像:日本郵便フリーイラスト集 https://www.post.japanpost.jp/life/amusement/downloads/

1年間、牛乳を 飲み続けた結果…

d = 0.5

入門編のまとめ

<入門編の目次>

効果量とは 確率論に依らず効果の大きさを示す数値

統計的検定とp 値 「まぐれじゃない」と証明したい

効果量の報告 「ドングリの背比べじゃない」と証明したい

• 差が有意になる条件 …有意になるかどうかは人数が左右する

色々な効果量 平均の差をみる「d 族」と関係をみる「r 族」

• 「大・中・小」の感覚…確かに「効果量大」には威力を感じる

論文のあれこれ 効果量で地に足のついた結果報告を

※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/

(25)

理論編

帰無仮説検定の流れ

以下のような実験を行うとき、どのような手順で分析しますか? 目的:新しい「語彙指導A」は従来の「語彙指導B」に比べ、

指導直後の語彙知識の習得に効果的か調べること

対象:語彙指導A群(50名)と語彙指導B群(50名)の計100名 材料:語彙指導後に行う10語(1問1点)の語彙テスト

(26)

帰無仮説検定の流れ

・帰無仮説検定のプロセス(ネイマン・ピアソンの枠組み) 1. 対立仮説と帰無仮説を立てる

2. 検定統計量と分布を決める 3. 有意水準αを決定する

4. データを収集し検定統計量を算出 5. 仮説の棄却と採択

(大久保・岡田, 2012)

帰無仮説検定の流れ

1. 対立仮説と帰無仮説を立てる

対立仮説―研究者が確認したい仮説 帰無仮説―対立仮説と相反する仮説

例)対立仮説―語彙指導A群>語彙指導B群 帰無仮説―語彙指導A群=語彙指導B群

(27)

帰無仮説検定の流れ

2. 検定統計量と分布を決める

研究目的と収集するデータにとって妥当なものを選択する 例)語彙テスト得点は正規分布すると想定し、t分布を選択した

※t分布は正規分布に従う平均値の分布

帰無仮説検定の流れ

3. 有意水準αを決定する

有意水準=帰無仮説を棄却する水準

−「棄却する or 棄却しない」の二値的判断

例)英語教育学研究の慣例に従い、有意水準を5%とした

※医学系研究では有意水準を1%とすることも

(28)

帰無仮説検定の流れ

4. データを収集し検定統計量を算出

データの収集と2.で決めた検定統計量を算出する

※データが想定通りの分布であるか確認し、 必要に応じて使用する分布を再検討することも

例)語彙指導A群(50名)と語彙指導B群(50名)の語彙得点 の平均をt検定にて比較した。結果は以下の通り。

t (98) = 1.995, p = .049, d = .35

帰無仮説検定の流れ

5. 仮説の棄却と採択

帰無仮説を棄却するor 棄却しないを決める 例)t (98) = 1.995, p = .049, d = .35

p値が5%未満なので、帰無仮説を棄却して対立仮説を採択する

→語彙指導A群と語彙指導B群の語彙得点の平均値には差がある

(29)

帰無仮説検定の問題点

「帰無仮説検定の流れ」で気になることはありませんか?

帰無仮説検定の問題点

1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する

4. データを収集し検定統計量を算出 5. 仮説の棄却と採択

(30)

帰無仮説検定の問題点

1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する

4. データを収集し検定統計量を算出 5. 仮説の棄却と採択

帰無仮説検定の問題点

・研究仮説を対立仮説として立てる不自然さ 例)対立仮説―語彙指導A群>語彙指導B群 帰無仮説―語彙指導A群=語彙指導B群

−検定で得られるp値

「帰無仮説が正しい仮定の下で、検定結果が得られる確率」

(31)

帰無仮説検定の問題点

「帰無仮説が正しい仮定で、検定結果が得られる確率」

−語彙指導A群=語彙指導B群が正しいと仮定した時に、 語彙指導A群と語彙指導B群の平均値差が生じる確率

p = .900 帰無仮説が正しい 仮定の下で、生じ

る可能性が高い 帰無仮説が正しいp = .049

仮定の下で、生じ る可能性が低い 帰無仮説を棄却

判断を保留

-4 -2 0 2 4

帰無仮説検定の問題点

・「同じである」ことを証明できない

−検定で得られるp値

〇「帰無仮説が正しい仮定の下で、検定結果が得られる確率」

☓「帰無仮説が正しい確率」

−仮説検定のロジック

「もし帰無仮説が正しいならば、p値は有意水準より大きい」

(32)

帰無仮説検定の問題点

「もし帰無仮説が正しいならば、p値は有意水準より大きい」

<p値が有意水準より大きい> 帰無仮説の正誤はわからない

→「判断を保留する」

< p値が有意水準より小さい> 帰無仮説は誤っている

→「帰無仮説を棄却する」

p値が有意水準 より大きい 帰無仮説が

正しい

帰無仮説検定の問題点

・「差がない」or「差がある」しか証明できない

p値が有意⽔準以上−帰無仮説の採択(=判断の保留) p値が有意⽔準未満−帰無仮説の棄却(=対立仮説の採択)

→p値に基づく判断は極端な二分法

帰無仮説を「採択する」or 「棄却する」という判断のみ cf)「5%水準で有意ではないが、10%水準で有意傾向であ る?」

(33)

帰無仮説検定の問題点

・有意差が「意味のある差」とは限らない

例)語彙指導Aが語彙指導Bより平均点が有意に高かった 語彙指導A:準備に要する時間が30時間で平均点5.5点 語彙指導B:準備に要する時間が2時間で平均点5.2点

→「準備に要する時間」を考慮すると、この平均点差の意味は?

帰無仮説検定の問題点

1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する

4. データを収集し検定統計量を算出 5. 仮説の棄却と採択

(34)

帰無仮説検定の問題点

・有意水準の恣意性

慣習的に用いられている5%に確かな根拠はない 有意水準=帰無仮説を棄却する際の基準

=誤って帰無仮説を棄却する確率

→誤って帰無仮説を棄却する確率が5%で良いとは断言できない

帰無仮説検定の問題点

1. 対立仮説と帰無仮説を立てる 2. 検定統計量と分布を決める 3. 有意水準αを決定する

4. データを収集し検定統計量を算出 5. 仮説の棄却と採択

(35)

帰無仮説検定の問題点

・p値はサンプルサイズに影響される

検定統計量=効果の大きさ☓サンプルサイズ(南風原, 2002)

−効果が大きくなるにつれて検定統計量は大きくなる

−サンプルが大きくなるにつれて検定統計量は大きくなる

→効果 or サンプルが大きくなればp値は小さくなる

帰無仮説検定の問題点

・p値はサンプルサイズに影響される 例)対応なしのt検定におけるt値の算出

A群(平均32・標準偏差16)vs. B群(平均46・標準偏差34) サンプル数20人:t (18) = 1.72, p = .102, d = 0.53

サンプル数100人:t (98) = 4.69, p < .001 , d = 0.53

有意差なし 有意差あり

(36)

帰無仮説検定の問題点(まとめ)

・研究仮説を対立仮説として立てることの不自然さ

−「同じである」ことを証明できない

−「差がない」or「差がある」しか証明できない

− 有意差が「意味のある差」とは限らない

・有意水準の恣意性

・p値はサンプルサイズに影響される

帰無仮説検定の問題点(まとめ)

・研究仮説を対立仮説として立てることの不自然さ

−「同じである」ことを証明できない

−「差がない」or「差がある」しか証明できない

− 有意差が「意味のある差」とは限らない

・有意水準の恣意性

・p値はサンプルサイズに影響される

信頼区間

効果量

検定力

(37)

信頼区間

・ある定められた確率で⺟数を含む区間(南風原, 2002)

−記述統計(⼿元のデータが⺟集団)の場合、⺟数を得られる

−推測統計(手元のデータは標本)の場合、⺟数を推定する 例)日本人中学2年生200名を対象としたテストの平均値が5.5点

−記述統計:協⼒者200人の平均値は5.5点

−推測統計:⽇本⼈中学2年生の平均値は5.5点±誤差

信頼区間

・推測統計における⺟数の区間推定

−区間推定=⺟数の点推定値±誤差範囲

2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5

誤差範囲?

標本分布

(38)

信頼区間

・信頼区間=⺟数の点推定値±誤差範囲

−誤差範囲は信頼区間を求めたい指標によって異なる

・平均値の信頼区間=推定平均値±標準誤差×t値 (critical)* t値 (critical)*=t分布における信頼水準(定めた確率)のt値 例)自由度100で95%の場合: t値= 1.98

自由度100で99%の場合: t値= 2.63

信頼区間

例)自由度100,平均値5.5 ,標準誤差0.5

2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5

95%信頼区間 5.5 ± 0.5 × 1.98

[4.5, 6.5]

99%信頼区間 5.5 ± 0.5 × 2.63

[4.2, 6.8]

標本分布

(39)

信頼区間

・信頼区間は二値的に解釈する (川端・荘島, 2014)

〇様々な標本から得られた信頼区間が⺟数を含む確率が95%

☓ある標本から得られた信頼区間が⺟数を含む確率が95%

2.5 4.5 6.5 8.5

⺟集団分布

2.5 4.5 6.5 8.5 標本分布

100の標本から信 頼区間を出すと、

5回は⺟数が 含まれない

ある標本の信頼区 間には5%の確率で

⺟数が含まれない

信頼区間

・信頼水準を上げると信頼区間は広くなる 例)ダーツを100回投げる

100回中95回当たる範囲 vs. 100回中99回当たる範囲

(40)

信頼区間

・信頼区間はサンプルサイズが大きくなると狭くなる

−標準誤差=標準偏差 / √サンプル数

→サンプル数が大きくなるほど標準誤差が小さくなる

例)平均値の信頼区間=推定平均値±標準誤差× t値(critical)

→標準誤差が小さくなるほど信頼区間が狭くなる

信頼区間

・対応なしの2群の平均値差の信頼区間

信頼区間=2群の平均値差 ± t値 ×差の標準誤差

例)A群(平均32・標準偏差16)vs. B群(平均46・標準偏差34) 平均値差:14 自由度:198 t値:95%水準 差の標準誤差:3.8

−平均値差の95%信頼区間:[6.98, 21.92]

→A群とB群の平均値にどのくらい差があったかの目安

※5%の確率で⺟数は信頼区間内にない(≒帰無仮説検定)

(41)

効果量

・効果量は効果の大きさを示す

検定統計量=効果の大きさ☓サンプルサイズ(南風原, 2002)

→効果の大きさはサンプルサイズに左右されない(されにくい) 例)t検定(平均値差の検定):効果の大きさ=平均値の差

相関分析:効果の大きさ=関連の大きさ

効果量

・算出される効果量は標本効果量である

―算出される標本効果量=⺟集団効果量の点推定値

―⺟集団効果量=標本効果量±推定誤差

例)日本人EFL大学生100名の英語読解テストと英語聴解テスト の得点について相関分析を行ったところ r = . 50 であった

〇日本人EFL大学生全体においてr = . 50 と推定される

☓日本人EFL大学生全体においてr = . 50 である

(42)

効果量

・(いわゆる)効果量=標本効果量=⺟集団効果量の点推定値 標本効果量→ある標本における効果量(標本間で変動する)

⺟集団効果量→⺟集団における効果量 (変動しない)

⺟集団効果量

(測定不可) 効果量標本 推定

効果量

・標本効果量から⺟集団効果量の信頼区間を算出できる

−推定値である⺟集団効果量は信頼区間の算出が勧められる 例) Cohenのd* =.25, 95%信頼区間 [.15, .35]

→⺟集団においても「効果量は正」という結論は妥当 Cohenのd* =.25, 95%信頼区間 [-.05, .55]

→⺟集団においても「効果量は正」という結論は妥当?

(43)

効果量

・標本効果量にはサンプルサイズのバイアスを受けるものもある

―⺟集団効果量=バイアス×標本効果量±推定誤差 例) Hedgesのgにおけるバイアス補正

バイアスのないHedgesのg = Hedgesのg ☓ 補正係数 例) CohenのdとHedgesのgの使い分け

標本の標準偏差に基づくCohenのdはバイアスがかかりやすい

効果量

・効果量はd族とr族に大別される

−d族の効果量= 群間の平均値差 / 標準偏差

→ 標準偏差に基づく群間の平均値差の大きさ

−r族の効果量= 群間の関係性 / 全体分散

→ 全体分散に占める群間の関係性の大きさ

(水本・竹内, 2008; 南風原, 2014)

(44)

効果量の解釈

・効果量の解釈に際して「一応の」目安がある

−あくまでも慣習的に定められている目安 例) Cohenのd

効果量大:.80 効果量中:.50 効果量小:.20 例)相関分析のr

効果量大:.50 効果量中:.30 効果量小:.10

※効果量の大きさの視覚的なイメージについては 大久保・岡田 (2012) や南風原 (2014) などを参照

効果量の解釈

・効果量を目安だけで解釈してはいけない

−目安に基づく二分法の解釈は避ける(≒帰無仮説検定) 例)ある研究においてd = .75 の値が得られた

Cohenのd 効果量大:.80 効果量中:.50 効果量小:.20

効果量大の.80 より小さいから

「効果量は中程度であった」

効果量中の.50よりは効果量大 の.80に近いから

「効果量は大きかった」

(45)

効果量の解釈

・効果量を解釈する際は先行研究と比較することが望ましい 例)ある研究において相関係数 r = .40 の値が得られた ケース1:先行研究において関連がないとされていた相関 ケース2:標準化テストの1回目と2回目のスコアの相関 相関分析のr 効果量大:.50 効果量中:.30 効果量小:.10

効果量の解釈

・効果量を解釈する際は先行研究と比較することが望ましい 例)EFL大学生を対象として学習者要因Aと学習者要因Bについ

て相関分析を行ったところ、相関係数r = .60 が得られた 先行研究1:EFL中学生においては相関係数 r = .20

先行研究2:EFL高校生においては相関係数 r = .40

→先行研究に比べて相関係数(効果量)が比較的大きい

(46)

主要な効果量一覧(大久保・岡田, 2012)

対応なしt検定における効果量

Cohenのd

−平均値差 / 標本の標準偏差で算出 Hedgesのg

−平均値差 / 推測される⺟集団の標準偏差で算出 GlassのΔ

−実験群 vs. 統制群の実験デザインにおいて、

平均値差 / 推測される統制群の⺟集団の標準偏差で算出 相関のr

−t値の2乗値 / (t値の2乗値 + 自由度) で算出

(47)

対応ありt検定における効果量

・対応なしt検定における効果量

―Cohenのd・Hedgesのg・相関のrを用いる

・対応ある2群間の差と標準偏差に基づくdD

―2群間の差の平均値 / 2群間の差の標準偏差 で算出

―2群間の差の平均値が小さくても、2群間の差の標準偏差が小で あれば、dDは大きくなる

t検定における効果量の選択

・t検定においてどの効果量を算出すべき?

―rからdを算出することができるので、rの算出が勧められる

※群間でサンプルサイズが大きく異なる場合は、rにバイアスが かるため、dの算出が勧められる(Field, 2009)

―群間の平均値差(効果の大きさ)に焦点がある場合はcohenの d*

個々のサンプルにおける平均値差への影響(効果の一般性)に 焦点がある場合はdDの算出が勧められる(南風原, 2014)

(48)

一元配置分散分析における効果量

・η2

―ある要因の分散 / 全分散で算出

・ε2

― ある要因の分散(調整済み)/ 全分散で算出

・ω2

― ある要因の分散(調整済み)/ 全分散で算出(調整済み)

多元配置分散分析における効果量

・ηp2とωp2

―ある要因の分散 / ある要因の分散+誤差分散で算出

・η2と ω2

―ある要因の分散 / 全分散で算出

・ηG2とωG2

―ある要因の分散 / ある要因の分散+他の操作した要因の分散

※操作した要因の分散+個人差の分散=全分散

(49)

相関・回帰分析における効果量

・ r

―相関分析における統計量と同じ

・ r2(R2

―回帰分析における統計量と同じ

※ r2 = η2 (慣習的に表記が異なるだけ)

カイ二乗検定における効果量

・CramerのV

χ2 / (行数 or 列数の⼩さい⽅−1) ×サンプルサイズ

・φ(2×2のカイ二乗検定でのみ使用) χ2 / サンプルサイズ

→Cramer’sV の特別な形が φ と捉えることもできる

(50)

マンホイットニーの検定における効果量

・相関のr

− r = 検定統計量のZ / サンプルサイズの平方根

※検定統計量のZ=検定統計量 U の標準得点

・優越確率ps

−ps= 検定統計量U

・Cliffのds

−ds = A群>B群である標本割合 – B群>A群である標本割合

ウィルコクスンの検定における効果量

・相関のr

− r = 検定統計量のZ / サンプルサイズの平方根

※検定統計量のZ= 検定統計量W の標準得点

・優越確率ps dep

−ps dep = A群 > B群である個体数 / サンプルサイズ

(51)

検定力

・サンプルサイズ・効果量・有意水準・検定力が検定の4大要素

−4⼤要素は部分的に連動する関係にある

→4大要素のうち3つがわかれば残り1つもわかる

水本・竹内(2010)

有意水準

検定力 効果量 サンプル・ サイズ

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す 有意水準(危険率):帰無仮説が正しい場合

−正しいはずの帰無仮説を「棄却」する判断が誤っている確率 検定力:帰無仮説が誤っている場合

−誤っているはずの帰無仮説を「棄却」する判断が正しい確率

(52)

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す

南風原(2002)

事実 検定による判断

帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断(1−α) 第一種の誤り(α) 帰無仮説が偽 第二種の誤り(β) 正しい判断(1−β)

検定力

・検定力は「帰無仮説を正しく棄却できる確率」を示す

⇔有意水準「帰無仮説を正しく採択できる確率」を示す

南風原(2002)

事実 検定による判断

帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断(1−α) 第一種の誤り(α) 帰無仮説が偽 第二種の誤り(β) 正しい判断(1−β)

有意水準 検定力

(53)

検定力

・検定力と有意水準は直接相補的な関係にはない

−検定力と有意水準は前提条件が異なる

☓有意水準を.01にすれば、検定力が.99になる

有意水準:正しい帰無仮説を「棄却」する判断が誤っている確率 検定力:誤りの帰無仮説を「棄却」する判断が正しい確率

→どちらも適切にコントロールする必要がある

検定力

有意水準:正しい帰無仮説を「棄却」する判断が誤っている確率 検定力:誤りの帰無仮説を「棄却」する判断が正しい確率

南風原(2002)

事実 検定による判断

帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断(1−α) 第一種の誤り(α) 帰無仮説が偽 第二種の誤り(β) 正しい判断(1−β)

(54)

検定力

有意水準:正しい帰無仮説を「棄却」する判断が誤っている確率 検定力:誤りの帰無仮説を「棄却」する判断が正しい確率

南風原(2002)

事実 検定による判断

帰無仮説を採択 帰無仮説を棄却 帰無仮説が真 正しい判断(1−α) 第一種の誤り(α) 帰無仮説が偽 第二種の誤り(β) 正しい判断(1−β)

有意水準 検定力

検定力

・検定力と有意水準は連動する部分もある

−有意⽔準を⼩さくすると検定⼒も⼩さくなる

⇔サンプルサイズを大きくすると検定力のみ大きくなる

※検定力は大きすぎても好ましくない

→適切なサンプルサイズを検討する必要がある

(55)

検定力

・検定力の大きさに絶対的な基準はない

−目安としては.80が慣習的に用いられている

→第二種の誤りは.20(第一種の誤りの4倍まで)に抑える

−第⼀種の誤りの⽅が第⼆種の誤りより深刻という仮定 第一種の誤り=「差がない」のに「差がある」とする確率 第二種の誤り=「差がある」のに「差がない」とする確率

→研究によって柔軟に運用する必要がある

検定力

・検定力は高すぎても良くない

−実質的な差がなくても有意になってしまう 例)サンプルサイズ10000で対応なしのt検定

A群:平均値99.97 vs. B群:平均値99.90 t (9998) = 1.97, p = .049

→2群の平均値差は有意であった

(56)

検定力

・サンプルサイズ・効果量・有意水準・検定力が検定の4大要素

−4⼤要素は部分的に連動する関係にある

→4大要素のうち3つがわかれば残り1つもわかる

水本・竹内(2010)

有意水準

検定力 効果量 サンプル・ サイズ

検定力

・研究者がコントロールしやすいのはサンプルサイズである

−効果量・有意水準・検定力から適切なサンプルサイズを検討 効果量:収集したデータによって定まる

有意水準:研究の枠組みによって定まる 検定力:研究の枠組みによって定まる

(57)

検定力

・検定力分析には事前分析と事後分析がある

−事前の推定効果量と事後の効果量に基づく

<事前分析>

効果量:先行研究に基づく推定効果量を採用 有意水準:慣習的な.05(もしくは.01)を採用

検定力:慣習的な.80(もしくは.05)を採用

→実験時に収集するサンプルサイズを検討する

検定力

・検定力分析には事前分析と事後分析がある

−事前の推定効果量と事後の効果量に基づく

<事後分析>

効果量:実験で得られた効果量を採用 有意水準:実験で用いた有意水準を採用

サンプルサイズ:実験で収集したサンプルサイズを採用

→実験における検定力を確認する

※事後検定力から得られる情報は少ない

(58)

理論編のまとめ

・帰無仮説検定には様々な問題がある

−「差がない」or「差がある」しか証明できない

− 有意差が「意味のある差」とは限らない

−有意⽔準の恣意性

−p値はサンプルサイズに影響される

⇔「⼆分法の明快さ」という⻑所もある 例)効果の有無に関する研究

理論編のまとめ

・帰無仮説検定の問題を解決するために

−信頼区間

→標本から⺟集団の範囲を推定する

−効果量

→サンプルサイズの影響が少ない「効果の大きさ」を算出する

−検定⼒

→正しい検定に必要なサンプルサイズを検討する

(59)

理論編の引用文献および参考文献

大久保街亜・岡田謙介.(2012). 『伝えるための心理統計―効果量・信頼区間・検定力』.勁草書房. 岡田謙介. (2015, 3月). 『心理学における効果量をめぐる最近の話題』. 日本発達心理学会第26回大会

チュートリアルセミナー. 於: 東京大学.

http://www3.psy.senshu-u.ac.jp/~ken/DevPsy2015_okada.pdfよりダウンロード.

岡田謙介. (2014, 3月). 『仮説検定における再現性の問題と新たな方法論』. 日本社会心理学会春の方法論 セミナー. 於: 上智大学四谷キャンパス.

http://www.socialpsychology.jp/sympo/seminar_140317/jssp_ss2014_Okada.pdfよりダウンロード. 川端一光・荘島宏二郎. (2014).『⼼理統計学のための統計学⼊⾨−ココロのデータ分析−』. 誠信書房. 南風原朝和.(2002).『⼼理統計学の基礎−統合的理解のために』. 有斐閣アルマ.

南風原朝和.(2014).『続・心理統計学の基礎―統合的理解を広げ深める』. 有斐閣アルマ.

水本篤・竹内理. (2008).「研究論文における効果量の報告のために―基礎概念と注意点―」.『英語教育研 究』, 31, 57–66.

水本篤・竹内理. (2010).「効果量と検定⼒分析⼊⾨−統計的検定を正しく使うために−」.『外国語教育メ ディア学会関⻄⽀部メソドロジー研究部会2010年度報告論集』, 47–73.

Field, A. (2009).Discovering statistics using SPSS (3rd ed.). London: Sage Publications.

実践編

(60)

⺟集団と信頼区間

・“ESCI chapters 1-4 Jul 4 2011.xlmx” を開く

・シートから”CI Jumping”を選択する

⺟集団と信頼区間

(61)

⺟集団と信頼区間

⺟集団の平均値を捉えら れていない信頼区間

各標本から算出される 信頼区間

⺟集団(実際は不明)

⺟集団と信頼区間

<やってみよう!>

・信頼水準を上げると信頼区間はどうなりますか

・サンプルサイズを大きくすると信頼区間はどうなりますか

(62)

⺟集団と信頼区間

<やってみよう!>

・信頼水準を上げると信頼区間はどうなりますか

→信頼区間は広くなる

・サンプルサイズを大きくすると信頼区間はどうなりますか

→信頼区間は狭くなる

p 値のダンスー信頼区間と p 値

・“ESCI chapters 5-6 Jul 4 2011.xlmx” を開く

・シートから”Dance p”を選択する

(63)

p 値のダンスー信頼区間と p 値

Speedを5に下げる

p 値のダンスー信頼区間と p 値

⺟集団

各標本から算出 される群ごとの

信頼区間 各標本から算出

されるp値

(64)

p 値のダンスー信頼区間と p 値

⺟集団の平均値差

(今回は10) 各標本における平 均値差の信頼区間

p 値のダンスー信頼区間と p 値

<やってみよう!>

・検定力を大きくするためにはどうすればよいですか?

・検定力が大きくなるとp値の出現傾向はどう変わりますか?

(65)

p 値のダンスー信頼区間と p 値

<やってみよう!>

・検定力を大きくするためにはどうすればよいですか?

−サンプルサイズを増やす

−⺟集団の群間差を⼤きくする(効果量を⼤きくする)

→⺟集団の平均値差を⼤きくする or 標準偏差を小さくする

・検定力が大きくなるとp値の出現傾向はどう変わりますか?

−検定力に反比例してp値が小さくなる

G*powerによるサンプルサイズの決定

・G*powerとは?

−検定⼒を分析することができるフリーソフト

−ハインリッヒ・ハイネ大学内のwebサイトからダウンロード可 http://www.gpower.hhu.de/

−基本的な実験デザインに対応しており、使いやすい

(66)

G*powerの起動

対応なし t 検定における

事前サンプルサイズの算出

<条件設定>

・対応なしの2群間(等人数)に平均値差があるかを調べたい

・先行研究のレビューから効果量はd = .60 程度と考えられる

・有意水準は慣習的な.05を採用する

・検定力は慣習的な.80を採用する

(67)

対応なし t 検定における

事前サンプルサイズの算出

・Test family

−「ttests」を選択

・Statistical test

−「Means: Differences between two independent...」を 選択

・Type of power analysis

−「A priori: Compute required sample size – given α...」 を選択

対応なし t 検定における

事前サンプルサイズの算出

・Tail(s)

−「two」を選択

・Effect size d

−「0.6」を入力

・α err prob

−「0.05」を入力

・power (1-β err prob) ー「0.80」を入力

・Allocation ration ー「1」を入力

(68)

対応なし t 検定における

事前サンプルサイズの算出

必要なサンプルサイズは各群45名の計90名

対応なし t 検定における

事後検定力の算出

<条件設定>

・事前分析の結果に従って各群45名(計90名)データを収集

→ただし、技術的な問題から実際のデータは40名 vs. 45名

・対応なしt検定の結果は以下の通りであった

― t (83) = 4.02, p < .001, d = .41

(69)

対応なし t 検定における

事後検定力の算出

・Test family

−「ttests」を選択

・Statistical test

−「Means: Differences between two independent...」を 選択

・Type of power analysis

−「Post hoc: Compute achieved power – given α...」を選

対応なし t 検定における

事後検定力の算出

・Tail(s)

−「two」を選択

・Effect size d

−「0.41」を入力

・α err prob

−「0.05」を入力

・Sample size group 1 ー「45」を入力

・Sample size group 2 ー「40」を入力

(70)

対応なし t 検定における

事後検定力の算出

今回の結果における検定力は β = .46

ANOVA (対応あり×対応なし) における

事前サンプルサイズの算出

<条件設定>

・熟達度(対応なし;3水準)× 回数(対応あり;2水準)の 2元配置分散分析における主効果と交互作用を検討したい

・効果量はとりあえず不明なため、目安の.25を採用する

・有意水準は慣習的な.05を採用する

・検定力は慣習的な.80を採用する

(71)

対応なし要因の主効果の検定力に基づく

事前サンプルサイズの算出

対応なし要因の主効果の検定力に基づく

事前サンプルサイズの算出

必要なサンプルサイズは各群40名の計120名

(72)

対応あり要因の主効果の検定力に基づく

事前サンプルサイズの算出

対応あり要因の主効果の検定力に基づく

事前サンプルサイズの算出

必要なサンプルサイズは各群12名の計36名

(73)

交互作用の検定力に基づく

事前サンプルサイズの算出

交互作用の検定力に基づく

事前サンプルサイズの算出

必要なサンプルサイズは各群14名の計42名

(74)

ANOVA (対応あり×対応なし) における

事後検定力の算出

<条件設定>

・事前分析の結果に従って各群40名(計120名)データを収集

→各群40名ずつデータを収集できた

・二元配置ANOVAの結果は以下の通りであった

対応なし要因主効果:F (2, 117) = 35.49, p < .001, η2 = 38 対応あり要因主効果:F (1, 117) = 4.18, p = .043, η2 = 03

交互作用:F (2, 117) = 1.01, p = .367, η2 = 02

※対応あり要因間の相関係数:r = .31

対応なし要因の事後検定力の算出

(75)

対応なし要因の事後検定力の算出

今回の結果における検定力は β = .99

対応あり要因の事後検定力の算出

(76)

対応あり要因の事後検定力の算出

今回の結果における検定力は β = .09

交互作用の検定力事後検定力の算出

(77)

交互作用の検定力事後検定力の算出

今回の結果における検定力は β = .06

エクセルでの効果量計算

• 実際の計算を体験してみましょう

• エクセルファイルの置き場所

• スペースなしで「JLTAWS2016」と検索

• またはhttp://goo.gl/fi8pIWと入力

※画像:フリー素材集「ぱくたそ」https://www.pakutaso.com/

(78)

効果量計算のまとめ

t 検定 平均値の差が「基準となるSD」 いくつ分かを示す

• 分散分析 主効果や交互作用の「平方和」 が全体に占める割合を示す

※多重比較での効果量:「基準となるSD」方式を繰り返してもよい

→例:入門編で紹介したChen and Truscott (2010)

• 相関分析 ピアソンの積率相関係数r が そのまま使える

なら中程度

(例)η2 が .06〜 .14 なら中程度

※出典:Chen, C., & Truscott, J. (2010). The effects of repetition and L1 lexicalization on incidental vocabulary acquisition. Applied Linguistics, 31, 693–713.

(例)r が .30〜 .50 なら中程度

お疲れさまでした!

入門編

理論編

休憩

実践編

質疑応答

参照

関連したドキュメント

例えば「今昔物語集』本朝部・巻二十四は、各種技術讃を扱う中に、〈文学説話〉を収めている。1段~笏段は各種技術説

〃o''7,-種のみ’であり、‘分類に大きな問題の無い,グループとして見なされてきた二と力判った。しかし,半

 彼の語る所によると,この商会に入社する時,経歴

③ 新産業ビジョン岸和田本編の 24 ページ、25 ページについて、説明文の最終段落に経営 者の年齢別に分析した説明があり、本件が今回の新ビジョンの中で謳うデジタル化の

総合判断説

  ア 雨戸無し面格子無し    イ 雨戸無し面格子有り    ウ 雨戸有り鏡板無し 

マンダナはクマーリラの二重 bhāvanā 説 ― bhāvanā のツインタワー説

 そして,我が国の通説は,租税回避を上記 のとおり定義した上で,租税回避がなされた