• 検索結果がありません。

新しい統計学とのつきあい方

N/A
N/A
Protected

Academic year: 2021

シェア "新しい統計学とのつきあい方"

Copied!
7
0
0

読み込み中.... (全文を見る)

全文

(1)

DOI: http://doi.org/10.14947/psychono.37.25

新しい統計学とのつきあい方

小 杉 考 司

専修大学

Bayesian statistics as a new manner on research practice

Koji Kosugi

Senshu University

In this paper, I clarify the problem of null hypothesis significance testing along with Kruschke (2014) and point out five advantages of Bayesian statistics. First, it is not necessary to convert data for NHST. Second, additional assumptions or corrections are not required. Third, there is no need for any preliminary design of the verification plan. Fourth, the Bayesian approach allows an intuitive interpretation of results. Fifth, the sample size does not cause critical problems. Beyond these advantages, Bayesian statistics can be used alongside frequentism and likelihoodism methods. Finally, I argue it is necessary in science communication to clearly express the researcher’s premise as a prior distribution or likelihood function.

Keywords: Bayesian statistics, frequentism, likelihoodism, null hypothesis significance testing

1. は じ め に 三浦・岡田・清水 (2018) にあるように,今まさに心 理学においてはデータ解析の潮流が変わろうとしてお り,その勢いはさながら「革命」と呼べるほどのものら しい。そこでは革命の骨子を「ベイズ統計モデリング」 「モデル評価」「オープンサイエンス」の三つに分けて論 じられており,特に清水 (2018) や竹澤(2018) は「モデ リング」を強調しているが,議論全体の中心にベイズ統 計学の隆盛があることは間違いないだろう。 心理学は心という目に見えないものを扱う学問である から,測定における誤差に確率分布を仮定して真値に近 づくという論拠が必要だった。心理学はまた,身近なと ころで研究課題を見つけて自前ですぐさま検証すること ができるものも多いが,知見を一般化して議論するため にも推測統計学が必要だった。一方,ベイズ統計学の礎 であるベイズの定理は古く18世紀に明らかになったも のであるが計算機の圧倒的な発展と確率的プログラミン グ言語の拡充によって,様々な学問分野においての応用 が期待されるようになったのは,この数年の話である。 これまでの利用方法は頻度主義的統計学とも呼ばれ, 我々にとっての新しい統計学,ベイズ統計学はそもそも 考え方を異にするとされる。我々はこれをどう受け止 め,どのように付き合っていけばよいのか。 本論文では,まず2章でこれまでの心理統計の問題点 を指摘し,これに対してベイジアンのアプローチが有利 な特徴を持っていることを示す。ただし,頻度主義を貶 めてベイズ主義の利点を過度に強調することを目的とす るものではない。どのような手法であっても長所と短所 が存在するし,どのような手法であっても「生兵法は大 怪我の元」となる可能性はあるからである。そこで3章 では,技術的利点以上にベイズ的であることの意義を解 説し,最後に4章で新しい統計学との付き合い方につい て,展望を交えて議論する。なお,本稿では「ベイジア ン」という言葉をベイズ統計学の,ベイズ流の,ベイズ 的観点から見たところの,という意味で用いる。これを ベイズ主義者の,ベイズ信者の,という思想信条の意味 で読み取らないようお願いしておきたい。 2. これまでの問題点とベイジアンの利点 2.1 従来の統計法の短所 心理学において再現性の問題が取りざたされる以前か Copyright 2019. The Japanese Psychonomic Society. All rights reserved. Corresponding address: Department of Psychology, School

of Human Sciences, Senshu University, 2–1–1 Higashimita, Tama-ku, Kawasaki-shi, Kanagawa 214–8580, Japan. E-mail: [email protected]

(2)

ら,帰無仮説検定の利用の仕方に問題点があることは指 摘されて来た。差が「ある」のか「ない」のかという1 ビットにまで削ぎ落とした情報だけを根拠に議論を展開 することがいかに危険であるかということから,効果の 大きさを表現する効果量にも言及しようという動きも以 前から指摘されて来たことである (吉田,1998; 豊田, 2009; 大久保・岡田,2012; 南風原,2014)。 Kruschke (2014) はこれとは異なる観点から問題点を 指摘する。帰無仮説検定による推論は,帰無仮説のもと で起こりうるすべての結果についての確率を計算したう えで,実際に観察された結果と同程度(またはそれ以 上)に極端な結果を得る確率を p値として採択するロ ジックである。p値は帰無仮説という条件下での条件付 き確率であるから,前提となる条件が変われば,実際に 観察された結果が同じであっても結論は変わる。帰無仮 説検定のロジックはデータに対して無心に対峙してお り,公平かつ客観的な良いツールであるとされてきた。 しかし事前になんの想定もしないことがすなわち,デー タ生成過程 (尤度) をも想定しないことにつながってお り,このことが結果に大きな差異を生む。以下Kruschke (2014) に沿って説明しよう。 コイントスをして,表が出るか裏が出るかを記録し, このコインがいずれの結果も公平で偏らないものである かどうかを検証する例を考えてみよう。ここで,24回 コイントスをして7回表が出たとする。この場合,コイ ンは公平と言えるだろうか? ここで,試行数N=24と表が出た回数k=7について, 「帰 無 仮 説 が 想 定 す る す べ て の 世 界」 を 考 え る。 Kruschke (2014) は実験者の意図によって,その意味す るところが変わると指摘する。ここでは,24回の試行 をすることを初めから決めていた場合と,表が7回出る まで試行し続けようとしていた場合,最後に5分間コイ ントスをしようとしていたら,結果的に24回だった場 合を考える。 初めから24回の試行をすると決めていたのであれば, 帰無仮説のもとで得られる結果Xは,N回中k回の成功 を表す分布,つまり二項分布に従うことになる。両側検 定で考えると「一方の面が7回以下しかでない」極端な 確率pはp=0.06391466 であるから,5%水準では有意に 偏っていると判断できない。 表が7回出るまでコイントスをし,結果的に24回目で それが確認できた場合は,k回の成功を必要とするN試 行数の分布,つまり負の二項分布に従うことになる。両 側検定で考えると,「24回以上の試行を必要とする」確 率は p=0.001663446であり,二倍しても5%に満たない ので帰無仮説は棄却される。 Kruschke (2014) はさらに,実験者が5分間試行するつ もりで,結果的に24回のコイントスをすることになっ た場合の確率を算出する。その結果は2.4% 付近になる ことから,この場合は「有意傾向」と判断されることを 示している1 このように,同じデータからでも結論が異なることに 注意が必要である。この三つの状況は,それぞれ想定す る確率空間が異なるため,同じ事象であっても,それが 生じる確率が異なる。ベイジアンは確率分布が異なるの だから結果が異なるのは当然と考えることができるが, 帰無仮説検定の枠組みではデータ生成過程を取り込めな い。これまでは実験計画の中にその過程を統制する仕掛 けを埋め込み,方法や手続きを詳述することで実験者の 考えを推察するしかなかった。ここでデータの生成過程 である確率分布を明示すれば,実験者がどのような背景 でデータを得ているかをも明示することができる。しか しそれを明示する必要がない状況では,方法で「このよ うな前提のもとで行われた」という主張があればそれを 受け入れるしかない。科学の領域は善意の道で舗装され ているのである。研究者の悪意を疑うわけではないが, 頻度主義的なやり方では,意図的でない場合でも誤った 結果に陥る可能性が高いと言わざるを得ない。この点が 帰無仮説検定の最大の欠点である,と筆者は考えている。 2.2 ベイジアンの利点 ベイジアンの本質を短い言葉で表現すると,わからな いことを確率で積極的に表現すること,といえるだろ う。群間の差,効果の大きさなど,実験者にとって知り たい実質的な違いを確率分布として表現するのであっ て,仮想的な確率空間の議論をするのではないため,そ の解釈はより単純である。確率分布で表現するというこ とは,確率分布のパラメータで表現することであり,ど ういった分布がどのようなパラメータをもつのか,とい う基礎的な知識は必要であるが,一度それを把握してし まえば,あとは実質的な値の検証になる。 最も単純な例で,対応のない二群のt検定を考えてみ よう。帰無仮説検定の仮定と同じように,データが正規 分布に従うとしよう。あとは正規分布が平均パラメータ μと分散パラメータσ2という二つのパラメータ値によっ て形が決まる分布である,という知識があればよい。こ れらを数式で表すなら,群 A, Bそれぞれの平均値をμA, 1 以上の数値計算をするRコードをhttps://osf.io/k7xd8/ に示しているので参照してほしい。

(3)

μBとし,群AのデータA1, A2, , An, 群BのデータB1, B2, , Bmとすると,Ai∼N (μA, σ2), Bj∼N (μB, σ2) となる。こ こで∼は「次の確率分布に従う」の意味であり,Nは正 規分布の略記である。ここでわからないものはμA, μB, σ の三つであるから,これらに事前分布を置いてデータと 組み合わせると,μA, μB, σの事後分布が得られる。この 事後分布は,データを踏まえて考えた各群の平均値・分 散の取りうる値の確率を表しており,実質的な大きさそ のものである。もし…なら確率pで云々,という回りく どい表現ではないため,初学者にもわかりやすいし誤解 が生まれにくい。 ベイジアンの考え方は,データを得ることで事前情報 をアップデートしていくという営みであるから, 研究の 累積や再現性の問題にも貢献する。事前分布が問題にな るのであれば,最初は一様分布をおくことでデータの特 徴をそのまま反映させることができる。後でも示すよう に,ベイジアンアプローチは頻度主義的アプローチを包 含しているのである。 この他にもベイジアンたる利点はいくつもあげること ができる。以下代表的な五つの例を挙げよう。 第一に,例えば変数変換など,データを検定モデルに 合わせる必要がない。対数変換や角変換など,検定分布 に合わせるためのテクニックがあったが,一般化線形モ デルが登場したことで,最近は目にすることは少なく なっている。しかしそうした習わしは, そもそも分布を 自由に選ぶベイジアンにとっては不自然な振る舞いでし かない。データ生成メカニズムを自然にデザインすれば よいのである。 第二に,検定論ででてくる仮定や補正から無縁でいら れることが挙げられる。t検定の手続きは, データの正 規性の検定を行い,分散の等質性の検定を行い,Welch の補正をかけるという段階を踏まねばならない。ベイジ アンはどの事前分布と尤度,データの組み合わせで事後 分布が得られるかについて,一つの定理を適用するだけ でよい。ある場合は5% より大きければ喜び,続いてあ る場合は5% より小さければ喜ぶといった仮定の組み合 わせや, 補正という手続きに悩むことがない。例えば先 の例で,分散が等しいかどうかわからないのであれば, Ai∼N (μA, σ2A), Bi∼N (μB, σ2B) とすればよいのである。σA, σBの事後分布を見て,どの程度異なるのか,等質とみな してよいかどうかは,その研究領域の共通見解で判断す ればよい。あるいは,モデル適合度の観点で,異なる分 散を推定したモデルと分散を同じとしたモデルの,どち らがデータに適合していたかを持って考えのヒントとす ることもできるだろう。 第三の利点として,下位検定を事前に設計しておく必 要が生じないことが挙げられる。分析方法の中に研究者 の意図を埋め込み,特定の組み合わせに有意差が見られ るかどうかで結論を導けるように凝らされた技巧は,実 験心理学の論文を読む中で感動すら覚える箇所である。 しかし注意すべきは,そのような計画の隅々は,実験実 施前に組み立てられておく必要があるという点である。 すでに述べた通り,下位検定の細部に至るまで事前に設 計されていなければ,想定する確率空間が異なることか ら,結論が変わりうるからである。パーソナリティ研究 は心理系和文雑誌の先陣を切って,事前登録制の論文投 稿枠を設けた (加藤,2018)。これは再現性問題 (池田・ 平石,2016) というより大きな枠組みの中での取り組み であるが,統計的観点からも必要な措置なのである。こ れに対してベイジアンでは,検証する対象である事後分 布は常に一つである。得られた事後分布,事後予測分布 の,どの箇所をどのように切り分けて (周辺化して) 比 較しても,そのことで結論が変わることにはならない。 もしどこかに交互作用が出るのではないかというよう な,探索的な仮定で実験を行うのであれば,ベイジアン でなければならないのである。 第四の利点として,第三の点と関わるところもある が,例数設計の問題が挙げられる。「頑張って取れるだ けデータを取ってみよう」という心理学教育に悪意があ るとはいわないが,分析に際して帰無仮説検定を行うの であれば,結論を意図的に作り出したとの誹りから免れ 得ないことになる。ベイジアンにとっては得られたデー タから作られる事後分布は常に一つであり,それが確率 的に変わるものではない。たくさんデータを取ればより 確信度が高く,あまりデータが取れなければより確信度 が低くなるだけであるから,実験者の努力は反映される し,そのことが結果に影響を与えるものではない。ベイ ジアンでは例数設計をしないというのではなく,例えば どの程度の確信度でどの程度の差を検出したいか,とい う計画に基づいて数値計算を繰り返し,例数設計する方 法がある (Kruschke, 2014, 13章を参照)。しかし例数設計 を報告し,認可を受けてから実施するという作法に則る のが難しい実践場面は少なくないだろう。もしなんらか の事情で,事前の例数設計をすることが困難な状況にあ るのならば,帰無仮説検定で結論を出すのではなく,ベ イジアンでなければならない。 第五に,ベイジアンはp値の解釈のように仮想世界の 非現実的な値について一喜一憂するのではなく,事後分 布から自分の仮説が正しい確率を読み取ることができる 点である。解釈が直観的であり,誤解を生じにくい点は,

(4)

教育的効果が非常に大きいだろう。さらに,パラメータ のどちらがどの程度大きい (小さい) かという情報仮説 (岡田,2014) や,パラメータやモデルから予測される データの大小関係についての確率についての仮説 (豊田, 2016) も検証することができる。直観的な発想に沿った 解釈ができるということは,誤解を生みにくいことにも つながり,誤用や悪用を防ぐことにもつながる。 ここで述べた利点のうち,特に第三,第四の利点は再 現性問題の観点から,第四,第五の利点は教育実践の観 点から評価される点だろう。 3 統計的観点と科学的態度 3.1 三つの立場 ここまで,従来の頻度主義的手法,特に帰無仮説検定 と対比するような形で,ベイジアンの利点について論じ てきた。しかし冒頭で述べたように,本稿でいうベイジ アンとは「ベイズ主義者」といった人の思想信条に帰属 されるものではなく,考え方の違い, あえて言えば考え 方の作法についての話なのである。このような強調をす る意図は,従来の手法と新しい手法を並べた時に,信念 の対立,見解の相違としてコミュニケーションを断絶さ せるような着地を避けたいからである。 Sober (2008) は統計学における三つの立場を,異なる 問いに立脚したものとして分けて考える。頻度主義的統 計学,特に帰無仮説検定の考え方は,差があるといって よいかどうか,効果があると認めてよいかどうかという 「どちらの道を進むべきか」についての意思決定の問題 である。ベイズ主義の考え方はうえで見たように,「ど の程度信じられるか」という信ぴょう性の問題である。 第三に尤度主義という考え方があり,これは手元のデー タにもとづいて「採択するべき仮説はどれか」という選 択の問題である。それぞれ問いの形が違い,必要とする 答えが異なるのだから,そもそも直接比較できるもので はないともいえる。 ここで後の説明のために,モデルとデータの関係を次 のように表そう。 p y M p M p y M( | , )θ = ( | , ) ( | )θp y M( | )θ (1) ここでy はデータ,M はモデル,θは興味のあるパラ メータのセットであり,左辺が表すのはデータとモデル が得られたうえでのθの確率を表している。右辺の分子 は,モデルMの想定するパラメータθ, すなわち事前分 布 (p(θ|M)) と,その事前分布のもとでデータが得られ る確率,すなわち尤度 (p(y|θ, M)) の積である。分母は そのモデルのもとでデータが得られる確率 (p(y|M)), す なわち周辺尤度と呼ばれるものである。 これはもちろんベイズの公式であるが,モデル,デー タ,パラメータが全て含まれており,データを取ってモ デルやパラメータを考えるという意味で,一般的な科学 的営みを表現していると言えるのではないだろうか。 さて,2群間の平均の差を考える例をもう一度取り上 げよう。群間の差δに興味がある場合,先ほどの表現を 少し改めて, Ai∼N(μ, σ2) Bj∼N(μ+δ, σ2) (2) のように表記することもできる。これが意思決定の問題 であれ程度問題であれ,δの大きさを考えていることに 違 い は な い。 効 果 量 d はδ/σ で 表 さ れ る か ら,Cohen (1988) の基準とともに報告してもよいし,δの事後分布 の確信区間や最高密度区間 (Kruschke, 2014) が0を含む かどうかで判断するのもよいだろう。この表現は一般線 型モデル,すなわち平均の差の検定を線型モデルという 形で統合している。また式1について,事前分布を置か ない(あるいは (pθ|M)=1とする)ことが頻度主義的ア プローチであると考えることができる。その意味で,ベ イズ主義的モデル式は頻度主義の考え方を包括的に含ん でいると言える。 さて尤度主義の考え方はどうであろうか。尤度主義 は,差がないとするモデル (M1) と差があるとするモデ ル (M2) のどちらがデータに対して当てはまりが良いか を考えるものである。これは式(1)でいうところの分 母,すなわちp(y|M1) とp(y|M2) の比較を意味し,この 両者の比のことを一般にベイズファクターという。より 具体的で詳しい説明は,岡田 (2018) を参照してもらい たいが,ここではこれらの項が先の式(1)に含まれて いること,つまりモデル表現の中に尤度主義に必要な情 報が包含されていることを確認してもらえば十分であ る。 このように,ベイズの公式は頻度主義,尤度主義の考 え方が含まれている,より一般的な表現なのである。た だし,特にベイズ「主義」として強調する場合,その特 徴はどこにあるかといえば,モデルを尤度と事前分布の 積で表現していること,またデータ生成過程をモデリン グすることから,まだ見ぬデータの予測についてまで言 及できるところにある。データを取ってその差があるか ないかを判断するということは,顕現化した目の前の データに対する「説明」に止まっており,それ以上に言 及するのはこれまで「考察」とされていたものである。

(5)

頻度主義を超えて尤度主義に進んでも,それはあくまで も手に入れたデータ (y) についての比較であり,それ以 上は言及するものではない。ベイズ主義的であるという のは, このモデルから言える次のデータについての「予 測」にまで責任をもつことができる。 真にベイズ統計学的であるということは,ただ推定方 法の革新や,分布などの概念の導入にとどまるものでは ない。モデルによる現象の説明はもちろん, 現象の予測 にまでその判断基準が設けられ,その上でモデルの母体 となる理論の妥当性を求めることになるだろう2。少な くとも技術上は可能なのだから, 後は我々心理学者が予 測をしたかったのかどうかをしっかり問い直し,決意し なければならない。 3.2 ベイジアンは研究的思考のマナーである 竹田 (2004) は「現象学が思考の原理である」という。 何らかの唯一の真実があるという前提からは, 真か偽か のどちらかという結論しか生まれないため, 信念対立が 必然的に生まれてくる。それを超えて建設的な議論をす るためには,いったん目の前に事象がどのように立ち現 れてきているかに神経を研ぎ澄ませ,他者と共通の了解 が得られる領域を共有するところから始めなければなら ない (竹田,2004)。科学は議論の蓄積,すなわちコ ミュニケーションであるから, 互いの共有領域をより広 げていけるように,我々は現象学的態度で挑まねばなら ず,一般に共通するルールなので「原理」なのだという。 心理学者は統計のユーザーであってメーカーや専門家で はないのだから,ツールのマニュアルさえあれば良い, という考えもあるだろう。しかし科学者として自らを位 置づける者は,竹田 (2004) の意見に異論は持たないの ではないだろうか。 さて,心理学はもちろん統計学においても,人間の営 みである以上は絶対的な真のモデルというのは知り得な い。ベイズファクターやWAIC (渡辺,2012) など,モデ ルの正しさを表現する指標はあるが,いずれも相対比較 しかできない。我々が心の機構について想いを馳せると き,どのような前提 (事前分布) のもとで,どのような 仕組み (尤度) を考えたのかを, 誤解なく伝わるように 自 然 言 語 で な く 数 式 を 使 っ て 表 現 す る こ と (竹澤, 2018) は,もはや (筆者は原理とまでは言わないが) 研 究的思考のマナーとして受け止められるべきであり,そ れを表しているのが式(1)のベイズの公式なのである。 ベイジアンと頻度主義を対比して語るのは,実験計画 法や分散分析を創始したR. A. Fisherがベイズ統計の考え 方に批判的であったために,ベイズ統計学に関する論文 が掲載されなかったという歴史的背景によるところもあ る (McGrayne, 2012)。なかでもその批判点は,事前分布 に対してなされることが多い。 こうした批判に対して,Kruschke (2014) は上述の「24 回投げて7回は表が出た」という例が釘の話だったらど うか,という。釘が頭の部分を底にしてピンと立ち上 がったら表,そうでなかったら裏だと設定し,24施行 中7回ピンと立ち上がったとしても, 帰無仮説検定のア プローチではこの釘が公平な (立ち上がるかどうかが 50% であるという) 帰無仮説を棄却できない。常識的に はなんらかの仕掛けを疑うところだが,事前になんら思 い込みを持たないというのであれば,そしてデータ生成 過程に言及しないのであれば,公平な釘と結論するしか ない。このとき物理的な法則を加味して,そもそも表が 出にくいだろうという事前分布を置けば (例えばBeta (θ | 2, 20) などの事前分布を置けば),正しい判断に寄与 することができるにも関わらず。 それでも前分布を恣意的に置くことに関しては, 批判 が残るかもしれない。その場合は事前分布のパラメータ を様々に変化させたり,違う確率分布を事前分布とする ことで,結果がどの程度変化するかを検証の対象にする ことができる (感度分析という)。もし異なる確率分布 を事前分布にした時でも,結果として注目するパラメー タの推定値に大きな違いがないのであれば,事前分布に 対して頑健な結果として受け取ることができる。結果が 大きく変わるようであれば,改めてその事前分布の妥当 性が問われることになるだろう。特に科学論文の評価に あたっては事前分布をどのように置くのが妥当なのか, 何をもって自然な仮定とするのかといった問題が生じう る。しかし少なくとも,自らの仮定が何であるかを明示 しておくべきである,という意見に異論はないだろう。 帰無仮説検定のアプローチの利点は,対象がコインで あれ,釘であれ,なんらかの心理学的事象であれ,厳格 な手続きに沿って検証を行えば誰にでも結論が出せるこ とである。だからこそ我々心理学者は, 統計学の専門家 になるまえに,いちユーザーとして機械的手続きの習得 に努めれば良いのであった。ただこのことが,手続きマ ニュアルを精読せず,意図せず間違った使い方をしたり 意図的に悪用したりするという悪習慣を招いてしまって いる。自戒を込めていうが,心理学者のこれまでの統計 2 AIC など最尤法の枠組みの中でも予測という観点は あるが,ベイジアンモデリングの方が事後予測分布 などを示すことでより具体的な予測にも重点を置い ていると言えるだろう。

(6)

に対する態度は,マニュアルを熟読せず,わかったつも りで,あるいはどこかで理解を諦めつつ,使えればよい という不真面目なものではなかったか。もっとも,この 気軽な関係は心理学という学問の発展には大きく寄与し たはずであり,その意味でも従来の統計法を一概に批判 できないという弱みを我々は有しているのかもしれない。 4. 心理統計学の展望 4.1 前提条件を共有するために 心理学者にとって統計はたかがツール,されどツール という位置づけであったかもしれない。とはいえ, いち ユーザーとしての立場以上に,科学コミュニティに関わ る人間のより一般的なマナーとして,前提と自らのアイ デアを明示するという振る舞いは身につけておくべきで あろう。帰無仮説検定を行うのが良い悪いということ以 上に,どういった前提条件にたって,どのような分析手 法をとるのかを明らかにする,マナーを身につけなけれ ばならないのである。 2.2節で述べたように,ベイジアンのアプローチには いくつかの利点がある。探索的な研究の場合は,「どの 程度効果が見積もれるのか」という程度問題から始める のが妥当であり,いきなり真偽の決着をつける頻度主義 的意思決定問題にするべきではない。ベイジアンは厳格 な例数設計がなくとも,モデルとデータの関係で見積も りを立てることができる。モデル(尤度 × 事前分布) は自由に立案でき,数式で表現されることで一般性を 保って議論することができる。また「今日の事後分布は 明日の事前分布」(Lindley, 1972) と言われるように,知 識を積み重ねていくことがベイジアンの利点の一つでも あるから,まずやってみるというのであれば,ベイジア ンとの相性は特に良いと言えるだろう。このとき,結果 はどのようなものであれ,程度で表現される。すぐに効 果が「ある/ない」という結論ではなく,大きくある, 小さくある,という結果の示され方は,努力が無駄に なったという誤解を避けることができ,ひいては file drawer問題の解決に貢献することになるだろう。 議論が深まり,複数のモデルを比較して雌雄を決する 必要になった段階まで進むと,帰無仮説検定の真価が発 揮される。効果の有無やモデルの優劣など, 一定の結論 を出すことができるため,より客観的で公共性の高い情 報を提供できるだろう。もちろんその際には,例数はも ちろん実験デザインの事前登録やチェックの必要性があ り,個別の研究室内での努力を超えて科学コミュニティ として運用するべきかもしれない。理想的には,実験 者・被験者・分析者というそれぞれが,しっかりと分業 されており,論文執筆者も含めてそれぞれがメリットを 享受できるような,評価システムの設計も必要かもしれ ない。 4.2 新しい統計学と心理学教育 再現性の問題も含めて,これらのマナーを身につける ためには,心理学教育のカリキュラム全体が関わる必要 がある。ベイズ統計学は,初学者に対する教育的側面に ついても利点が多い。2.2節で述べた例数設計や解釈の 容易さに加え,データ生成メカニズムを考える自発性と 創造性を育むことができる。また「なぜそのような確率 分布を用い,その検定統計量に変換しなければならない のか」といった疑問を封殺し,計算手続きだけを教え込 むことによって,嫌悪感を増幅させるようなこともな い。帰無仮説検定の緻密なロジックの組み立ては,針の 穴一つ開いた途端に瓦解するような危険性を持ってお り,初学者にとってはより間違いにくい利用法としての ベイズ統計の方が適していると考えられる。 もっとも,ベイズ統計教育を広めるためには,教える 側にも結果を読み取ったり方針を示したりできるよう な,技量や能力が求められる。どのような問題であって も平均値の比較に帰着させれば良い,という画一的な教 育はできず,ケースバイケースの指導が必要になるよう であれば,その教育コストは膨大なものになるかもしれ ない。またベイズ統計学の初学者からよく聞くこととし て,独創的なモデルを作るためにはどのように学べばよ いのか,というものがある。想像力豊かにモデリングを 楽しんでいる例 (豊田,2018) を見ても,そもそもどう してそのようなアイデアを得るのか,それをどう伝えれ ばよいのかについては,まだ標準的な学習コースが整備 されているとは言いがたい。これについては,先行研究 を見て学ぶ,その領域での基本的な学習コースを辿ると いう必要があり,ベイズに限らずモデリングという観点 からテキストを探す必要があるのが現状である。もっと も,心理学領域特有の典型的なモデルについては,分析 パッケージとして提供されているもの (例えばBürkner, 2017; JASP Team, 2018)を使うなどして始めて行くこと もできるだろう。 4.3 意味に向き合う 最後に,今後の心理統計学の展望に言及しておきたい。 アメリカ心理学会では既にp値のみで議論するのでは なく,効果量も併記するようマニュアル化している

(American Psychological Association, 2010) 。本邦におい てもそれに追従する動きはあるが,これをただの数値基

(7)

準の加筆修正に止めてはならない。確かに標準化された 差は,各種の実験報告を超えて(単位に依存せずに) 効 果の大小関係を比較することができる。しかし標準化さ れた差がどれぐらいだったら「実質的に意味があるか」 ということについてまで検討がいたらず,p値の0.05と いう基準と同じように,Cohen (1988) の指標を鵜呑み にして使ってしまっていては同じことなのである。今こ そ実質的な差 (豊田,2009) について,各領域で議論を 進めなければならない。 これは統計学の主流が何主義になっても変わらない問 題,心理学における妥当性の問題である。行動指標に密 着した数字,データを生成するメカニズムを直接モデリ ングできるようになると,数字の意味が具体的であるが 故に,直接的にその意味を考えざるを得なくなる。 Kruschke (2018) はp値の代わりに事後分布の最高密度区 間と,実質的に等価とみなせる範囲(Region Of Practical Equivalence; ROPE) を設定することで,帰無仮説検定の 問題点を克服できると論じているが,このROPEの幅を どれぐらいに置くのかについては,各研究領域で議論し て定めねばならない問題である。ベイジアンとて,アプ リオリにこの大きさであればよいと決めてかかるわけに はいかないのである。 もちろん実質的な差,実質的に等価とみなせる範囲に ついて,各研究領域で「この大きさにしよう」というコ ンセンサスを作るのは大変なコストであり,即座に対応 できるというものではない。しかしそれでも,この方向 に向けての議論を始めなければならない。尺度の妥当 性,構造方程式モデルの妥当性が問題になってきたよう に,データの意味をより深く理解し共有しなければ,心 理学の未来はない。広く知見を積み重ね,現象を説明す るモデルや,モデルを説明する理論を作り,予測にも責 任を持てるような心理学を作るためには,マナーとして の新しい統計法を受け入れていかなければならないので はないだろうか。 引用文献

American Psychological Association (2010). Publication

man-ual of the American Psychological Association (6th ed.).

Washington, D.C.: American Psychological Association. (前田樹海・江藤裕之・田中建彦 (訳)(2011). APA論

文作成マニュアル第2版 医学書院)

Bürkner, P.-C. (2017). brms: An R Package for Bayesian Multi-level Models Using Stan. Journal of Statistical Software, 80, 1–28, DOI: http://dx.doi.org/10.18637/jss.v080.i01

Cohen, J. (1988). Statistical power analysis for the behavioral

sciences (2nd ed.).Hillsdale, NJ: Lawrence Erlbaum.

南風原朝和 (2014).続・心理統計学の基礎――統合的 理解を広げ深める――心理統計学の基礎 (第2巻) 有 斐閣 池田功毅・平石 界 (2016).心理学における再現可能 性危機――問題の構造と解決策―― 心理学評論, 59, 3–14.

JASP Team (2018). JASP (Version 0.9)[Computer software]. URL: https://jasp-stats.org/

加藤 司 (2018).『パーソナリティ研究』の新たな挑戦 ――追試研究と事前登録研究の掲載について――  パーソナリティ研究,27, 99–124. DOI: http://dx.doi.org/ http://doi.org/10.2132/personality.27.2.11

Kruschke, J. (2014). Doing Bayesian data analysis (2nd ed.). New York: Elsevier.

(前田和寛・小杉考司 (監訳)(2017).ベイズ統計モ

デリング――R, JAGS, Stanによるチュートリアル――

原著第2版 共立出版)

Kruschke, J. K. (2018). Rejecting or accepting parameter val-ues in Bayesian estimation. Advances in Methods and

Prac-tices in Psychological Science, 1, 270–280, URL: https://doi.

org/10.1177/2515245918771304

Lindley, D. V. (1972). Bayesian statistics, a review. Philadel-phia, PA: SIAM.

McGrayne, S. B. (2012). The theory that would not die: How

Bayes rule cracked the enigma code, hunted down Russian submarines, and emerged triumphant from two centuries of controversy. New Haven & London: Yale University Press.

(星 冨永 (監訳)(2013).異端の統計学ベイズ 草 思社)

三浦麻子・岡田謙介・清水裕士 (2018).統計革命― Make statistics great again― 心理学評論,61, 1–2. 岡田健介 (2014).ベイズ統計による情報仮説の評価は 分散分析にとって代わるのか 基礎心理学研究,32, 223–231. 岡田謙介 (2018).ベイズファクターによる心理学的仮 説・モデルの評価 心理学評論,61, 101–115. 大久保街亜・岡田謙介 (2012).伝えるための心理統計 ―効果量・信頼区間・検定力― 勁草書房 清水裕士 (2018).心理学におけるベイズ統計モデリン グ 心理学評論,61, 22–41.

Sober, E. (2008). Evidence and evolution: The logic behind the

science. Cambridge, UK: Cambridge University Press.

(松王政浩 (訳)(2012).科学と証拠――統計の哲学 入門―― 名古屋大学出版会) 竹田青嗣 (2004).現象学は思考の原理である 筑摩書 房 竹澤正哲 (2018).心理学におけるモデリングの必要性  心理学評論,61, 42–54. 豊田秀樹 (2009).検定力分析入門 東京図書 豊田秀樹 (2016).はじめての統計データ分析――ベイ ズ的〈ポストp値時代〉の統計学―― 朝倉書店 豊田秀樹 (2018).たのしいベイズモデリング――事例 で拓く研究のフロンティア―― 北大路書房 渡辺澄夫 (2012).ベイズ統計の理論と方法 コロナ社 吉田寿夫 (1998).本当にわかりやすいすごく大切なこ とが書いてあるごく初歩の統計の本 北大路書房

参照

関連したドキュメント

It can be shown that cubic graphs with arbitrarily large girth exist (see Theorem 3.2) and so there is a well-defined integer µ 0 (g), the smallest number of vertices for which a

Kilbas; Conditions of the existence of a classical solution of a Cauchy type problem for the diffusion equation with the Riemann-Liouville partial derivative, Differential Equations,

– Classical solutions to a multidimensional free boundary problem arising in combustion theory, Commun.. – Mathematics contribute to the progress of combustion science, in

It is an interesting problem to find out criteria for normality of a family of analytic or meromorphic functions.. In recent years this problem attracted the attention of a number

We shall see below how such Lyapunov functions are related to certain convex cones and how to exploit this relationship to derive results on common diagonal Lyapunov function (CDLF)

Using the fact that there is no degeneracy on (α, 1) and using the classical result known for linear nondegenerate parabolic equations in bounded domain (see for example [16, 18]),

In view of Theorems 2 and 3, we need to find some explicit existence criteria for eventually positive and/or bounded solutions of recurrence re- lations of form (2) so that

[25] Nahas, J.; Ponce, G.; On the persistence properties of solutions of nonlinear dispersive equa- tions in weighted Sobolev spaces, Harmonic analysis and nonlinear