• 検索結果がありません。

東京大学社会科学研究所パネル調査プロジェクトディスカッションペーパーシリーズ No 年 5 月 朝食摂取習慣の教育達成への因果効果の検証 傾向スコアマッチングと感度分析によるアプローチ 小川和孝 ( 東京大学 ) 要旨本論文の目的は 15 歳時の朝食摂取習慣が中学校における校内成績と

N/A
N/A
Protected

Academic year: 2021

シェア "東京大学社会科学研究所パネル調査プロジェクトディスカッションペーパーシリーズ No 年 5 月 朝食摂取習慣の教育達成への因果効果の検証 傾向スコアマッチングと感度分析によるアプローチ 小川和孝 ( 東京大学 ) 要旨本論文の目的は 15 歳時の朝食摂取習慣が中学校における校内成績と"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)
(2)

東京大学社会科学研究所パネル調査プロジェクト ディスカッションペーパーシリーズ No.79 2014 年 5 月

朝食摂取習慣の教育達成への因果効果の検証

―傾向スコアマッチングと感度分析によるアプローチ―

小川和孝(東京大学) 要旨 本論文の目的は、15 歳時の朝食摂取習慣が中学校における校内成績と、将来的な 教育達成へと与える因果的な効果を測定することである。傾向スコアによるマッチング を用いて、社会階層などの朝食摂取習慣へ影響しうる共変量の調整を行った。分析の結 果、男性の中3 時校内成績、教育年数、女性の中 3 時校内成績に対して、朝食摂取習慣 の有意なプラスの影響が確認された。また、男性の中3 時校内成績と教育年数について は、感度分析を用いて観察されない変数の影響を考慮した上でもその効果は大きいこと が確認された。 謝辞 本研究は、文部科学省科学研究費補助金特別研究員奨励費(課題番号 23-10851) による研究成果の一部である。東京大学社会科学研究所パネル調査の実施にあたっては 社会科学研究所研究資金、株式会社アウトソーシングからの奨学寄付金を受けた。パネ ル調査データの使用にあたっては社会科学研究所パネル調査企画委員会の許可を受けた。

(3)

1.問題設定

本研究の目的は、15 歳時の朝食摂取習慣が中学校の校内成績と、将来的な教育達成へと 与える因果的な効果を測定することである。近年、子どもの朝食摂取と教育達成との関係 について、学術的・政策的な議論がしばしば行われる。すなわち、個人の教育達成に影響 する要因として、朝食の摂取を指摘するというものである。 厚生労働省の「平成22 年国民健康・栄養調査」では、7-14 歳における朝食の欠食率1 男性5.6%、女性 5.2%、15-19 歳における朝食の欠食率は男性 14.5%、女性 14.0%となっ ている。また、文部科学省の「平成20 年度全国学力・学習状況調査」によると、毎日、 朝食を食べている児童生徒のほうがテストの正答率が高い傾向が見られるという結果が出 されている。西本(2004)は、沖縄県の高校生のデータから、朝食の摂取がテスト得点を高 めているを確認しており、またその結果を脳の機能の面から解釈している。このような観 点は栄養学の研究にも見られ、例えばPowell et al.(1998)は、子どもの健康状態の悪さや、 朝食を摂らないことによる空腹状態が学習能力に負の影響を与える可能性を指摘している。

Yamamoto and Brinton (2010)は、Bourdieu の文化資本理論に基づき、「社会階層と社 会移動全国調査」の1995 年データから、文化資本による教育達成への影響を分析してい る。この研究では、幼少期における「親による本の読み聞かせの経験」、「美術館・博物館 へ連れて行ってもらった経験」という「身体化された文化資本」と、骨董品やピアノなど の所有という「客体化された文化資本」を分類し、身体化された文化資本が学校での学習 に必要な、一般的な意欲や能力を高めることで、人々の最終的な教育年数に効果を持って いるということを議論している。すなわち、身体化された文化資本が人的資本に変換され ることによって、教育達成に影響しているというものである。このような枠組みを応用す れば、朝食を摂るという習慣が、教育達成に有利な身体化された文化資本として機能する ということがありうるかもしれない。 一方で、食事習慣というのは、単に何らかの社会階層の代理変数と見なされる場合もあ る(苅谷・志水編 2004)。その場合には、推定された朝食の摂取の影響は、他の社会階層に 関しての欠落変数(omitted variable)によるバイアスを反映したものになる。 このように、朝食を摂取する習慣が教育達成に因果的な影響があるかどうかということ に関心がある場合、両者に先行して関連する変数を適切に統制する必要がある。このよう な方法として、社会科学の分野で最も広く用いられているのは、重回帰分析によるアプロ ーチだろう。東京大学社会科学研究所(2009)では、本稿で用いるのと同じである、15 歳時 の朝食習慣が本人の教育達成に与える影響をすでに重回帰分析によって検証しているが、 1 調査を実施した日(特定の 1 日)における朝食を欠食したものの割合として定義されてい る。

(4)

この方法には後述するようなモデルの特定化による問題が生じ得る。

本稿では、Rosenbaum and Rubin(1983)などによって発展させられてきた傾向スコア (propensity score)による共変量調整が、重回帰分析に対して持つ利点について説明を行う。 そして、傾向スコアによるマッチング推定を用いて、朝食摂取の習慣が教育達成に与える 因果効果を推定する。また、推定された因果効果の頑健性について、感度分析(sensitivity analysis)による検証を行う。

2.傾向スコアを用いたマッチングによる推定

2 (1)潜在結果(potential outcome)モデル ここでは、Rubin(1974)などによって導入され、処置変数による因果効果を推定するた めに広く使用されている潜在結果モデルによる表記を導入する。まず、個人i についてそ れぞれ、Yiを従属変数、Tiを処置変数、Xiを処置変数に先行する観察される共変量とする。 この時、Yi(Di)を処置変数の値がDi= {0,1}における潜在的な値とすると、個人 i における 処置効果(treatment effect)は、 δi= Yi(1) − Yi(0) (1) と定義される。ここで、Yi(1), Yi(0)はそれぞれ反実仮想的(counterfactual)な従属変数であ る。すなわち、ある個人i においてYi(1)とYi(0)を同時に観察することはできず、よって、 式(1)を得ることも不可能である。Holland(1986)は、これを「因果推論における根本問題 (the fundamental problem of causal inference)」と呼んでおり、2 つの解決法を提案して いる。それは、「科学的解決法(scientific solution)」と「統計学的解決法(statistical solution)」 である。 「科学的な解決法」とは、母集団におけるすべての個人の均一性を仮定することである。 すなわち、Yi(1) = Yj(1)かつYi(0) = Yj(0)が成り立つことである。この強い仮定の下では、 個人レベルでの因果効果を推定することが可能である。なぜならば、 δ = Yi(1) − Yi(0) = Yj(1) − Yj(0) = Yi(1) − Yj(0)

2 Caliendo and Kopeing(2008)は、傾向スコアを用いたマッチングの手順として、(1)傾向 スコアによるマッチングか共変量のマッチングかを決める、(2)傾向スコアの推定、(3)マッ チングのアルゴリズムを選択する、(4)コモンサポートをチェックする、(5)マッチングの質 を推定する、(6)感度分析、を挙げている。本節もこの説明に依るところが大きい。

(5)

が母集団のすべての個人に対して成り立ち、処置群における個人と対照群における個人の 単純な従属変数の値の差をとればよいためである。しかしながら、社会科学においては個 人間の異質性というものが常に存在する(Xie 2013)。そのため、個人の均質性を仮定した 分析というものは現実的には無意味である。よって、Holland(1986)の分類による、「統計 学的解決法」が選択されることになる。これは、個人レベルの因果効果ではなく、何らか の集計レベルの因果効果に注目するという方法である3。その際に最もよく注目されるのは、 (1)の平均である。すなわち、 δATE= δ̅ = E[Yi i(1) − Yi(0)] (2)

で定義される平均因果効果(average treatment effect: ATE)への注目である。また、場合 によっては、処置群における処置効果(average treatment effect on the treated: ATT)、す なわち実際に処置を受けた群に条件付けた際の処置効果へ関心がある場合もある。すなわ ち、 δATT= δ̅ = E[Yi i(1) − Yi(0)|Di= 1] (3) で定義されるものである。この際、もし処置変数T の割り当てがランダムであれば、式 (2),(3)はバイアスなく推定することが可能になる4。なぜならば、 {Yi(1), Yi(0)} ⊥ Di (4) 3 Xie(2013: 6263)は、個人レベルでは常に分散が存在するにもかかわらず、因果推論では 常に集計レベルでの統計的分析が要求されることを、「社会科学における根本的パラドック ス(the fundamental paradox in social science)」と呼んでいる。

4 ここではさらに、ある個人の潜在的な従属変数の値は、他の個人がどのような処置変数 の値をとるかに依存しないという仮定が置かれる。すなわち、どのような処置変数の割り 当てメカニズムの下でも、それぞれの個人の潜在的な従属変数の値は一定だというもので ある。これは、stable unit treatment value assumption(SUTVA)と呼ばれる(Rubin 1980)。 石田(2012)は、SUTVA が成り立つ事例とそうでない事例について、ある個人が頭痛薬を 飲んだ時の効果は、周囲の個人が頭痛薬を飲んだかどうかに依存しないのに対して、失業 者を対象とした失業訓練の効果は、周囲の人々が同様の職業訓練を受けたかどうかが労働 市場の需給関係に関わるので異なり得るという例を挙げている。また例えば、学校におい てピア・グループによる成績への影響が存在する場合にも、SUTVA が成り立たない可能 性があるが、そのような関心からSUTVA を弱めた分析例としては、Sobel(2006)や Hong and Raudenbush(2008)などがある。

(6)

より、処置変数の割り当てと従属変数の潜在的な値が独立となり、

δATE= E[Yi(1) − Yi(0)] = E[Yi(1)|Di= 1] − E[Yi(0)|Di= 0]

δATT= E[Yi(1) − Yi(0)|Di= 1] = E[Yi(1)|Di= 1] − E[Yi(0)|Di= 0]

(5) (6) となるためである。上式における、E[Yi(1)|Di= 1], E[Yi(0)|Di= 0]はそれぞれデータから推 定可能である。しかし、処置変数の割り当てT がランダムではない観察研究(observational study)においては、一般的に式(4)は成り立たず、次に示すように、式(5),(6)にもバイアス が生まれてしまう。すなわち、δATTについて、観察研究における処置群と統制群の単純な 平均の差は、 E[Yi(1)|Di= 1] − E[Yi(0)|Di= 0]

= E[Yi(1) − Yi(0)|Di= 1] + E[Yi(0)|Di= 1] − E[Yi(0)|Di= 0]

= δATT+ E[Yi(0)|Di= 1] − E[Yi(0)|Di= 0]

となり、E[Yi(1)|Di= 1] − E[Yi(0)|Di= 0]がδATTと一致しないためである。この時、右辺の

最後に表れるE[Yi(0)|Di= 1] − E[Yi(0)|Di= 0]は、処置群と対照群がともに処置を受けなか った場合の潜在的な従属変数の値の差であり、セレクション・バイアスによる影響である5 セレクション・バイアスが存在しない時、すなわち、 E[Yi(0)|Di= 1] − E[Yi(0)|Di= 0] = 0 が成り立つ場合にのみ、δATTはデータから一致性をもって推定することが可能となる。実 験データではない観察データにおいてこれが可能となるための条件について、これまで 様々な研究が行われてきた。その結果として、δATEの推定については、次のような仮定が 成り立てば十分であることが明らかにされている。 {Yi(1), Yi(0)} ⊥ Di|Xi 0 < P(Di|Xi) < 1 (7) (8) なお、δATEではなく、δATTに関心がある場合には、(7),(8)よりも弱い仮定である、 5 ここでは、処置効果の個人間の異質性は存在しないことを仮定している。処置効果の個 人間の異質性が存在する場合には、処置群と対照群における処置効果の差によるバイアス がさらに生じ得る(Brand and Xie 2010: 283)。

(7)

Yi(0) ⊥ Di|Xi

P(Di|Xi) < 1

が成り立てば十分である。

Rosenbaum and Rubin(1983)は、式(7),(8)の 2 つの仮定をあわせて、「強く無視できる 処置変数の割り当て(strongly ignorable treatment assignment)」の仮定と呼んでいる。 すなわち、観察される共変量Xを条件付けた際に、処置変数の割り当てと潜在的な従属変 数が独立となればよいというのである。 しかし、上記のような仮定が成り立つ場合にも、共変量Xの数が多い場合には、すべて の共変量を条件付けるのは現実的ではない。なぜならば、共変量の数が多くなることによ って、ある処置群の個人と同一の共変量の値を持つ対照群の個人を見つけ出すことが困難 になるためである。例えば離散変数の場合にはクロス表分析を思い浮かべればわかるよう に、統制変数を追加すればするほど、空白に近いセルが増え、信頼性のある分析が困難と なってしまう。これはしばしば、「次元の呪い(curse of dimensionality)」と呼ばれる問題 である。次に述べる傾向スコアによる分析方法は、このような問題に対処するために発展 させられてきた。 (2)傾向スコアとその推定

Rosenbaum and Rubin(1983)は、P(Di|Xi)を傾向スコアと定義した。すなわち、観察さ

れる共変量を条件付けた場合の、処置変数の確率である。そして、{Yi(1), Yi(0)} ⊥ Di|Xiが 成り立つ場合には、{Yi(1), Yi(0)} ⊥ Di| P(Di|Xi)も同様にして成り立つことを証明している。 strong ignorability が成り立つ場合には、傾向スコアを条件付ければ、処置変数の割り当 てと潜在的な従属変数が独立となるのである。 実際の分析においては、傾向スコアはあらかじめ明らかではないので、データから推定 することが必要になる。すなわち、傾向スコアをデータからモデル化することが必要であ るが、処置変数が2 値である場合には、ロジット・モデルやプロビット・モデルが通常用 いられる。 傾向スコアを推定した後は、その分布を処置群と対照群でバランスさせる必要がある。 その方法の1 つとしてよく用いられるのが、マッチングによるものである。傾向スコアに よるマッチング推定量の一般的な形式は、次のように表わされる。

(8)

ただし、上記のCP はコモンサポートを表し、処置群と対照群における傾向スコアのオ ーバーラップが存在する区間を意味する。傾向スコアによる因果効果の推定は、一般的な 最小二乗法を用いた回帰分析による推定と同様に、処置変数のセレクションが観察される 変数のみに依存していることを仮定している。すなわち、観察されない変数が処置変数と 従属変数の双方に影響している場合には、どちらの方法による推定でもバイアスが生じて しまう。 しかし、傾向スコアマッチングによる推定値は回帰分析によるそれよりも、2 つの利点 が存在する (Brand and Halaby 2006: 757)。第一に、マッチングによる推定値は、線型性 の仮定を要求しないということである。OLS では変数のセレクションが線型に起きている ことが仮定されるが、これが妥当であるという保証は通常は存在しない。マッチングは観 察される変数のみにセレクションが依存していることは仮定するが、線型的なセレクショ ンを仮定しないのである。第二に、マッチングにおいては処置群と対照群の比較は、通常 は共変量のオーバーラップが存在する区間にのみ限られる。これに対してOLS による推 定値は、共変量のオーバーラップが存在していなくとも、処置群と対照群に属する個人の どちらかが存在すれば用いられる。すなわち、OLS による推定値は、しばしば直接に比較 可能でないサンプルどうしを分析に含めているのである。 (3)様々なマッチング法 マッチングの方法は様々あるが、本稿ではnearest neighbor マッチング(NN マッチン グ)、radius マッチング、kernel マッチングの 3 種類を用いる。一般的に、それぞれのマ ッチング法にはバイアスと分散のトレードオフが存在する。すなわち、推定値のバイアス をより減らそうとすると、推定値の分散は逆に増大することが知られている6 NN マッチングは、傾向スコアが最も近い対照群の個人が、マッチングのパートナーと して選ばれる。この際、一度用いられた対照群の個人をマッチングにもう一度用いるかど うか(replacement)の区別がある。replacement を行うかどうかについても、推定値のバイ アスと分散のトレードオフが存在するとされる。replacement を行う場合には、より多く のマッチングを考慮するために分散が小さくなる一方で、傾向スコアの値が離れたマッチ ングも行うためである。本稿では、replacement を行った NN マッチングによる推定値を

6 Black and Smith(2004)は、leave-one-out cross validation という方法によって、データ にもっとも適合するマッチング推定量を選択している。これは、対照群のサンプルの中か ら1 つのサンプルを落としてYj(0)を計算し、これを対照群のサンプルすべてに繰り返すこ

(9)

示す。 NN マッチングは、比較に用いる対照サンプルの傾向スコアの値が大きく離れている場 合に、質の低いマッチングをもたらしてしまう。これを避けるために、マッチングを行う 傾向スコアの距離に上限(caliper)を設けるという方法がある。radius マッチングはこの caliper の範囲内に含まれるすべての対照群の個人をマッチングに用いるという方法であ る。

kernel マッチングは、kernel function を用いて、反実仮想的な従属変数を構築すると いうものである。kernel matching は、対照群のほぼすべてのケースを用いるため、上記 の2 つのマッチング法よりも、小さな分散をもたらすとされている。Smith and Todd(2005) によれば、kernel matching は、kernel function を用いた従属変数から切片への重み付け 回帰分析と見ることができ、この時の推定された切片が反実仮想的な従属変数の平均の推 定値を与えるという。 (4)共変量がバランスされたかどうかの確認 上述のように、傾向スコアによるマッチングの目的は、処置群と対処群のサンプルのそ れぞれの比較可能性を高めることである。この目的が達成されたかどうかを確かめるため に、マッチングの前後において、2 つのグループのそれぞれの共変量の差がどれほど縮ま ったかのチェックがしばしば行われる7。その際には、下記で示されるstandardized bias に注目がなされることが多い8 SBbefore= 100 × X̅T− X̅C √0.5 × (VT(X) + VC(X)) SBafter= 100 × X̅TM− X̅CM √0.5 × (VTM(X) + VCM(X)) マッチング後のstandardized bias が 3%ないし 5%以下になっていれば、多くの研究で 7 マッチングを行った後にはサンプル中における傾向スコアの推定に用いた共変量が、処 置群と対照群でバランスされているかどうかのチェックは重要であるとされている。しか し、Austin(2008)は 1996 年から 2003 年の間に出版された 47 本の医学系論文をレビュー し、適切な共変量のバランスチェックを行っているのはわずか2 本だけであると述べてい る。

8 Imai, King, and Stuart(2008)は、共変量がバランスされているかどうかは母集団ではな くサンプルの性質なので、何かしらの仮想的な母集団に対する推論を行う統計的検定を用 いるのは誤りであるということと、バランスのチェックに用いられる統計量はサンプルサ イズに依存しないものがよいとしている。

(10)

は十分とされているという(Caliendo and Kopeing 2008: 48)。しかし、Imai, King, and Stuart(2008)のように、特定の基準を設けるべきではなく、処置群と対照群の共変量の差 はできる限り小さくされるべきだと主張する研究も存在する。 (5)感度分析(sensitivity analysis) 上述のように傾向スコアによるマッチング推定は、strong ignorability の仮定に基づい ている。すなわち、傾向スコアによるマッチング推定は、処置変数の割り当てが観察され る変数のみに依存していることを仮定している。もし、観察されない要因U が、処置変数 と従属変数の両方に影響している場合、「隠れたバイアス(hidden bias)」が生じてしまう。 もし観察されない変数が処置変数の割り当てに影響している場合、処置群と対照群におけ る従属変数の値の差は、因果効果としての解釈を有しない可能性があるのである9strong ignorability の仮定が成り立っているかどうかを、直接的にデータから検証する方法は存 在しないが、推定値が観察されない変数による交絡に対してどれだけ頑健であるかを検証 する、感度分析という方法がある(Rosenbaum 2002)10 まず、処置変数T について、観察される変数 X だけを統制しただけでは、従属変数への 割り当てが独立にはならないが、観察されない要因U も統制すれば、独立となるという仮 定を行う。この時、処置変数への割り当て確率を次のように考える。 Pi= P(Xi, Ui) = P(Di= 1|Xi, Ui) = F(βXi+ γUi) (10) ここでβは観察される要因の、γは観察されない要因の割り当て確率への影響である。次 に、マッチングされた個人i と j のペアのそれぞれについて、処置を受けるオッズは、Pi/(1 − Pi)と、Pj/(1 − Pj)である。F にロジスティック分布を仮定すると、オッズ比は下記のように なる。 9 観察されない変数が処置変数の割り当てに影響している場合に、因果効果を推定する 1 つの方法は、操作変数を用いることである。しかし、操作変数による推定が因果効果とし ての解釈を有しうるには、exclusion restriction や monotonicity assumption など(Angrist, Imbens, and Rubin 1996)の傾向スコアと同様に強い仮定が求められたり、あるいは操作 変数と処置変数が弱い相関しか持たないweak instrument(Bound, Jaeger, and Baker 1995)の問題を克服したりする必要があるという問題がある。これらが妥当に満たされる 状況は多くはない。

10 感度分析について他に解説や応用としては、Harding(2003), DiPrete and Gangl(2004), Becker and Caliendo(2007)などがある。

(11)

Pi/(1 − Pi) Pj/(1 − Pj)= Pi/(1 − Pj) Pj/(1 − Pi)= exp(βXi+ γUi) exp(βXj+ γUj) ここでマッチングが十分であれば、それぞれの個人は同一の観察される要因を持つこと になるため、上式のX は打ち消されることになる。 exp(βXi+ γUi)

exp(βXj+ γUj)= exp {γ(Ui− Uj)}

すなわち、マッチングされたペアが同一の観察される要因を持っていたとしても、なお 観察されない要因の差によって、両者の処置変数の割り当て確率が異なってしまう。そこ で、この観察されない要因の大きさを変えていった場合に、推定値の信頼区間がどのよう に変わるかを検証するのが、感度分析の方法である。もし、観察されない要因を相当に大 きくしても、なお推定値の信頼区間がゼロを含まない場合には、それは因果効果として頑 健であると判断するのである。

3.データと方法

本稿で使用するデータは、東京大学社会科学研究所が実施している「働き方とライフス タイルの変化に関する全国調査」のうち、若年・壮年パネル調査のWave1 と Wave3 であ る。本データは2007 年時点(Wave1)で 20 歳から 40 歳である全国の男女が母集団とされ ている。本調査はパネル調査として設計されているが、本稿の分析はパネルデータの特性 を活かした分析ではない。 Wave1 時点で教育年数が確定しているサンプルのみを用いると、年少のコーホートで大 学以上の学歴を持つサンプルが落ちてしまうという問題がある。そこで、最終的な教育年 数がほぼ確定していると思われる、Wave1 時点で 1982 年生まれ以上のサンプルに限った 分析を行う。 教育達成として用いる従属変数は2 つである。1 つは、中学 3 年時の成績である。「下の 方」=1 から「上の方」=5 となるような 5 件法の変数である。もう 1 つは、教育年数であ る。最終学歴から次のような連続的な教育年数に変換した。すなわち、「中学」=9、「高 校」=12、「短大・高専・専門」=14、「大学」=16、「大学院」=18 である。 処置変数については、Wave3 で尋ねられている、「15 歳の頃、朝食を食べることについ て」、「1.いつもしていた」、「2.だいたいしていた」、「3.したりしなかったり」、「4.あまりし なかった」、「5.全然しなかった」を尋ねた 5 点尺度の質問を用いる。

(12)

傾向スコアを二項ロジットモデルによって簡便に推定するためには、処置変数を二値化 する必要がある11。表1 に見られるように、15 歳時の朝食習慣についての変数の分布は、 「1.いつもしていた」に偏っている。よって、十分な対照群を確保するために、処置変数 については、「1.いつもしていた」のみを 1 とし、他を 0 とする二値変数とした。この朝食 摂取習慣の質問は、15 歳時のことについて回顧的に尋ねているため、測定誤差が伴ってい る可能性が考えられる。独立変数の測定誤差はそれがランダムなものであれば、係数の絶 対値を小さくする方向に影響するため、その場合には以下で推定する効果は実際にはより 大きいものとなる。すなわち、推定される効果はより保守的なものだということである。 傾向スコアの推定に含める共変量は、「性別、生年、父親・母親学歴、15 歳時の暮らし 向き、15 歳時に家にあった本の数、15 歳時に家にあったもの、父親の子育て態度、父親・ 母親の雇用形態、父親・母親の職業大分類、父親・母親の役職、父親・母親の企業規模、 小学校・中学校時の習い事(塾・予備校に行っていた、家庭教師についていた、通信添削を やっていた)、中学生時の経験(授業をさぼった、学校でタバコを吸った、教師に暴力をふ るった)、中学校の雰囲気(学校が荒れていた、遅刻者が多かった、校則が厳しかった)」と した。また、分析においては非線型的な関係を考慮し、すべての変数はダミー変数化して 投入している。これにより、推定される因果効果のバイアスはより小さくなることが期待 されるが、一方で推定値の分散は大きくなる。共変量をより厳密に統制する代わりに、コ モンサポートを減少させてしまうためである。 以上の枠組みにより、処置群への平均因果効果ATT を推定する。また、朝食習慣による 有意な効果が確認された場合には、それがどの程度に観察されない要因に左右され得るの か、感度分析を行う12

11 処置変数を二値以上に拡張する場合については、Imai and van Dyk(2004)、Hirano and Imbens(2004)などによって傾向スコアの一般化が提案されている。また、Bia and Mattei(2008)は、Stata によるこの推定の方法として、gpscore コマンドを紹介している。 12 推定にあたっては、統計ソフト Stata の統計ソフト Stata の psmatch2 コマンドを用 いた。他のコマンドとしては、psmatch,nnmatch,atnd などが開発されている。また、 感度分析にあたっては rbounds コマンドを用いた。 いつも だいたい したりしな あまり 全然 していた していた かったり しなかった しなかった N 男性 62.4 15.5 10.6 6.5 5.0 1027 女性 76.7 11.4 7.0 4.0 1.0 1264 注:後の分析に使用するサンプル中での分布 表1 1 5 歳時の朝食習慣の分布(% )

(13)

4.分析

(1)傾向スコアの推定とバランスのチェック 次の表2 は、処置群と対照群における共変量について、マッチング前後でどれだけバイ アスが減少したかを示したものであるここではkernel マッチングによる結果のみを示す。 まず、男性については、マッチング前には処置群と対照群で平均して8.0%存在した先行 変数のバイアスが、マッチング後には 4.2%まで減少した。カイ 2 乗値に着目した場合で も、2 群の差は統計的に有意ではなくなっている。 女性については、マッチング前には処置群と対照群で平均して7.2%存在した共変量のバ イアスが 4.5%まで減少した。減少の割合に注目すると、男性よりも小さく、またカイ 2 乗値に注目した場合でも、まだ統計的に有意と言える差が残っている。しかし、先行研究 ではバイアスが 5%以下となっていればよいと指摘するものもあり、おおむね傾向スコア の推定はうまくいっていると考えることができるだろう。 次に、下の図は処置群と対照群における傾向スコアの分布を示したものである。傾向ス コアのもっとも右端では、処置群のサンプルしか存在していない。また、左端の方ではゼ ロではないものの、処置群が少なくなっている。上述したように、共変量のオーバーラッ プが存在する比較のみを行えるのが、傾向スコアマッチングによる分析の強みの1 つであ る。

mean bias(%) median bias(%) p>chi2

男性 マッチング前 8.0 6.5 0.000

マッチング後 4.2 3.3 0.115

女性 マッチング前 7.2 5.7 0.000

マッチング後 4.5 4.0 0.000

(14)
(15)

時t 値はモデル 1 よりも小さくなり、4.89 となっているものの、なお 2 を大きく超えてい る。

モデル3 は、NN マッチングによる推定結果である。OLS によるモデル 2 に比べ、ATT、 標準誤差ともに大きく推定されている。t 値は 3.72 であり、モデル 2 よりは小さくなって いる。モデル4 は、Radius matching による推定結果である。radius マッチングは一定 の傾向スコアの範囲であるcaliper の中にないケースはマッチングに用いないため、処置 群のケースがモデル3 よりもやや少なくなっている。ATT は NN マッチングによるモデ ル3 よりもやや小さく、標準誤差もやや小さくなっている。モデル 5 は、kernel マッチ ングによる推定結果である。モデル4 よりも ATT、標準誤差ともに小さくなっており、t 値はモデル3,4 よりも大きくなっている。 以上より、OLS・マッチングのいずれも単純推定値のバイアスを減少させることが示さ れた。また、マッチングによる推定値は総じてOLS よりも ATT・標準誤差の双方をより 大きく推定している。しかし、モデル1 から 5 のいずれにおいても、t 値は 2 を大きく超 えており、朝食習慣による中3 時成績への影響が統計的に有意なものであることが確認さ れた。 次に、表4 は女性の中 3 時成績の推定結果を示している。モデル 1 は表 3 と同様に、先 行変数を考慮しない単純推定値である。男性の場合よりも推定値は小さいものの0.438 で あり、t 値は 6.12 を示している。モデル 2 は OLS により先行変数を統制した場合の推定 結果である。モデル1 より ATT は小さくなっており、30.4%(=(0.438-0.305)/0.305*100) 減少した。 モデル3 から 5 はマッチングによる推定値である。男性の場合と同様に、マッチングの 推定値はOLS に比べて ATT が大きくなり、標準誤差も大きくなる傾向が見られる。しか し、男性の場合と比べると、OLS との ATT の差は小さくなっている。 これまでは、15 歳時の朝食習慣を処置変数とし、中 3 時の成績を従属変数とした。次に、

ATT S.E. T-stat Treated N Untreated N

モデル1(Naive) 0.438 0.072 6.12 969 295 モデル2(OLS) 0.305 0.072 4.24 973 296 モデル3(NN) 0.313 0.102 3.08 942 295 モデル4(Radius) 0.326 0.085 3.84 942 295 モデル5(Kernel) 0.320 0.082 3.92 942 295 注1:モデル3-5は、common supportに含まれるサンプルのみを用いている。 注2:NN matchingにおいては、neighborの数は1とし、replacementをありとした。 注3:Radius matchingにおいては、caliperの値は0.01に設定した。

注4:Kernel matchingにおいては、Gaussian kernelを用い、bandwidthは0.05に設定した。 表4 朝食習慣の中3 時成績へAT T の推定値(女性)

(16)

教育年数を従属変数とした推定結果を示す。 表5 は、男性について従属変数に教育年数を用いた場合の推定結果である。モデル 1 は 単純推定値であり、1.170 が得られた。すなわち、朝食習慣があったことによって、処置 群における教育年数は平均して1.170 年高くなっている。モデル 2 は OLS により先行変 数を統制した結果である。結果は0.768 であり、モデル 1 よりもかなり小さくなっている。 しかし、t 値は 5.86 と大きくなっている。 モデル3 から 5 はマッチングによる推定値である。NN マッチングによる推定値が最も 小さく、また標準誤差もNN マッチングによるものが最も大きく推定された。しかし、い ずれのモデルにおいてもt 値は 2 を大きく超えており、統計的に有意な結果が確認された。 表6 は女性について、教育年数を従属変数に用いた場合の推定結果である。これまでと 同様にして、モデル1 は単純推定値であり、0.464 を示している。すなわち、15 歳時の朝 食習慣があったことによって、処置群の教育年数は平均して0.464 年高くなっている。モ デル2 は OLS の推定結果であり、係数は 0.280 が得られた。t 値は 2.80 である。 モデル3 から 5 は、マッチングによる推定結果である。興味深いことに、これまでとは

ATT S.E. T-stat Treated N Untreated N

モデル1(Naive) 1.170 0.136 8.59 641 386 モデル2(OLS) 0.768 0.131 5.86 647 386 モデル3(NN) 0.808 0.230 3.51 640 386 モデル4(Radius) 0.912 0.183 4.98 625 386 モデル5(Kernel) 0.926 0.167 5.54 640 386 注1:モデル3-5は、common supportに含まれるサンプルのみを用いている。 注2:NN matchingにおいては、neighborの数は1とし、replacementをありとした。 注3:Radius matchingにおいては、caliperの値は0.01に設定した。

注4:Kernel matchingにおいては、Gaussian kernelを用い、bandwidthは0.05に設定した。 表5 朝食習慣の教育年数へAT T の推定値(男性)

ATT S.E. T-stat Treated N Untreated N

モデル1(Naive) 0.464 0.109 4.25 969 295 モデル2(OLS) 0.280 0.100 2.80 973 295 モデル3(NN) 0.214 0.156 1.37 942 295 モデル4(Radius) 0.180 0.132 1.36 942 295 モデル5(Kernel) 0.209 0.129 1.63 942 295 注1:モデル3-5は、common supportに含まれるサンプルのみを用いている。 注2:NN matchingにおいては、neighborの数は1とし、replacementをありとした。 注3:Radius matchingにおいては、caliperの値は0.01に設定した。

注4:Kernel matchingにおいては、Gaussian kernelを用い、bandwidthは0.05に設定した。 表6 朝食習慣の教育年数へAT T の推定値(女性)

(17)

異なり、OLS よりもマッチングによる ATT の推定値の方がいずれも小さくなっている。 標準誤差はこれまで通り、マッチングの方が大きい。結果として、モデル3 から 5 はいず れもt 値は 2 を下回っている。すなわち、マッチングによる推定値では、女性における朝 食習慣の教育年数への効果は統計的に有意ではないということが確認された。 以上の結果をまとめると、次のようになる。中3 時成績に対しては、朝食習慣は男女い ずれにおいても正の有意な効果が確認されたが、教育年数に対しては男性のみで正の有意 な効果が見られた。 (3)感度分析の結果 上述したように、傾向スコアによるマッチングの推定値は、strong ignorability の仮定 の下で、平均因果効果としての意味を持つ。すなわち、観察されない要因が処置変数に影 響を与えていた場合には、推定値はバイアスのかかったものになる。しかし、strong ignorability は成立しているかどうかがデータから検証が不可能であり、またしばしば強 い仮定である。よって、次に感度分析による観察されない要因に対する頑健性を検証する。 表7 は、それぞれ正に有意な朝食習慣の効果が見られた、男性における中 3 時成績・教 育年数を従属変数とした場合の、radius マッチングを用いた結果に対する感度分析の結果 である。まず、中3 時成績に対する結果である。式(10)におけるγ、すなわち処置群への 割り当てに観察されない要因が与える影響の大きさを変えていった場合に、ATT の 95% 信頼区間がどのように変化するかが示されている。γが1.8 から 1.9 に変わった際に、95% γ γ 1 0.369 0.585 1 0.750 1.137 1.1 0.313 0.643 1.1 0.650 1.250 1.2 0.257 0.694 1.2 0.563 1.342 1.3 0.214 0.744 1.3 0.489 1.418 1.4 0.168 0.786 1.4 0.411 1.500 1.5 0.129 0.823 1.5 0.345 1.583 1.6 0.090 0.861 1.6 0.284 1.650 1.7 0.053 0.893 1.7 0.231 1.719 1.8 0.017 0.929 1.8 0.175 1.765 1.9 -0.008 0.957 1.9 0.125 1.821 2 -0.044 0.993 2 0.075 1.875 2.1 -0.071 1.014 2.1 0.030 1.917 2.2 -0.100 1.042 2.2 -0.015 1.965 2.3 -0.129 1.063 2.3 -0.063 2.000 2.4 -0.150 1.089 2.4 -0.103 2.042 2.5 -0.177 1.112 2.5 -0.143 2.083 95% CI 95% CI 表7 感度分析の結果 教育年数(男性・Radius) 中3時成績(男性・Radius)

(18)

信頼区間がマイナスの値を含むようになっていることが分かる。すなわち、観察されない 要因U が処置群への割り当てのオッズ比に 1.9 以上の大きさで影響している際には、観察 された朝食習慣のATT について、帰無仮説は棄却できないということを意味する。この大 きさについて判断する方法として、他の共変量が処置変数への割り当てに与える影響との 比較がしばしばなされる。例えば、傾向スコアの推定に用いた母親学歴について、中卒に 対する大卒の処置変数への割り当てのオッズ比は、1.22 であった(結果の表は省略)。上記 の1.9 というのはこれよりもかなり大きい。 表7 の右側は、教育年数を従属変数とした場合の結果である。同様にして、95%信頼区 間がマイナスの推定値を含むγの大きさを確認すると、2.1 から 2.2 の間ということにな る。すなわち、中3 時成績を従属変数とした場合よりも、教育年数の方が観察されない要 因に対しては頑健な結果であるということが言える。また、いずれにせよ、処置群への割 り当てのオッズ比が1.9 以上というのは大きな影響であり、朝食習慣の教育達成への因果 効果は観察されない要因が存在してもなお、統計的に有意なものであると判断される。

5.結論

本稿では、傾向スコアによるマッチングを用いて、朝食摂取習慣が教育達成に与える因 果効果の検証を行った。分析の結果、男性の中3 時成績、教育年数、女性の中 3 時成績に 対して、朝食摂取習慣の有意なプラスの影響が確認された。また、男性の中3 時成績と教 育年数については、感度分析を用いて観察されない変数の影響を考慮してもその効果は大 きいものだった。すなわち、朝食摂取習慣と教育達成の双方に対して影響している、観察 されない要因があるとすれば、その影響は分析で含められた社会階層の変数よりも処置変 数に対して大きな影響を及ぼしていなければならない。 朝食摂取習慣による教育達成への独自の影響が頑健に存在することが示唆されたが、朝 食摂取の習慣が子どもの健康状態を通じて教育達成に影響するのか、あるいは朝食摂取が 教育達成に望ましい他の行動を誘発するような身体化された文化資本として働くのかなど、 そのメカニズムについては本研究からは十分に明らかにすることができないという問題点 は残る。Moffitt(2005)で指摘されるように、本稿で述べた因果効果分析の枠組みにおいて は処置変数の従属変数への影響は外生的と見なされており、仮に何らかの媒介メカニズム が存在していたとしても、reduced-form による推定しかできないためである。 この課題を乗り越える方法としては、1 つには本稿で用いた潜在結果モデルにおいて媒 介変数を取り入れるアプローチが考えられる。そのような試みとしては、Imai, Keele, and Yamamoto(2010)や Hong and Nomi(2012)などが挙げられる。もし、朝食摂取習慣とその 後の教育達成の間の関係を、学力の向上がどれだけ媒介しており、それによって説明され

(19)

ない朝食摂取習慣の「直接効果」がどれだけ存在しているのかを明らかにすることができ れば、朝食摂取による認知的な成長への効果と、教育達成へのそれ以外の望ましい振る舞 いへの影響(例えば、教師からの好ましい評価)を分離することができるかもしれない。

あるいは、因果効果の異質性(Brand and Xie 2010 など)に注目するという可能性が考え られる。すなわち、朝食摂取をしやすい層(傾向スコアの値が大きい層)と朝食摂取をしに くい層(傾向スコアの値が小さい層)で、因果効果の大きさが異なる場合に、因果メカニズ ムを明らかにする可能性が得られる場合がある。例えば、朝食摂取をしやすい層において 朝食を摂取しなかった場合の教育達成への負の影響が大きいというような関係が見られた 際に、それは社会経済的に恵まれた層の中での相対的剥奪や、教師からのスティグマを与 えられるためだというようなメカニズムが想定できるかもしれない13 また、本研究の対象では上述したSUTVA の条件、すなわち潜在的な従属変数が処置変 数の割り当てメカニズムに依存しないという仮定が厳密には成り立たない可能性にも注意 すべきである。処置変数である朝食摂取については、ある個人が朝食を摂取するかどうか が、それ以外の人々の朝食の摂取に影響されることはあまりないかもしれない。すなわち 処置変数の割り当ての独立性が担保される可能性は高い。しかしながら、従属変数である 中学校における校内成績とは他の人々との位置関係で決まる相対的な評価であるし、最終 学歴は他の個人との競争が存在する。ゆえに、他の個人が朝食摂取の習慣を持つことが、 ある個人の潜在的な従属変数に影響しうるのである。この仮定の妥当性の度合いによって、 推定された因果効果は一般的な解釈を持ち得なくなる14 以上のような問題点は残るものの、本研究で示した分析枠組みと朝食摂取習慣の効果の 大きさは、この分野の研究に対して一定の貢献を行えたものと考えられる。

引用文献

Angrist, Joshua D., Guido W. Imbens, and Donald B. Rubin, 1996, "Identification of Causal Effects Using Instrumental Variables," Journal of the American Statistical Association, 91(434): 444-55.

Austin, Peter C., 2007, "A Critical Appraisal of Propensity-Score Matching in the Medical Literature between 1996 and 2003," Statistics in Medicine, 27(12):

13 ただし、Rosenbaum and Rubin(1984)で提唱されている、傾向スコアの層別に因果効 果の大きさを検討した予備的な分析を用いた結果、大きな差異は見られなかった。 14 このように SUTVA が因果効果の推定に要求されることが、政策評価の問題を困難にさ せる。すなわち、ある政策による介入を行うことは処置変数の割り当てを変更するという ことであり、それによって個人の潜在的な従属変数の値が変わってしまうかもしれないか らである。潜在結果モデルの下における政策評価の問題についてはHeckman(2005)など を参照されたい。

(20)

2037-49.

Becker, Sascha O. and Andrea Ichino, 2002, "Estimation of Average Treatment Effects Based on Propensity Scores," Stata Journal, 2(4): 358-77

Becker, Sascha O and Marco Caliendo, 2007, "Sensitivity Analysis for Average Treatment Effects," Stata Journal, 7(1): 71-83.

Bia and Mattei, 2008, "A Stata Package for the Estimation of the Dose-Response Function through Adjustment for the Generalized Propensity Score," Stata Journal 8(3): 354-73.

Black, Dan A. and Jeffrey A. Smith, 2004, "How Robust is the Evidence on the Effects of College Quality?: Evidence from Matching," Journal of Econometrics, 121(1-2): 99-124.

Bound, John, David A. Jaeger, and Regina M. Baker, 1995, "Problems with Instrumental Variables Estimation When the Correlation between the

Instruments and the Endogenous Explanatory Variable is Weak," Journal of the American Statistical Association, 90(430): 443-50.

Brand, Jennnie E. and Charles N. Halaby, 2006, "Regression and Matching Estimates of the Effects of Elite College Attendance on Educational and Career

Achievement," Social Science Research, 35(3): 749-70.

Brand, Jennnie E. and Yu Xie, 2010, "Who Benefits Most from College?: Evidence for Negative Selection in Heterogeneous Economic Returns to Higher Education,"

American Sociological Review, 75(2): 273-302.

Caliendo, Marco and Sabine Kopeing, 2008, "Some Practical Guidance for the Implementation of Propensity Score Matching," Journal of Economic Surveys,

22(1): 31-72.

DiPrete, Thomas A. and Markus Gangl, 2004, "Assessing Bias in the Estimation of Causal Effects: Rosenbaum Bounds on Matching Estimators and Instrumental Variables Estimation with Imperfect Instruments," Sociological Methodology,

34(1): 271-310.

Harding, David J., 2003, "Counterfactual Models of Neighborhood Effects: The Effect of Neighborhood Poverty on Dropping Out and Teenage Pregnancy," American Journal of Sociology, 109(3): 676-719.

Heckman, James J., 2005, "The Scientific Model of Causality," Sociological Methodology, 35(1): 1-97.

(21)

Treatments,” Andrew Gelman and Xiao-Li Meng eds., Applied Bayesian Modeling and Causal Inference from Incomplete-Data Perspectives, New York: Wiley, 73-84. Holland, Paul W., 1986, "Statistics and Causal Inference," Journal of the American

Statistical Association, 81(396): 945-60.

Hong, Guanglei and Stephen W. Raudenbush, 2008, "Causal Inference for

Time-Varying Instructional Treatments," Journal of Educational and Behavioral Statistics, 33(3): 333-62.

Hong, Guanglei and Takako Nomi, 2012, "Weighting Methods for Assessing Policy Effects Mediated by Peer Change," Journal of Research on Educational Effectiveness, 5(3): 261-89.

Imai, Kosuke, Luke Keele and Teppei Yamamoto, 2010, "Identification, Inference and Sensitivity Analysis for Causal Mediation Effects," Statistical Science, 25(1): 51-71.

石田浩,2012,「社会科学における因果推論の可能性」『理論と方法』27(1): 1-18. 苅谷剛彦・志水宏吉編,2004,『学力の社会学――調査が示す学力の変化と学習の課題』岩

波書店.

Moffitt, Robert, 2005, "Remarks on the Analysis of Causal Relationships in Population Research," Demography, 42(1): 91-108.

西本裕輝,2004,「学力の規定要因再考―中・高生調査に基づいた試行的分析」『人間科学』 13: 89-107.

Powell, Christine A., 1998, "Nutrition and Education: A Randomized Trial of the Effects of Breakfast in Rural Primary School Children," American Journal of Clinical Nutrition, 68(4): 873-9.

Rosenbaum, Paul R., 2002, Observational Studies 2nd ed., New York: Springer.

Rosenbaum, Paul R and Donald B. Rubin, 1983, "The Central Role of the Propensity Score in Observational Studies for Causal Effects," Biometrika, 70(1): 41-55. ――――, 1984, "Reducing Bias in Observational Studies Using Subclassification on the

Propensity Score," Journal of the American Statistical Association, 79(387): 516-24.

Rubin, Donald B., 1974, "Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies," Journal of Educational Psychology, 66(5): 688-701.] ――――, 1980, "Randomization Analysis of Experimental Data: The Fisher

Randomization Test Comment," Journal of the American Statistical Association,

(22)

Smith, Jeffrey A. and Petra E. Todd, 2005, "Does Matching Overcome LaLonde's Critique of Nonexperimental Estimators?," Journal of Econometrics, 125: 305-53. Sobel, Michael E., 2006, "What Do Randomized Studies of Housing Mobility

Demonstrate: Causal Inference in the Face of Interference," Journal of the American Statistical Association, 101(476): 1398-407.

東京大学社会科学研究所,2009,「『働き方とライフスタイルの変化に関する全国調査2009』 集計結果」(http://ssjda.iss.u-tokyo.ac.jp/panel/PR/09PressRelease.pdf).

Xie, Yu, 2013, "Population Heterogeneity and Causal Inference," Proceedings of the National Academy of Sciences of the United States of America, 110(16): 6262-8. Yamamoto, Yoko and Mary C. Brinton, 2010, "Cultural Capital in East Asian

(23)

東京大学社会科学研究所パネル調査プロジェクトについて

労働市場の構造変動、急激な少子高齢化、グローバル化の進展などにともない、日本社 会における就業、結婚、家族、教育、意識、ライフスタイルのあり方は大きく変化を遂げ ようとしている。これからの日本社会がどのような方向に進むのかを考える上で、現在生 じている変化がどのような原因によるものなのか、あるいはどこが変化してどこが変化し ていないのかを明確にすることはきわめて重要である。 本プロジェクトは、こうした問題をパネル調査の手法を用いることによって、実証的に 解明することを研究課題とするものである。このため社会科学研究所では、若年パネル調 査、壮年パネル調査、高卒パネル調査の3つのパネル調査を実施している。 本プロジェクトの推進にあたり、以下の資金提供を受けた。記して感謝したい。 文部科学省・独立行政法人日本学術振興会科学研究費補助金 基盤研究 S:2006 年度~2009 年度、2010 年度~2014 年度 厚生労働科学研究費補助金 政策科学推進研究:2004 年度~2006 年度 奨学寄付金 株式会社アウトソーシング(代表取締役社長・土井春彦、本社・静岡市):2006 年度 ~2008 年度

東京大学社会科学研究所パネル調査プロジェクト

ディスカッションペーパーシリーズについて

東京大学社会科学研究所パネル調査プロジェクトディスカッションペーパーシリーズは、 東京大学社会科学研究所におけるパネル調査プロジェクト関連の研究成果を、速報性を重 視し暫定的にまとめたものである。

(24)

参照

関連したドキュメント

工学部の川西琢也助教授が「米 国におけるファカルティディベ ロップメントと遠隔地 学習の実 態」について,また医学系研究科

2 調査結果の概要 (1)学校給食実施状況調査 ア

①旧赤羽台東小学校の閉校 ●赤羽台東小学校は、区立学 校適正配置方針等により、赤 羽台西小学校に統合され、施

・学校教育法においては、上記の規定を踏まえ、義務教育の目標(第 21 条) 、小学 校の目的(第 29 条)及び目標(第 30 条)

ピアノの学習を取り入れる際に必ず提起される

小学校学習指導要領総則第1の3において、「学校における体育・健康に関する指導は、児

経済学研究科は、経済学の高等教育機関として研究者を

具体的な取組の 状況とその効果 に対する評価.