統計学
ダミー変数による分析
担当: 長倉 大輔
ダミー変数
切片 (定数項) ダミー 以下の単回帰モデルを考えよう。これは賃金と就業年 数の関係を分析している。: (賃金関数) Yi = α + β Xi + ui , i =1,…, n, ui ~ i.i.d. N(0, σ2) ここで Yi : 賃金の対数値, Xi : 就業年数. (実際は賃金を就業年数だけで説明するのは現実的は ない。このモデルは、あくまでダミー変数をどのように使ダミー変数
切片 (定数項) ダミー 観測されたデータから、最小二乗法によって未知パラメー タの α と β を推定する事は難しくない。 しかしながら、就業年数が賃金に与える影響は、何らか の理由により、男性と女性で異なる可能性がある。 もしこの仮説が正しいのであれば、これはつまり、先ほど の回帰モデルにおいて、男性の場合と女性の場合で α と β の値が異なる事を意味している。ダミー変数
切片 (定数項) ダミー このような男女の違いを分析するために、以下の回帰モ デルを考えよう: Yi = α + αM DM,i + β Xi + ui , i =1,…, n, ここで DM,i は以下のような変数である。 ( i 番目の労働者のデータが男性の場合), ( i 番目の労働者のデータが女性の場合). 0 1 ,i M Dダミー変数
切片 (定数項) ダミー i 番目の労働者が女性だった場合、DM,i = 0 であるの で Yi は Yi = α + β Xi + ui によって決定される。切片の値は α である。 また、男性の場合は、DM,i = 1 であるから Yi は Yi = α + αM + β Xi + ui によって決定される。切片の値は α + αM である。ダミー変数
切片 (定数項) ダミー この 2 つの回帰モデルを比較すると、αM いうのはそれ ぞれ男性と女性の回帰モデルの切片の値の差である事 がわかる。 もし αM が正であれば、これは(就業年数の影響を除く と)男性の賃金の方が平均的に高い事を意味している。 負であれば逆の解釈になる。 以後この α を(賃金における)「男性効果」と呼ぶ事にしダミー変数
切片 (定数項) ダミー 先ほどのモデルにおいて、未知係数の α, αM, β は Yi = α + αM DM,i + β Xi + ui という回帰モデルの係数を最小二乗法で推定する事 により推定する事ができる。 またこの場合も、t 検定によって帰無仮説 H0: αM = 0 を通常通り検定することができる。この仮説は男性効 果が存在しないことを意味している。ダミー変数
係数ダミー 就業年数が賃金へ与える影響も男性と女性で違う可能 性がある。この場合賃金関数において就業年数の係数 である β の値が男性と女性で異なるという事になる。 もし、そうであるとするならば、この β における男性と女 性の違いはどのようにとらえることができるだろうか?ダミー変数
係数ダミー もし賃金関数において (α に加えて) β における男女の 違いも考慮したい場合は以下の回帰モデルを推定す ればよい: Yi = α + αM DM,i + (β + βM DM,i) Xi + ui , = α + αM DM,i + β Xi + βM DM,i Xi + ui, ここで DM,i は先ほどと同じである。 この回帰モデルにおいては、 βM の値が就業年数の影 響の男女間の違いを表している。このようにダミー変数 を入れることをしばしば係数ダミーを入れるという。ダミー変数
係数ダミー この場合もやはりこの回帰モデルの α, αM, β, および βM は最小二乗法で推定する事ができる。 この回帰モデルにおける説明変数は 1, DM,i , Xi , および DM,i Xi の 4 つある事に注意。 通常通り、t 検定で帰無仮説 H0: βM = 0 を検定する事もダミー変数
ダミー変数 例題 1: DF,i を i 番目の労働者が女性なら 1 , 男性なら 0 を取る ダミー変数としよう。以下の回帰モデルを考えよう: Yi = δ + δF DF,i + γXi + γFDF,i Xi + ui . このモデルにおける δ, δF, γ, および γF, を、先ほどの回 帰モデルの α, αM, β, および βM を用いて表しなさい。ダミー変数
2 つ以上のダミー変数 ここまではダミー変数は 1 つだけであったが、分析に よっては 2 つ以上のダミー変数が必要となる場合があ る。 例えば、賃金関数において、ブルーカラー(肉体労働系 の仕事)とホワイトカラー(事務系の仕事)の違いも考慮し たいとする。この場合は以下の回帰モデルを推定するダミー変数
2 つ以上のダミー変数 (以下では説明の簡単化のため、説明変数は定数だけ とする) : Yi = α + αM DM,i + αW DW,i + ui , i =1,…, n. ここで DW,i はもし i 番目の労働者がホワイトカラーなら 1 をとり、ブルーカラーなら 0 を取るダミー変数とする。 この回帰モデルは、労働者のカテゴリー(ダミー変数の 値)によって、以下の 4 つの回帰モデルになる:ダミー変数
2 つ以上のダミー変数 (ホワイトカラーで男性の場合; DW,i = 1, DM,i = 1) Yi = α + αM + αW + ui , (ブルーカラーで男性の場合; DW,i = 0, DM,i = 1) Yi = α + αM + ui , (ホワイトカラーで女性の場合; DW,i = 1, DM,i = 0) Yi = α + αW + ui ,ダミー変数
2 つ以上のダミー変数 これら 4 つの回帰モデルを比べると、αM は男女間の 違いを反映しており、αW はブルーカラーとホワイトカラー の違いを反映している事がわかる。 これら 2 つの値の解釈の仕方は先ほどのダミー変数が 1 つの時の解釈の仕方と同じである(すなわち、αM が 正であれば、男性であると女性より αM だけ賃金が高 い事を表すことになる)。ダミー変数
相互作用効果 上記の回帰モデルにおいて、αW は「ホワイトカラーであ る事の効果」を反映していたが、暗黙のうちに、この 「ホワイトカラーである事の効果」は男性の場合も女性 の場合も同じであると仮定していた。 しかしながら、(何らかの理由により)、この効果も男性と 女性で異なるかもしれない。ダミー変数
相互作用効果
このような違いを分析するには、以下の回帰モデルを考 えればよい:
Yi = α + αM DM,i + (αW + αWMDM,i) DW,i + ui ,
= α + αM DM,i + αW DW,i + αMW DM,i DW,i + ui .
この回帰モデルに(暗黙のうちに)含まれる 4 つの回帰モ デルは: