分位点回帰教育 OKUI, Ryo

(1)

平成²⁵年度ミクロ計量経済学講義ノート⁸ 分位点回帰

このノートでは、分位点回帰の手法を解説する。分位点回帰とは、被説明変数の、説明変数で条件づけた分布の分位点をモデル化し、推定するものである。なお、通常の回帰分析では、被説明変数の説明変数で条件づけた「期待値」が分析の対象となる。しかし、期待値を調べるだけでは、分析ができない問題もある。分位点回帰を行うことで、より詳細な説明変数と被説明変数の関係を得ることができるため、近年では分位点回帰の利用は盛んになってきている。また、期待値は、異常値に影響されやすいが、分位点回帰は異常値に対して頑健であるため、異常値のあるデータで、その影響を避けるために分位点回帰を使用することもある。分位点回帰について基本的な内容は、Koenker (2005)にまとめられている。

8.1 _{分位点回帰}

線形回帰式y = β^′x + ϵを考える。しかし、通常の仮定である_{E(ϵ|x) = 0}の代わりに、 quantα

| {z }

α−分位点

(ϵ|x) = 0, ⁽¹⁾

つまり、F_ϵ|xをϵのxで条件づけた条件付き分布として、

F_ϵ|x(0) = α (2)

を仮定する。yの分位点で表現すると、上のモデルでは、quantα_{(y|x) = β}^′xとなる。たとえば、メディアン回帰では、med(ϵ|x) = quant0.5(ϵ|x) = 0^{、あるいは}med(y|x) = β^′^x^となる。

• 分位点処置効果の解釈には注意が必要である。処置の前後での同じ水準での分位点の違いを計測しているに過ぎない。これは、ある分位点にいた個人がどれほどの処置効果を得たかを示すものでは必ずしもない。もし、処置が結果の順位に影響を与えないなら、個人への処置効果という解釈もできる。

Lehmann-Doksum による分位点回帰の基礎付け ^{x = D}とし、説明変数が2項変数の

場合を考える。仮に、D = 1のとき、yの分布がGであり、D = 0になるとFになるとする。FとGの間には、次のように

F (y) = G(y + ∆(y)) (3)

という関係にあるとする。さて、このとき、

∆(y) = G⁻¹(F (y)) − y ⁽⁴⁾

である。さて、α = F (y)であるようなyにおける変化を考え、それをδ(α)と表記すると、上の式を変形して、

δ(α) = G⁻¹(F (y)) − y = G⁻¹(α) − F⁻¹^(α) ⁽⁵⁾ となる。これをDのαでの分位点処置効果という。

分位点処置効果と分位点回帰の関係は次のようになる。yのDで条件づけた分位点は、 quantα_{(y|D) = F}⁻¹(α)(1 − D) + G⁻¹^(α)D ⁽⁶⁾ とかける。これを書き換えると、

quant_α_{(y|D) = F}⁻¹(α) + (G⁻¹_{(α) − F}⁻¹(α))D = F⁻¹(α) + δ(α)D (7) となる。つまり、分位点回帰におけるDの係数が分位点処置効果であるδ(α)となる。分位点回帰は、上のDを連続で多変数の場合に自然に拡張したものと考えることができる。

(2)

8.2 _推定

分位点回帰の推定には、チェック関数と呼ばれる、次の

ρα(z) = α|z|{z > 0} + (1 − α)|z|{z ≤ 0} ⁽⁸⁾ という関数を用いた極値推定量を使用する。つまり、推定量は、

β = arg minˆ

β

1 n

∑n i=1

ρα(yi_{− β}^′xi) (9)

である。なお、ρα がチェック関数と呼ばれるのは、グラフがチェック印に似ているからである。

Figure 1: チェック関数

1-a/sqrt(a(1-a)) a/sqrt(a(1-a))

次の定理で、チェック関数の期待値が、分位点を最小詞として持つことを述べる。定理 ¹ ⁽チェック関数の性質).

yi= β + ϵ, quantα(ϵ) = 0 (10)

のとき、β = quantα(y)は、E(ρα_{(y − b))}の最小詞である。

証明. 次の二つのbの値を比べる。ひとつはβ = quantα(y)である。もう一つは、b < βとする。次を示す。

R₁ = E(ρα(y − β)) ≤ R2 ^{= E(ρ}α_{(y − b)).} (11)

そのために、次の展開を行う。

R₂_{− R}₁= − (1 − α)

∫ b

−∞((y − b) − (y − β))dF^y^{+ α}

∫ ∞

β ((y − b) − (y − β))dF^y ⁽¹²⁾ + α

∫ β

b ^{(y − b)dF}

y_{− (1 − α)}

∫ β

b ^{(y − β)dF}

y (13)

=(1 − α)(b − β)F^y(b) − α(b − β)(1 − F^y^(β)) ⁽¹⁴⁾

− α(b − β)(F^y(β) − F^y(b)) + (2α − 1)

∫ β

b ^{(y − β)dF}

y. (15)

(3)

Figure 2: チェック関数と分位点

1-a a

delta a

b1

b2

a

ここで、Fy(β) = αであるので、

R₂_{− R}₁ = (1 − α)(b − β)F^y(b) − α(b − β)(1 − α) ⁽¹⁶⁾

−α(b − β)(α − Fy(b)) + (2α − 1)

∫ β

b ^{(y − β)dF}

y ⁽¹⁷⁾

= −(b − β)(α − F^y(b)) + (2α − 1)

∫ β

b ^{(y − β)dF}

y (18)

= −(b − β)(α − F^y^{(b)) +}

∫ β

b ^{(y − β)dF}

y_{+ 2(α − 1)}

∫ β

b ^{(y − β)dF}

y. (19) ここで、b < βなので、

∫ β

b ^{(y − β)dF} y _≥

∫ β

b ^{(b − β)dF}

y = (b − β)(α − F^y^(b)) ⁽²⁰⁾ となり、また、1 > αであることから、

2(α − 1)

∫ β

b ^{(y − β)dF}

y _{≥ 0} (21)

である。したがって、

R2_{− R}1 _{≥ 0} (22)

となる。b > βの場合も同様に証明できる。

次に、分位点回帰の場合に、チェック関数を用いた推定ができることを見る。モデルは、 y = β₀^′x + ϵ かつquantα_{(ϵ|x) = 0}である。このとき、quantα_{(y|x) = β}₀^′xなので、明らかに、すべてのxについて、

arg min

β ^E(ρ^α^{(y − β}

′_{x)|x) = β}

0 ⁽²³⁾

である。従って、xの関数を適当にv(x)と取ると、

β₀ = arg min E(v(x)ρα_{(y − β}^′x)) (24)

(4)

となる。v(x) = 1を取る場合には、通常の分位点回帰の推定問題に対応する。上の式の自然な標本での対応は、

β = arg minˆ

β

1 n

∑n i=1

ρα(yi_{− x}^′_iβ) =通常の分位点回帰推定量 (25)

であろう。たとえば、α = 1/2であるなら、

β = arg minˆ

β

1 n

∑n i=1

|yⁱ− x^′iβ| ⁽²⁶⁾

となり、LAD (least absolute deviation)推定量となる。

8.3 _漸近理論

一致性極値推定量の理論をそのままあてはめて証明できる。つまり、推定の際の目的関数の極限の最小詞が真の母数となっているので、あとは、一様収束と最小詞が強い意味での最小詞であることを証明すればよい。

漸近分布 ^β^ˆの漸近分布の導出は、少し通常の漸近理論の適用はできない。問題点は、

Qn(β) = ¹ n

∑n i=1

|yⁱ− β^′^xⁱ| ⁽²⁷⁾

が(βの関数として)滑らかでないことである。

• xiがスカラーの時のQ_nの形状は、Figure 3にある。

Figure 3: 分位点回帰の目的関数

Q

beta

|y-x’beta|

x ^x

従って、滑らかでない目的関数の場合の漸近正規性の定理を使う。まず一般的な定理を述べる。Qn(θ) =^∑ⁿ_i=1g(xi; θ)/nを目的関数とし、θ^ˆn= arg max Qn(θ)とする。

定理 ² (van der Vaart (1998, Theorem 5.23)). ˆθ_nは一致性をもつと仮定する。以下の条件が満たされるとする。

1. g(xi; θ)はθ₀で、確率１で微分可能;

(5)

2. E [{∂g(xⁱ; θ)/∂θ}{∂g(xⁱ; θ)/∂θ}^′] ≡ S < ∞;

3. E{g(x; θ)} (θ^{の関数である}⁾^は^θ0のまわりで2次のテイラー展開をすることができる。つまり、

E{g(x; θ)} = E{g(x; θ⁰)} +¹₂(θ − θ⁰⁾^′ ^∂

2

∂θ∂θ^′^{E{g(x; θ}⁰^{)}(θ − θ}⁰) + o(||θ − θ⁰||); (28) 4. θ₀の近傍Nで、_∀θ1^{, θ}2∈ N^、

||g(x; θ1) − g(x; θ2)|| ≤ ρ(x)||θ1− θ2|| ⁽²⁹⁾ で、_E{|ρ(x)|²_{} < ∞ (}リプシッツの条件)、となるものが存在する。

5. ∂²_{E {g(x}i; θ0_{)} /∂θ∂θ}^′ _{≡ H} は正値定符号。このとき、

√n(ˆθn_{− θ}0) →d^{N (0, H}⁻¹^SH⁻¹⁾ ⁽³⁰⁾

となる。

証明は省略するが、証明のポイントは、Qnは滑らかではなくとも、Qは滑らかであると仮定することにより、Qnが滑らかな場合と同じように議論をすることができるということである。

上記の定理を用いて、分位点回帰推定量の漸近分布を求める。ここでは、α = 1/2の場合を考える。つまり、β^ˆがLAD推定量の場合である。この場合、

Q_n(β) = ¹ n

∑n i=1

|yi− x^′iβ| ⁽³¹⁾

となる。なお、他のαの値の場合も同様に議論できる。

まず、条件1については、ϵがメディアンの値を確率0で取るならば満たされることがわかる。また、条件2については、_∂β^∂ _{|y − x}^′β| = sign(y − x^′^β)x^{であるので、}^{S = E(xx}^′⁾ となる。条件4については、S = E(xx^′)が有界であれば満たされることがわかる。

条件3を確かめる。もともとの目的関数の代わりに、以下の関数を考える。

Q(β) = E(|yⁱ− x^′iβ| − |yⁱ− x^′i^β0|) = E



E(|yⁱ− x^′iβ| − |yⁱ− x^′i^β0||x)

| {z }

Qx(β)



 . ⁽³²⁾

すると、

Qx_{(β) = E(|y}i_{− x}^′_i_{β| − |y}i_{− x}^′_iβ₀||x) = E(|ϵ − x^′(β − β0)| − |ϵ||x). ⁽³³⁾ ここで、_{θ ≡ x}^′_{(β − β}0)と定義する。

Q_x(β) = E(|ϵ − θ| − |ϵ||x). ⁽³⁴⁾

(6)

一般性を失わずに、0 < θの場合を考える。

Qx(β) =

∫ ∞

−∞(|ϵ − θ| − |ϵ|)dFϵ|x ⁽³⁵⁾

=

∫ 0

−∞

θdF_ϵ|x+

∫ θ

0 ^{(θ − 2ϵ)dF}^ϵ|x

+

∫ ∞

θ ^−θdF^ϵ|x

(36)

= θF_ϵ|x(0) + θ(F_ϵ|x_{(θ) − F}_ϵ|x_{(0)) − 2}

∫ θ 0

ϵdF_ϵ|x_{− θ(1 − F}_ϵ|x(θ)) (37)

= 2θF_ϵ|x_{(θ) − 2}

∫ θ 0

ϵdF_ϵ|x_{− θ} (38)

= 2

∫ θ 0

dϵF_ϵ|x(ϵ) dϵ ^{dϵ − 2}

∫ θ 0

ϵdF_ϵ|x_{− θ} (39)

= 2

∫ θ 0

F_ϵ|xdϵ + 2

∫ θ 0

ϵdF_ϵ|x_{− 2}

∫ θ 0

ϵdF_ϵ|x_{− θ} (40)

= 2

∫ θ 0

F_ϵ|x_{dϵ − θ} (41)

= 2

∫ x^′(β−β0) 0

F_ϵ|x_{dϵ − x}^′_{(β − β}0). (42)

この式から、“H”を計算することができる。

∂²

∂β∂β^′^{Q(β) =}

∂²

∂β∂β^′^E^x^(Q^x^{(β)) =}

∂²

∂β∂β^′^E (

2

∫ x^′(β−β⁰) 0

F_ϵ|x_{dϵ − x}^′_{(β − β}₀) )

(43)

= E ( ∂²

∂β∂β^′²

∫ x^′(β−β⁰) 0

F_ϵ|xdϵ )

(44)

= E^{( ∂}

∂β^2F^ϵ|x^(x

′_{(β − β} 0^))x^′

)

(45)

= 2E⁽f_ϵ|x(x^′_{(β − β}0))xx^′⁾ (46)

と計算できる。したがって、β₀で

∂²

∂β∂β^′^{Q(β) = 2E}

(f_ϵ|x(0)xx^′⁾ (47)

となる。なお、条件5のためには、最後の行列は、有界で非特異であると仮定する。したがって、

√n( ˆ_{β − β}₀_{) →}_dN (0, V ) (48) であることを証明できた。なお、

V = ¹

4^E(f^ϵ|x^(0)xx

′₎−1_E(xx′_)E(f

ϵ|x^(0)xx^′⁾⁻¹ ⁽⁴⁹⁾

である。

• ^{詳しい解説は、}Pollard (1991)を見よ。

(7)

1. もし、f_ϵ|x(0) = fϵ(0)のように、xに依存しないことが仮定できるのであれば、 V = ¹

4 1

fϵ(0)²^E(xx

′₎−1 ₍₅₀₎

となる。これは、通常の回帰における分散均一の仮定に相当する。 2. α ̸= 1/2^{のときも、}

√n( ˆ_{β − β}₀_{) →}_dN (0, V ), (51) となるが、

V = α(1 − α)E(fϵ|x^(0)xx^′⁾⁻¹^E(xx^′^)E(fϵ|x^(0)xx^′⁾⁻¹ ⁽⁵²⁾

である。

8.4 _標準誤差

漸近分散V の推定はそれほど単純ではない。

一つの方法は、ノンパラメトリックカーネル法を使用することである。“分散均一”の場合は、

fˆ_ϵ(0) = ¹ nb

∑n i=1

K^{( ˆϵ}ⁱ^{− 0} b

)

(53)

として推定し、V の推定量を構築するとよい。“分散不均一に頑健”な漸近分散推定量としては、

E(f_ϵ|x(0)xx^′) = ¹ n

∑1 b^K

( ˆϵi− 0 b

)

xix^′_i (54)

を使うことができる。

他には、ブートストラップを使用することも考えられる。Hahn (1995)を見よ。しかし、分位点回帰の場合は、漸近精密化ができず、そのためには目的関数を滑らかにする必要があることも知られている。(Horowitz, 1998)を見よ。なお、目的関数を滑らかにする手法は、推定量の計算にも有用であることが知られている(Hitomi and Kagihara, 2001)。

8.5 補足: 分位点回帰の頑健性

(y₁, x₁), . . . , (yn, xn)というデータセットのもとで、 β = arg minˆ

∑n i=1

α|yⁱ− x^′iβ|1{yⁱ− x^′iβ > 0} + (1 − α)|yⁱ− x^′iβ|1{yⁱ− x^′iβ < 0} ⁽⁵⁵⁾

であるとする。ここで、yiをy^{N EW}_i で置き換える。ここで、y_i^{N EW} は次の条件を満たすように定義される。もし、yi_{− x}^′_iβ > 0^ˆ ならy_i^{N EW}_{− x}^′_iβ > 0^ˆ であり、逆にyi_{− x}^′_iβ < 0^ˆ なら、 y^{N EW}_i _{− x}^′_iβ < 0^ˆ とする。この時、

β = arg minˆ

∑n i=1

ρα(y^{N EW}_i _{− x}^′_iβ) (56)

となり、推定量は変化しない。

(8)

理由は、次のように説明できる。ただし、以下の説明は理論的には不十分であり、あくまでも概略を知るために大雑把に行っている。一次の条件をみると、

∑n i=1

[α(−xi)(1 − 1{yi− x^′iβ ≤ 0}) + (1 − α)xi¹{yi− x^′iβ ≤ 0}^] ⁽⁵⁷⁾

=

∑n i=1

[−α + 1{yⁱ− x^′iβ ≤ 0}^]^xⁱ ⁽⁵⁸⁾

となる。あるいは、

1 n

∑n i=1

(α − 1{yi− x^′iβ ≤ 0})x^ˆ i^{= 0} ⁽⁵⁹⁾

であるので、一次の条件変化がないのである。

References

[1] J. Hahn. Bootstrapping quantile regression estimators. Econometric Theory, 11(1):105–121, 1995.

[2] K. Hitomi and M. Kagihara. Calculation method for nonlinear dynamic least absolute devia- tions estimator. Journal of the Japan Statistical Society, 31(1):39–51, 2001.

[3] J. L. Horowitz. Bootstrap methods for median regression models. Econometrica, 66(6):1327– 1351, 1998.

[4] R. Koenker. Quantile Regression. Econometric Society Monographs. Cambridge University Press, 2005.

[5] D. Pollard. Asymptotics for least absolute deviation regression estimators. Econometric Theory, 7(2):186–199, 1991.

分位点回帰 教育 OKUI, Ryo

References

分位点回帰教育 OKUI, Ryo