補論 - ノンパラメトリック・スムージング理論とその応用

ここでは、二変量モード・フォレストの作成の際に利用する、多次元カーネル推定量について記しておく¹⁸。 X₁, X₂, . . . , X_n, X_i ∈R^dが互いに独立で同一な分布F(x)に従うd次元確率変数であり、F(x)は密度関数 f(x)をもつと仮定する。確率変数の実現値をx₁, x₂, . . . , x_n, x_i ∈R^dとする。d次元カーネル密度推定量fˆ_H(x) は、以下のように定義される。

fˆ_H(x) =n⁻¹ Xn

i=1

K_H(x−X_i), x∈R^d (3.1)

ここで、

K_H(x) =|H|^−1/2K(H^−1/2x) (3.2)

である。K(x)はカーネル関数、Hはバンド幅行列である。カーネル関数は一般に以下の性質を満たすd次元関数である。

R^d

K(x)dx= 1, Z

R^d

xK(x)dx= 0, Z

R^d

xx^TK(x)dx=µ₂I_d (3.3)

ここで、

µ₂(K) = Z

R^d

x²_iK(x)dx (3.4)

は、iに依存しない値である。通常、カーネル関数として確率密度関数を利用する。また、バンド幅行列Hは、

d×dの対称な正値定符号行列、I_dはd次単位行列である。

一次元のカーネル関数κ(x)から、多次元のカーネル関数K(x)を構成する方法として、積型カーネルK_p(x) と球状対称カーネルK_s(x)がある。

K_p(x) = Yd

i=1

κ(x_i) (3.5)

K_s(x) =κ{(x⁰x)^1/2}/

R^d

κ{(x⁰x)^1/2}dx (3.6)

一次元のカーネル推定量の場合と同様、カーネル関数の選択が推定量の性質に与える影響は大きくない。

一般にバンド幅行列は、以下の3種の行列から選択する。

H =h²I_d (3.7)

H = diag(h²₁, . . . , h²_d) (3.8)

H =h²F (3.9)

ここで、Fは任意の対称な正値定符号行列である。

4 有限母集団における累積分布関数の推定

4.1 はじめに

標本調査法における主な研究対象は、母集団合計、母集団平均、母集団比率の推定である。これらの推定量については、推定精度をはじめとする広範な研究がなされてきた¹⁹。一方、有限母集団におけるメディアンや累積分布関数の推定についての研究は、前者に比べると比較的少ない。

メディアンは母集団をある特性値について半分に分ける点であり、経済分析において注目される指標である。

所得や賃金など経済変数では、母集団分布が非対称なことが多い。従って、母集団の特徴を把握するためには、

平均だけではなく、分位点などにも注目する必要がある。また、母集団の累積分布関数F_N(t)を推定することも、対象を詳細に分析するために有益である。

有限母集団における分布関数や分位点の推定を取り上げた初期の研究として、Woodruff [150]、Sedransk and Sedransk [116]などがある。Woodruff [150]は有限母集団における分位点の推定と信頼区間の構成法について考察し、単純無作為抽出や層別無作為抽出を行う際に利用可能な、分位点の信頼区間の評価方法を提案した。

分位点の推定に関する研究に比べ、累積分布関数の推定を直接取り上げた研究はSedransk and Sedransk [116]

など少数である。Sedransk and Sedransk [116]は、部分母集団の比較をする際、それぞれの部分母集団の累積分布関数を推定することにより、より詳細な分析を行うことができることを示し、放射線治療を受けたがん患者の医療記録に関する大規模な調査データについて、累積分布関数を利用して分析を行った。

U ={1,2, . . . , N}を有限母集団に関するラベルの集合とする。sを標本として抽出されたラベルの集合、r を抽出されなかったラベルの集合、標本サイズはnとする。ラベルiに関する特性値をY_i、補助変数をx_iとする。ラベルiの包含確率をπ_iとする。また、補助変数x_i, i= 1, . . . , Nは既知とする。

任意の点t, t∈Rにおける、母集団累積分布関数F_N(t)は、

F_N(t) = 1 N

i=1

I(Y_i≤t), t∈R (4.1)

である。I(·)は定義関数である。母集団累積分布関数F_N(t)は以下のように表すことができる。

F_N(t) = 1 N

i∈s

I(Y_i≤t) +X

i∈r

I(Y_i≤t)

(4.2)

= 1

N[nF_s(t) + (N −n)F_r(t)] (4.3)

ここで、F_s=P

i∈sI(Y_i ≤t)/n, F_r =P

i∈rI(Y_i ≤t)/(N−n)である。F_sは与えられた標本から求めることができるので、適切な補助変数を利用しF_r(t)を予測できれば、F_N(t)の推定精度を上げることができる。補助変数を利用するための最も一般的な方法は、Y_iとx_iの間に線形回帰モデル

Y_i =β₀+β₁x_i+²_i, i∈U (4.4) を仮定する方法である。β₀, β₁はパラメータ、誤差項²_iは独立に同一分布に従う確率変数でE(²_i) = 0, V(²_i) =σ² を満たすものとする。(4.4)のようなパラメトリックモデルを仮定することができない場合、Y_iとx_iの間にノンパラメトリックな関係

Y_i=m(x_i) +²_i, i∈U (4.5)

を想定することもできる。m(x)は滑らかな関数であり、通常、2階微分可能であると仮定される。また、Y_iと x_iの直接の関係ではなく、Y_iの関数I(Y_i≤t)とx_iのノンパラメトリックな関係を仮定したい場合もある。このとき、

E(I(Y_i ≤t)) =P(Y_i ≤t) =H(x_i) (4.6)

と仮定する。H(x)は滑らかな関数である。

このようなモデルを用いて、補助変数を母集団分布関数の推定のために利用する方法が、Chambers and Dunstan [17] のmodel-based推定量Fˆ_CDである。Chambers and Dunstan [17] は特性値と補助変数の間に線形関係を仮定できる場合、補助変数を利用することにより、特性値の分布関数の推定精度を高めることができることを示した。モデル(4.4)、原点回帰、不均一分散の場合にも適用できる。この推定量はモデルの定式化が適当な場合、補助変数を利用しない単純な分布関数推定量Fˆ_n(t)よりも推定精度が高くなりうる。しかし、モデルの定式化に問題がある場合、バイアスが大きくなることがRao et al. [99] などによって指摘されている。

Rao, Kovar, and Mantel [99] は、補助変数を利用するdesign-based推定量を提案した。Rao, Kovar, and Mantel [99]の推定量Fˆ_RKMは補助変数と特性値の間に仮定したモデル(4.4)のもとで、漸近的にdesign-unbiased かつ、model-unbiasedであることが示されている。Chambers, Dorfman, and Hall [15] はFˆ_CDとFˆ_RKM について、標準的な回帰モデルの下でのシミュレーション実験と理論的比較を行った。また、Dorfman [29]は、

誤差項が不均一分散の回帰モデルについて、理論およびシミュレーション実験による比較を行い、母集団へのモデルの当てはまりのよさが推定量の精度に影響を与えるため、推定精度について優劣をつけることは困難であり、それぞれの推定量に利点、欠点があることを示している。このほかにdesign-based分布関数推定量としては、Silva and Skinner [120]のpost-stratified推定量などがある。

補助変数と特性値の間に、ノンパラメトリックな関係(4.6)を仮定することもできる。Kuo [76] の推定量 Fˆ_{KU O}が累積分布関数の推定に、ノンパラメトリック法を用いた最初の方法である。Kuo [76]はカーネル推定や最近隣法を利用しているが、より多くの手法²⁰が利用可能である。Y_iとx_iの間に(4.5)を仮定する分布関数推定量として、Dorfman and Hall [31]のノンパラメトリック型 Chambers and Dunstan [17]推定量Fˆ_{N CD}やノンパラメトリック型 Rao, et al. [99] 推定量Fˆ_{N RKM}、design-based版Kuo [76] 推定量Fˆ_DCK がある。このほかにも、Kuk [71]の推定量Fˆ_{KU K}、Chambers, Dorfman, and Wehrly [16]の推定量Fˆ_CDW、Wang and Dorfman [147] が提案したFˆ_CD とFˆ_RKM の加重平均による推定量Fˆ_{W D}などで、ノンパラメトリック・カーネル推定が利用されている。

このように、ノンパラメトリック・カーネル推定を用いる様々な推定量が提案されている。パラメトリックモデルを仮定する推定量では、補助変数と特性値の間に想定したモデルが適当であるか否かが、推定量の精度に大きな影響を与える。特に、model-based推定量は想定したモデルが真であるときにmodel-unbiasedである。パラメトリックモデルを考える際、特性値と補助変数の間に非線形な関係が見られる場合、適当な変数変換を行い線形化を試みることができるが、部分的に非線形性が残る可能性もある。このような場合、ノンパラメトリック法の利用が考えられる。また、変数間に想定するパラメトリックモデルは、変数間の真の関係の近似であって、パラメトリックモデルによって真の関係を完全に表現できることは、ほとんどないと考えられる。

従って、ノンパラメトリック法を用い、補助変数と特性値の間の関係をパラメトリックモデルに依存しないという意味でロバストに推定し、推定量の精度向上のために利用することや、パラメトリックモデルの想定の失敗によるバイアスを調整することなどに利用することが考えられる。このような方法の利点は、パラメトリックモデルの想定の失敗がある場合に、ノンパラメトリック法を利用することにより、推定精度の低下を抑えることができることである。パラメトリックモデルが真である場合には、パラメトリックモデルのみを利用する推定量と近い値をとり、モデルの定式化が失敗している場合には、モデルの失敗によるバイアスを修正できる

20Breidt and Opsomer [12]は、局所多項式回帰法を利用する母集団合計の推定量を提案している。

ような推定量を、ノンパラメトリック法を利用して作ることができれば有益である。ノンパラメトリック法を利用する場合の欠点は、補助変数と特性値の間に想定したパラメトリックモデルが真の関係を表現している場合、ノンパラメトリック法を利用することにより推定精度の低下が生じることである。また、カーネル推定を利用する推定量の問題点として、補助変数xの分布の歪度が大きい場合、推定量が不安定になることがあげられる。特に、一般的に用いられるバンド幅を固定したカーネル推定量の場合、データが均一に散らばっていることが望ましく、Kuk [71] のように適当な変数変換を行うことが必要な場合もある。また、カーネル推定量で最も重要なバンド幅決定法や、境界問題²¹などの検討はこの分野においてはほとんど行われておらず、多くの課題が残されている。しかし、本章で行うシミュレーション結果から、カーネル推定を利用する分布関数推定量とジャックナイフ分散推定量は、無条件、条件付き性質ともに良いパフォーマンスを示しており、カーネル推定を利用する意義、発展の可能性が認められる。

一方、母集団から抽出された標本に外れ値が含まれる場合がある。外れ値に対してロバストな推定量として、

Chambers [14] の推定量がある。これは母集団合計の推定量であるが、Welsh and Ronchetti [148]はこの方法を応用し、累積分布関数推定量を提案した。また、Kuk and Welsh [74]はノンパラメトリック法を用いたロバストな推定量を提案している。このように、この分野におけるノンパラメトリック法の利用価値は高い。

現在作成されている経済統計の多くは、統計調査を行うことによって作成されている。表章される調査結果のなかで、最も注目されるのは母集団合計や母平均の推定値であるが、近年、詳細な経済統計分析のために、

分位点や分布関数も注目されるようになってきた。世帯の所得、資産の分布や、企業の従業員数や資本金の分布など、経済統計では非対称分布が多くある。世帯に関するこのような分布の例としては、総務省「家計調査」、総務省「全国消費実態調査」、厚生労働省「国民生活基礎調査」などによる世帯の所得分布や、「全国消費実態調査」の資産分布、総務省「住宅・土地統計調査」の住宅床面積の分布などがあげられる。また、企業や事業所に関する分布では、総務省「事業所・企業統計調査」や、経済産業省「商業統計調査」の事業所の資本金、従業員規模に関する分布などがある。一般に、分布が右に裾を引く場合、平均＞メディアン＞モードの順となり、分布の歪みが大きいほど、それぞれの差は大きくなる。分布関数は対象に関する豊富な情報を含んでおり、平均やメディアンなどの代表値だけでなく、分布関数を利用することは非常に有益である。

官庁統計の報告書の中で、分布に関する情報が表章されている例は少なくない。一方、補助変数の利用について見ると、母平均の推定に比推定を用いるなど補助変数が利用されている例はあるが、分布関数や分位点の推定のために、補助変数の利用が行われてる例はないようである。官庁統計の作成のために行われる標本調査では、世帯が対象であれば「国勢調査」、事業所が対象であれば「事業所・企業統計調査」がフレームとして利用されていることが多い。「国勢調査」をフレームとする標本調査としては、「家計調査」、「住宅・土地統計調査」、総務省「就業構造基本調査」、総務省「社会生活基本調査」などがあげられる。また、「事業所・企業統計調査」をフレームとする標本調査には、厚生労働省「賃金構造基本調査」、厚生労働省「毎月勤労統計調査」、中小企業庁「中小企業実態基本調査」などがある。全数調査をフレームとして利用する標本調査では、

特性値の母平均や母集団分布関数のよりよい推定量を作るために、全数調査において調査されたセンサス情報を補助変数として利用できる可能性がある。また、二相抽出を利用する調査では、第一相で調査された情報を補助変数として利用できる場合がある。官庁統計の中で二相抽出を用いる統計調査として、「国民生活基礎調査」、「中小企業実態基本調査」があげられる。ここでは「国民生活基礎調査」への応用について触れておく。

「国民生活基礎調査」は「保健、医療、福祉、年金、所得等国民生活の基礎的事項」の調査を目的とし、昭和61年から3年ごとの大調査と中間年の簡易調査が行われている。調査対象は「全国の世帯及び世帯員」であり、国勢調査区から1048調査区を層化無作為抽出し、抽出されたすべての世帯及び世帯員について、世帯票により調査する。世帯票では、世帯の区分、就業状況、公的年金の加入、受給状況などについて調査する。

さらに、1048の国勢調査区のそれぞれを、約20世帯からなる2から3の単位区に区分し、無作為に500単位

ドキュメント内ノンパラメトリック・スムージング理論とその応用 (ページ 47-52)