• 検索結果がありません。

ここでは、二変量モード・フォレストの作成の際に利用する、多次元カーネル推定量について記しておく18X1, X2, . . . , Xn, Xi ∈Rdが互いに独立で同一な分布F(x)に従うd次元確率変数であり、F(x)は密度関数 f(x)をもつと仮定する。確率変数の実現値をx1, x2, . . . , xn, xi ∈Rdとする。d次元カーネル密度推定量fˆH(x) は、以下のように定義される。

fˆH(x) =n−1 Xn

i=1

KH(x−Xi), x∈Rd (3.1)

ここで、

KH(x) =|H|−1/2K(H−1/2x) (3.2)

である。K(x)はカーネル関数、Hはバンド幅行列である。カーネル関数は一般に以下の性質を満たすd次元 関数である。

Z

Rd

K(x)dx= 1, Z

Rd

xK(x)dx= 0, Z

Rd

xxTK(x)dx2Id (3.3)

ここで、

µ2(K) = Z

Rd

x2iK(x)dx (3.4)

は、iに依存しない値である。通常、カーネル関数として確率密度関数を利用する。また、バンド幅行列Hは、

d×dの対称な正値定符号行列、Idd次単位行列である。

一次元のカーネル関数κ(x)から、多次元のカーネル関数K(x)を構成する方法として、積型カーネルKp(x) と球状対称カーネルKs(x)がある。

Kp(x) = Yd

i=1

κ(xi) (3.5)

Ks(x) =κ{(x0x)1/2}/

Z

Rd

κ{(x0x)1/2}dx (3.6)

一次元のカーネル推定量の場合と同様、カーネル関数の選択が推定量の性質に与える影響は大きくない。

一般にバンド幅行列は、以下の3種の行列から選択する。

H =h2Id (3.7)

H = diag(h21, . . . , h2d) (3.8)

H =h2F (3.9)

ここで、Fは任意の対称な正値定符号行列である。

4 有限母集団における累積分布関数の推定

4.1 はじめに

標本調査法における主な研究対象は、母集団合計、母集団平均、母集団比率の推定である。これらの推定量 については、推定精度をはじめとする広範な研究がなされてきた19。一方、有限母集団におけるメディアンや 累積分布関数の推定についての研究は、前者に比べると比較的少ない。

メディアンは母集団をある特性値について半分に分ける点であり、経済分析において注目される指標である。

所得や賃金など経済変数では、母集団分布が非対称なことが多い。従って、母集団の特徴を把握するためには、

平均だけではなく、分位点などにも注目する必要がある。また、母集団の累積分布関数FN(t)を推定すること も、対象を詳細に分析するために有益である。

有限母集団における分布関数や分位点の推定を取り上げた初期の研究として、Woodruff [150]、Sedransk and Sedransk [116]などがある。Woodruff [150]は有限母集団における分位点の推定と信頼区間の構成法について 考察し、単純無作為抽出や層別無作為抽出を行う際に利用可能な、分位点の信頼区間の評価方法を提案した。

分位点の推定に関する研究に比べ、累積分布関数の推定を直接取り上げた研究はSedransk and Sedransk [116]

など少数である。Sedransk and Sedransk [116]は、部分母集団の比較をする際、それぞれの部分母集団の累積 分布関数を推定することにより、より詳細な分析を行うことができることを示し、放射線治療を受けたがん患 者の医療記録に関する大規模な調査データについて、累積分布関数を利用して分析を行った。

U ={1,2, . . . , N}を有限母集団に関するラベルの集合とする。sを標本として抽出されたラベルの集合、r を抽出されなかったラベルの集合、標本サイズはnとする。ラベルiに関する特性値をYi、補助変数をxiと する。ラベルiの包含確率をπiとする。また、補助変数xi, i= 1, . . . , Nは既知とする。

任意の点t, t∈Rにおける、母集団累積分布関数FN(t)は、

FN(t) = 1 N

XN

i=1

I(Yi≤t), t∈R (4.1)

である。I(·)は定義関数である。母集団累積分布関数FN(t)は以下のように表すことができる。

FN(t) = 1 N

"

X

i∈s

I(Yi≤t) +X

i∈r

I(Yi≤t)

#

(4.2)

= 1

N[nFs(t) + (N −n)Fr(t)] (4.3)

ここで、Fs=P

i∈sI(Yi ≤t)/n, Fr =P

i∈rI(Yi ≤t)/(N−n)である。Fsは与えられた標本から求めること ができるので、適切な補助変数を利用しFr(t)を予測できれば、FN(t)の推定精度を上げることができる。補 助変数を利用するための最も一般的な方法は、Yixiの間に線形回帰モデル

Yi =β0+β1xi+²i,i∈U   (4.4) を仮定する方法である。β0, β1はパラメータ、誤差項²iは独立に同一分布に従う確率変数でE(²i) = 0, V(²i) =σ2 を満たすものとする。(4.4)のようなパラメトリックモデルを仮定することができない場合、Yixiの間にノ ンパラメトリックな関係

Yi=m(xi) +²i,i∈U (4.5)

を想定することもできる。m(x)は滑らかな関数であり、通常、2階微分可能であると仮定される。また、Yixiの直接の関係ではなく、Yiの関数I(Yi≤t)xiのノンパラメトリックな関係を仮定したい場合もある。こ のとき、

E(I(Yi ≤t)) =P(Yi ≤t) =H(xi) (4.6)

と仮定する。H(x)は滑らかな関数である。

このようなモデルを用いて、補助変数を母集団分布関数の推定のために利用する方法が、Chambers and Dunstan [17] のmodel-based推定量FˆCDである。Chambers and Dunstan [17] は特性値と補助変数の間に線 形関係を仮定できる場合、補助変数を利用することにより、特性値の分布関数の推定精度を高めることができ ることを示した。モデル(4.4)、原点回帰、不均一分散の場合にも適用できる。この推定量はモデルの定式化が 適当な場合、補助変数を利用しない単純な分布関数推定量Fˆn(t)よりも推定精度が高くなりうる。しかし、モ デルの定式化に問題がある場合、バイアスが大きくなることがRao et al. [99] などによって指摘されている。

Rao, Kovar, and Mantel [99] は、補助変数を利用するdesign-based推定量を提案した。Rao, Kovar, and Mantel [99]の推定量FˆRKMは補助変数と特性値の間に仮定したモデル(4.4)のもとで、漸近的にdesign-unbiased かつ、model-unbiasedであることが示されている。Chambers, Dorfman, and Hall [15] はFˆCDFˆRKM に ついて、標準的な回帰モデルの下でのシミュレーション実験と理論的比較を行った。また、Dorfman [29]は、

誤差項が不均一分散の回帰モデルについて、理論およびシミュレーション実験による比較を行い、母集団への モデルの当てはまりのよさが推定量の精度に影響を与えるため、推定精度について優劣をつけることは困難で あり、それぞれの推定量に利点、欠点があることを示している。このほかにdesign-based分布関数推定量とし ては、Silva and Skinner [120]のpost-stratified推定量などがある。

補助変数と特性値の間に、ノンパラメトリックな関係(4.6)を仮定することもできる。Kuo [76] の推定量 FˆKU Oが累積分布関数の推定に、ノンパラメトリック法を用いた最初の方法である。Kuo [76]はカーネル推定 や最近隣法を利用しているが、より多くの手法20が利用可能である。Yixiの間に(4.5)を仮定する分布関数 推定量として、Dorfman and Hall [31]のノンパラメトリック型 Chambers and Dunstan [17]推定量FˆN CDや ノンパラメトリック型 Rao, et al. [99] 推定量FˆN RKM、design-based版Kuo [76] 推定量FˆDCK がある。こ のほかにも、Kuk [71]の推定量FˆKU K、Chambers, Dorfman, and Wehrly [16]の推定量FˆCDW、Wang and Dorfman [147] が提案したFˆCDFˆRKM の加重平均による推定量FˆW Dなどで、ノンパラメトリック・カー ネル推定が利用されている。

このように、ノンパラメトリック・カーネル推定を用いる様々な推定量が提案されている。パラメトリック モデルを仮定する推定量では、補助変数と特性値の間に想定したモデルが適当であるか否かが、推定量の精度 に大きな影響を与える。特に、model-based推定量は想定したモデルが真であるときにmodel-unbiasedであ る。パラメトリックモデルを考える際、特性値と補助変数の間に非線形な関係が見られる場合、適当な変数変 換を行い線形化を試みることができるが、部分的に非線形性が残る可能性もある。このような場合、ノンパラ メトリック法の利用が考えられる。また、変数間に想定するパラメトリックモデルは、変数間の真の関係の近 似であって、パラメトリックモデルによって真の関係を完全に表現できることは、ほとんどないと考えられる。

従って、ノンパラメトリック法を用い、補助変数と特性値の間の関係をパラメトリックモデルに依存しないと いう意味でロバストに推定し、推定量の精度向上のために利用することや、パラメトリックモデルの想定の失 敗によるバイアスを調整することなどに利用することが考えられる。このような方法の利点は、パラメトリッ クモデルの想定の失敗がある場合に、ノンパラメトリック法を利用することにより、推定精度の低下を抑える ことができることである。パラメトリックモデルが真である場合には、パラメトリックモデルのみを利用する 推定量と近い値をとり、モデルの定式化が失敗している場合には、モデルの失敗によるバイアスを修正できる

20Breidt and Opsomer [12]は、局所多項式回帰法を利用する母集団合計の推定量を提案している。

ような推定量を、ノンパラメトリック法を利用して作ることができれば有益である。ノンパラメトリック法を 利用する場合の欠点は、補助変数と特性値の間に想定したパラメトリックモデルが真の関係を表現している場 合、ノンパラメトリック法を利用することにより推定精度の低下が生じることである。また、カーネル推定を 利用する推定量の問題点として、補助変数xの分布の歪度が大きい場合、推定量が不安定になることがあげら れる。特に、一般的に用いられるバンド幅を固定したカーネル推定量の場合、データが均一に散らばっている ことが望ましく、Kuk [71] のように適当な変数変換を行うことが必要な場合もある。また、カーネル推定量で 最も重要なバンド幅決定法や、境界問題21などの検討はこの分野においてはほとんど行われておらず、多くの 課題が残されている。しかし、本章で行うシミュレーション結果から、カーネル推定を利用する分布関数推定 量とジャックナイフ分散推定量は、無条件、条件付き性質ともに良いパフォーマンスを示しており、カーネル 推定を利用する意義、発展の可能性が認められる。

一方、母集団から抽出された標本に外れ値が含まれる場合がある。外れ値に対してロバストな推定量として、

Chambers [14] の推定量がある。これは母集団合計の推定量であるが、Welsh and Ronchetti [148]はこの方 法を応用し、累積分布関数推定量を提案した。また、Kuk and Welsh [74]はノンパラメトリック法を用いた ロバストな推定量を提案している。このように、この分野におけるノンパラメトリック法の利用価値は高い。

現在作成されている経済統計の多くは、統計調査を行うことによって作成されている。表章される調査結果 のなかで、最も注目されるのは母集団合計や母平均の推定値であるが、近年、詳細な経済統計分析のために、

分位点や分布関数も注目されるようになってきた。世帯の所得、資産の分布や、企業の従業員数や資本金の分 布など、経済統計では非対称分布が多くある。世帯に関するこのような分布の例としては、総務省「家計調 査」、総務省「全国消費実態調査」、厚生労働省「国民生活基礎調査」などによる世帯の所得分布や、「全国消 費実態調査」の資産分布、総務省「住宅・土地統計調査」の住宅床面積の分布などがあげられる。また、企業 や事業所に関する分布では、総務省「事業所・企業統計調査」や、経済産業省「商業統計調査」の事業所の資 本金、従業員規模に関する分布などがある。一般に、分布が右に裾を引く場合、平均>メディアン>モードの 順となり、分布の歪みが大きいほど、それぞれの差は大きくなる。分布関数は対象に関する豊富な情報を含ん でおり、平均やメディアンなどの代表値だけでなく、分布関数を利用することは非常に有益である。

官庁統計の報告書の中で、分布に関する情報が表章されている例は少なくない。一方、補助変数の利用につ いて見ると、母平均の推定に比推定を用いるなど補助変数が利用されている例はあるが、分布関数や分位点の 推定のために、補助変数の利用が行われてる例はないようである。官庁統計の作成のために行われる標本調査 では、世帯が対象であれば「国勢調査」、事業所が対象であれば「事業所・企業統計調査」がフレームとして 利用されていることが多い。「国勢調査」をフレームとする標本調査としては、「家計調査」、「住宅・土地統 計調査」、総務省「就業構造基本調査」、総務省「社会生活基本調査」などがあげられる。また、「事業所・企 業統計調査」をフレームとする標本調査には、厚生労働省「賃金構造基本調査」、厚生労働省「毎月勤労統計 調査」、中小企業庁「中小企業実態基本調査」などがある。全数調査をフレームとして利用する標本調査では、

特性値の母平均や母集団分布関数のよりよい推定量を作るために、全数調査において調査されたセンサス情報 を補助変数として利用できる可能性がある。また、二相抽出を利用する調査では、第一相で調査された情報を 補助変数として利用できる場合がある。官庁統計の中で二相抽出を用いる統計調査として、「国民生活基礎調 査」、「中小企業実態基本調査」があげられる。ここでは「国民生活基礎調査」への応用について触れておく。

「国民生活基礎調査」は「保健、医療、福祉、年金、所得等国民生活の基礎的事項」の調査を目的とし、昭 和61年から3年ごとの大調査と中間年の簡易調査が行われている。調査対象は「全国の世帯及び世帯員」で あり、国勢調査区から1048調査区を層化無作為抽出し、抽出されたすべての世帯及び世帯員について、世帯 票により調査する。世帯票では、世帯の区分、就業状況、公的年金の加入、受給状況などについて調査する。

さらに、1048の国勢調査区のそれぞれを、約20世帯からなる2から3の単位区に区分し、無作為に500単位

関連したドキュメント