• 検索結果がありません。

勲  契  臼*砦*葬**

ドキュメント内 現代語の語彙調査 : 総合雑誌の用語 後編 (ページ 107-111)

3・2第f麿での使用率の推定

母使用率 P,一=X,/Yiに対して次の推定量を採る;

  (・・)   か≡テー舞蓋;÷・

これは片寄りのある推定量である。

 そこで信頼幡をつけるため;こは,平均二乗誤差τ2(IPi)を考える。

(02・1)

ここに.

畑≒Pi・撫)+聖L・c箋繋6)}

  V(Xi) =V(rffi) = V(ム元i)

       ムームσ2(xの     ・=ム2

Vω=ム2Lr1

五rl  is 

五ゴーム  σ2(Yiゴ)

       c勧∂一五桧≡l li .

式(02・1)の面辺をP3で割れば,三園誤差を二乗したものとなる。すなわち

(・2・・)  {τ鴇)}2≒V蜂)+V鍔IL・C審1).

この式の右辺の億を標:本から推定して玖ρ∂が得られたとすれば,儒頼度αパセソトで母使 用率を推定するには,式(3)によって上限・下限が定まる区闘塗用いればよい。

  (03)  Pi{1±履(か)},  この島はたとえば水野の不等式注)から定まる。

 さて彦(Pi)を求めるために,まずSi2(ξ), Si2(η), Ci2(ξ.η)を式(04)の通りの定義する。.

        s・2(・)r墨、激(f・i−x,)2ts・2(・)藻、差、急(瞬)2t   (04)

      Ci(6, ty)t ±、急(ゐ・剛町あ)・

これらについては次の関係が成り立つ:

 注 水野坦「或不等式群について←}」、『統計数理研究所講究録』5巻9号。

       一 100 一

1   r〈Xii, Y

付録鑑

E[・・2(ξ)]一繁、鵡), Eこ・〜(・)]一。葺、・・(Yの.

      ム       E[α(ξ,η)〕m

      γ(xピゴ,yii).

       ムー1 従って

      鵡)一午1♂(ξ)一直1、≒(鮎一÷).

(・5) ・vω一一讐三争(趣一葦1)

       一廠一・)≠、(、急∫・ゴ・一21).

他の二つについても同様。そこで邸,歎の推定億として紛課γ誘,yi ・riniを採れば,

      な

       V舞)一(・一÷)t皇、(導≒/ ・

      な

(。6)  聖)一(・一÷胎(導一→

       お

       ・繋)十÷)藩、(靴禦一→

さて式(02・2)で式(06)の左辺の形をしている所に,式(06)の右辺を代入して得られる推 定値をt2(カi)とすれば,

       li      li        な

(・7)  t・・(Pi)十÷)、垂、(挙+撫ゴ茎;穿/

 3・3 全体での使用率の誰定(一般の場合)

 母使用率 .PE≡X,/Y に対 して推定量

  (・8)   ρ}テー§卜§嬬

を採り,前節と岡構ミに

  (09)      カ{1±んα (P)}

で上限・下限の定まる区間をもって推定する。ここにkaは式(03)と同じもの, t(p)は相.

対誤差τ(p)/.Pを標本値から推定したものである。

 そこで

  (・…)  ・・(P)≒P・{V翠)÷¥&(!)一・C窪)}・

ここに V(x)=V(Sx,) ・= sv(xi), V(Pt)=SV(yi), C(x, y)=SC(xi,ヅf) ゆえ,

  (…2)  /τ望)}2≒S聖)+S睾 L・SC辮).

      一 101・ 一

       付録H

この式の右辺の分子を式④5)およびそれに網当する式で麗き換え,記録もx,yで置き換え

ると.

〈、、,畑嚇の造匿≠+二等f靴1≠/

 3・4全体での使用率の推定(比例配分の場合)

 各層への標本の割当をその層の集落数に比例させると,式(08),(11)に当る式は次の通り 簡単化される:

  (・2)   ρ号考蓋i・嘉÷・

(、3)t・、(,)+÷),諺、偉≠婁等豊国1浸∫1笥

   4実際の抽出

 実際に標本を抜くには,調査対象のすべての本文ページをリストすると共に,集落の大きさ 袖をどの程度にするかを決めなくてはならない。そのために,この抽出法の精度を一段抽出 法の場合と比べてみよう。便宜上層別を施さない場合について扱えば,前節3・32の考え方に

よって

        畑≒グ÷舌三{{肇)+肇)一£γぐ蔑鍵},

       ノリ      がユ

また大きさMペーージの調査対象からランダムにmページを抜いてガ藻ΣX。/Σ}㌃でPを        ン       リ

推定する方式,つまり一段抽出法の場合の平均二乗誤差は

        畑≒P2÷{譜{¥ ・s)÷望 一2γ 斐許}・

     ムゼ       れ

ここに.霊iV Xン/M. Yも同様;σ2(ξ)蒸Σ(Xp−X)2/M, a2(η),γ(ξ,η)も同様。さて双方と      ン欝1      ン蘇1

も岡じ調査対象から等しい大きさの標本を取ったとして,すなわち,M= LM・. m・IMeの条 件のもとに, τ2(p)とτ2 (p )との大小を比べよう。比較の便のため上の二式を変形する。ま ず

      1  M      L Mo

      ・2(ξ)≡一方;準一x)2=忍昌{瓦函)繍一π)}2

      ただ・継講轟

         ゴ=1Mfe・・1     ゴ=IM

潤様にσ2(ty)==aw2(η)十σb2(ξ),γ(ξ,η)== r (ξ,η)十γb(ξ,η).そこで

     ド撃)+雫)一2嘆≠)・館偽随一)+碧)一2鵠・)

と置けば, τ2(〆)は

       一 102 一

調亜笠(.Xdk−xゴ)・+玄.並(ff、一π)・一砺・(ξ)+。、2(ξ).

       付録ヨ

  (・) T・・(pt)≒空発≒z)銘譜「君1乙テz(妬切.

次に X・= Mnf. Xl濡1鴎鵡,σ2(Xi)= Me2σ2(鴎) ・M。2Lt(X一X)2/L の関係に注意すれば,

       ゴ嵩1

        L・a・(xp 一 L2三部(x」一x)・壽語(鵡謂轟

      X2  −M2 ゐ    ■2  rm   X2   一 愛2 他も岡様。従ってτ2〈p♪は

  凹     丁2(P)≒歪、午㌦

そこで式(*),(**)から

      e・xl?一(,p,3)一fitl({#・i+i).

ゆえにτ2(p)<τ2 (pt)になる〔実用上の〕条件は

       舞〉。名、(M・一・)一聖審)・

       または 一血>Me, ただししもM・も十分大きい場合。

       ψう

この条件を満たすようなMeを選べば,等大の集落抽出法は一段抽出法より高い精度となる。

われわれはもちろん,出来るならばそういう大きさの集落をランダムに形成するのがよい。し かしこれには実際上三つの園難がある。第一は,推定すべき使用率がただ一つではないため,

ある語について上寵の条件を満たしても,他の語については必ずしも満たされない事である。

これは,使用率の大きい大部分で条件を満たすようなMeを採ることに.より,一往は解決され る。ところで第二に,個々の語について%や佛の値が分っていない事である。ただしわれ われは今回の調査に先立って,延べ約二万語の準備調査をした。その結果から大体の見当はつ

く。そこで50語を抽出してgp。/OPbを算出しその平均を取ったところ, Meを10ページぐらいに すれば良さそうだとの見通しが立った。第三には,M ・LMoの関係が一般に成り立つとは書 えない事である。しかも雑誌の各ページの延べ語数は留日まちまちである。そこで次の方法を 採った。集落の構成要素は何もページにしなくてもよい。たとえばページの半分の面積を選ぶ ことも出来る。 〔この方が,語の鐵方の文脈による影響が幾分小さくなろう。〕その代り一集 落は「1/2ページ」20個から成ると考えるのである。注)こうして構成要素を操作的に定めた上 は,ページの方も与えられたままの形による必要はない。余り言葉数を含まないページー一大 きな広密や図などのはいっているページ,グラビアや漫爾のページなど一は適宜二ページ以 上を合わせて,全ページ本文の所と延べ語数に大差がないように,操作…的なページを作る。こ

こに採用しようとしている抽出法で大切な点は,各集落の延べ語数がほとんど等しい事であっ て,その期待のもとに等大の集落を作ろうとした訳であるQ従ってこういう「操作ページ」を  注 ページ厳位にした時1鴎=10で良さそうだからと言って,1/2ページ単位にした聴M。== 20で罰様   に前記の条件を満たすかどうかは分らない。しかし手もとにそれを確かめるデータがないので,今誕!、

  はこう決めた。

       一 103 一

       塗1 録麺

.適当{こ作ることによって、ca= LMoになるようにした。

 実際の手続きは以下に述べる通りである。

 既に§2・2で示したように,調査対象は雑誌の性格によって三つの層に分けてある。そこで 各麟ごとに本誌ページを,文字の部分が占める翻積Sの割合が 「1≧S>2/3,2/3≧S≧1/3,

.1/3>S>り の三種に分けた。その第一種のものは実際の1ページをそのまま操作ページとし,

第二樺は2/3に近い実際のページと1/3iこ近いページとをなるべく合わせ,2ページのセット 9を!操作ページとし,第三

種は実際の4ページを仮に 1操作ページと見なして,

まず概算の操作ぺ・・一一ジ数を

求めた。その値は右の表の 初めの欄の通りである。こ の値によって各隅ごとの集

区:分

ドキュメント内 現代語の語彙調査 : 総合雑誌の用語 後編 (ページ 107-111)

関連したドキュメント