§3・1
差のないように,かつ定差回にプ寡ヅトした点がほぼ下線を成すように,見出し語を山僧に
組み分けした。この各組の語彙量をムで表わせば,全体の語彙二五は当然
ユレ 五=Σゐλ λ==1
である。次に均の推定は下記の方法によった。(i)標本使用率が一番大きい組では,標本 使用率が大差ないようにするとその組に属する標本異なり語数はきわめて少なくなり,推定作 業の能率がよくない。これをかなりの個数になるようにすると,今度は標本使用率が相当まち まちとなり大差がないとは書えなくなる。そういう組では幸いにも,延べ語数をn、,n2, n3,
…と増して行った時,新たな見出し語はもう観測の途中から出なくなった。従って使用率の大 きな語はわれわれのデータでは出尽したものと見られる。 〔実際に,この組に属すべき語がわ れわれの標本に現われていない確率は,きわめて小さい。〕そこでこの組に関する限り,標本 異なり語数をそのまx煽と見なしてさしつかえあるまい。 (ii)i以外の組では,そこに属 する語の使用率は〔抽出誤差も考慮すると〕大差がないものと認められるQ従って前記の式(4)
を当てはめる条件はほぼそろっているが,それでも使矯率が全く等しくはないから,この食:い 違いに対する修正項としてうλを入れ, 召の指数を一αλ(ni十bi)とする。すなわち次の式を 当てはめる事にする。
(5) Ka=」しA{1−emaA(nl+5λ)}
〔推定を行った結果から判断すれば,こののの値はその区間の平均使用率から算出した値に
近く,またα森も0に近かったので,上記のような組分けおよび修正項の入れ方は適当だ
ったと思われる。〕さて,データにこの式を当てはめ最小二乗解を求めることによって,ゐλが 推定される。ただ(ii)の場合に問題となるのは,各観測値に対する重みの評価である。まず異なり語数 に対しては,抽出誤差の分散と語数勘定の誤差の分散に分けて考えなければならない。抽出誤 差分散の一般的な形は§3・15に示すが,そのままの形では数値計算がしかねる。ただし今ば 各語の使用率がほぼ等しいように組み分けがしてあるから,その組を取り上げる限りでは一往 その使用率が等しく P戸1/Lλ と仮定する。この時の抽出誤差分散は〔簡随のため添え字λ を落して書くと〕
♂(ん)一五①が一が(・一÷ヂ+・(・一・)(・一÷)麗
となる。注)この式で評価を行った。次に測定誤差の分散は,従来の経験から,異なり語数1GOG 当り4(語2)程度だという事が分っている。従ってこの二種の分散の和の逆数が,異なり語数 観測値の重みに比例する。次に延べ語数に対しては,まず岡様に測定誤差分蔽を考えなければ ならない。これも今までの経験から延べ1000語当り2(語2)程度と見積れる◎更にわれわれ の場合,川こ対してもう一つの誤差がはいった。それは,データの記録を取る時,使用率の組 み分けは考えず全体をくるめた標本延べ語数だけを出して置いたので,組み分けしたそれぞ江 注 この式は§3・15の式(6)でP伊Pゴ=1/しと置けば得られるσ
一30一
g 3・1
の組についての第htw Eの観測でna(h)が幾らになるか分っていない。〔もちろんこの値は,
最終標本値による組み分けが済んだ後でなけれぽ,知るすべがない。〕採集カードから作った 整理;票をもう一度整理し直してこの値を確かめる労力の余裕が,今圃は得られなかった。そこ C na(h)を次のように推定した◎最終回観測での金標本の延べ語数をno,その結果第λ組には 乳いった見出し語の延べ語数をna,また第h回観測での金標塞の延べ語数をn(h)とすれば,
(h)
na(J )NnA X 一wwZZ
=n」,pCh),
ne
♂鮒・)≒(anA(Je6nA))292(n・)+(繋)レ(P・ ・))
《響))2(毒i,2+%11ゆ一斗)・ただしずは・・の測定追
従ってnA(it)の推定誤差は上の第工式で評価した。この誤差は最終観測に関する限りもちろん0である。さて延べ語数観測値に対する重みは,上記二種の分散の和の逆数に比例する。
こうして,各観測点の重みの比が算定され,推定法の具体的な手続きがすべて決まった。実 際の推定に当って施した組み分けの数は,対象とした十三誌全体では4個,その三つの雑誌層
.については各3飼となった。
最後に,DEMING流の最小二乗法を施す場含,標本が十分大きいのでLλの推定:量は正規 分布に従うと見なせよう。その分散をVkと置けば,五漏Σゐλの推定量の分散は ΣVλと A A
晃積られる。ただし先に述べた(i)の組ではし?.の推定量に誤差がないものとして扱った。
〔この組の推定誤差は他の組のそれに比べ桁違いに小さいから,これを無視してもVにはほ とんど影響が及ばない◎〕
3・14 推定結果
上に述べて来た方法を使って,第1履,第ヨ層,第盤暦および十三誌全翻の範囲について語 彙量を推定した。その結果は第1表の通りである。
この結果からはまた次のような事:が
第1表 語彙母の推定結果
.導き出ぜる。
(i) われわれは調査対象の約四
.十分の一の分蚤を抽出したが,この標
』本に現われなかった語が,大体下記の 程度あったと推定される。
第1層で 12600〜1510G語
第艮層で 4400〜7900}.第撮層で 6200〜8700語
今,
推定範囲 第u馨 第豆屑 策副韓 全体
z三塁9鞭儒饗
28563 652.1 27284 29842 16551 896. 9 14793 18309 18306 643. 9 17e44 19568 43669 1616 40502 46836
な之異麟
補k四ゴオフ謬
金体で 17eoo〜23900語
14713 10437 10889
2292{i
これら標本に現われなかった語が,調査対象の語彙量の何パセソトほどに当るかを求める
と,第1穏では48パセγト,第狂層では37パセント,第皿層では41パセソト,全体十三誌
の範閥では48パセソトと推定される◎ただしこれらの語はどれもこの調査対象では使用率が 一 31 一g3−1 一般にごく小さいものと言える。
(i圭) 第1表の結果からすると,各層の語彙量の多少は i>雁>9 となっていて,延 べ語数の多少の順と一致する。第1図で標本延べ語数が〔ほぼ〕等しい所の標本異なり語数を 比べると,逆に1(・〉匪>1であった。単に標本値だけから対象全体の有様を速断することの危
さが,この例では特によく分ろう。
曝
さて語彙最の多少の順が延べ語数の多少の順と一致した事は,特別の事情がない限り当然だ と言えよう。と言うのは,一般に多くの延べ語数を要したような蓑現では,異なる語も多く使 われるはずだからである。この関係が破れるのは,語藁の豊かさに差が著しい揚含である。と ころでこの「語彙の豊かさ」とは,操作自勺に定義することがなかなかむずかしい概念である。
語彙燈しそのままでは豊かさの尺度とはならない。なぜかなら,しにはNの影響があって,.
単純にしとNとの比を取るような事では,しに及ぼすNの影響が消せないからである。
〔比でIVの影響が消せない事は,特殊な場合として2V==。。の時を考えれば明らかであろう。〕
従って今は,語彙の絶対的な量が上記の順と推定された事だけを述べ,語彙の豊かさの問題に は立ち入らない。注1)
このほか語彙の総量ではなく,層の闘に共通な語彙の童一高わば語彙共通最の推定も,簾 1表に若干の推定結果を附け煽えれぽ,原理的に可能である。ただしその推定法は精度の点で も手闘の点でもまだ能率が悪いので,この調査では結果を報ずるまでには釜らない。注2)
3。蕗 推定法の根拠
§3・13に式(3)として掲げた理論式がどのようにして導かれるか,またその式から外挿 して語彙量Lを推定する根拠は何かを,以下に述べよう。まず初めに理論酌考察の見通しを よくするため,導くことが出来た結果の大筋をしるしておく。調査対象を形作っている単位語 につき基本的なランダム抽出を捌懲繰り返した時,その延べん語の標本に認められる異なり語
数餓の期待値Knは,前記の式(3)
K,、漏勲,,竺L一Σ(1−P,) t i=#1
で表わされる。次に々.の分散をV,と書けば
(・)v・・=・E(…一Kn)・一 ?(・一儲{急(・一卵ゑ黒(・一P・一P・)n となる。更にK。およびVnについては次の事が成り:立つ;
注1 しかしこの問題が解けない訳ではない。われわれも「語彙の豊かさ」に操作的に為る一:のアで デアを考えているし,P. GUIItavDやG.U. Yur.E lこも試みがある。特にYULEのK一特性値は注巨ず べきものかと思うが,これに対してはG. HIII〈DANがLanguage as Choice and Chancet 1956,
§3・5〜§3・6で,それが豊かさの尺度とならずまた欠点のある事を遠ぺ,別様の解釈をしている。
われわれとしては,i〈一縛性僅には解釈のいかんにかかわらず数理的な疑いがなお残るので,この「語.
彙の豊かさ」の問題は励の機会に改めて取り上げたいe
注2 水谷静夫:異なる分野に共通な語彙の量の推定法,計量国語学会第1圓研究発表会,昭和32年、
10月;要旨『計量蟹語学』第3号所載。
一32一
§3・1
(7) nOf OQのときKn→L
(8) n→○。のときV。→0.そしてこれらの結果から
(9) 数列{婦はしに確率収束する。
この最後の結果(9)が外挿法による推定の妥当さを保証するより駈となる。さて以下に,これ らの命題を証明しよう◎
まず式(3)について。ある雷語子下がすべてで!V個の単位語〔Nは有限でも可付番無限で もよい〕から成り,その任意の単位語は必ずゐ個の見出し語のどれかに属するものとする。
その第i見出し語の使用率をP, (た X一しC<Piく1,澱R罵1〕で表わす。従って条単位語に i=1
等しい抽出確率を与えて構成した大きさNの母集國からランダムに一つの単位語を抜けば,
その単位語が第ゴ兇出し語に属する確率は君に等しい。
こういう独立試行をη繍続けたとし,各回の抽出に変量鵡を対応させる。その時,もし 第彦山屋に抜かれた単位語が,第(t−1)繍までに抜かれたどの単位語とも異なる冤出し語に 属すれば 酬=1 とし,どの単位語かと瞬じ見出し語に属すれば le, =O とする。こうして 得られる%個の数値厨.耐.….観の和を鳥,で衷わせば,この鳥、は,上記の試行を続
けて延べn語に達した時の異なり語数にほかならない。なおknが取り得る値の範囲は1,
2,…,瓢魚(n,L),特に論1…訂であるQ ヲニ
上述の定め方からして 臥=Σ烈 だから,ん.の期待値魚は =ユ
ル チみ κ。ヨE鳥、=EΣん〆諜Σ勘!.
t=1 t=1
このkttは0か1かを取る変量であるQそれが1を取るという事は,それに先立つ(t−1)翻
の試行では得られなかった見出し語を第バ三后に初めて得る事であるQ今その見暑し語の使矯 率をPiとすれば,第t圓自の試行で初めて特定の第i見幽し諮を得る確率は (1−P,)t−IPi である。そこでゴを特定のものに限らず,一般に第肩覇冒に新たな見鐵し語を得る確率を考えると,
Pr(k,t==1)=Σ」Pi(1−PPi) }1.
im1
従って第≠回目に,既出のどの見出し語かと同じものを得る確率は
Pr(fe,t = o)冨1−Pr(fe、 =・1)。
ゆえに,Eん をKe と置いて
(10) K,t=O×Pr(ん!諜0)十1×Pr(le,t ・1)一ΣR(1−Pi)t−1。
it=1 つち ゐ
∴ K一ΣKノ=ΣR(IL−P,)t i tml i・=1