• 検索結果がありません。

3・2 使用率の分布函数

g 3e2

 3・21分布函数を求める事の憲義

 ある語彙で各見出し語の使用率がどんな分布をしているかの問題を,次に取り上げる。すな わち使用率の分布函数を求めること,それが厳密には求められないにしても,どんな函数で近 似されるかを調べることを試みる。それに先立って,あとの説明とのつながりのために,「分 布函数」について大づかみな解説をして置こう。

 まず「変量」の解説からはいる。ある一一Ptの事象に対し,それぞれの事象を区別する目印し となるような〔実数値の〕κ1,x2,…, Xi,…があって,変数Xがそのうちのある値Xiを 取る確率Pr(Xi)が与えられている時,こういう変数Xを変量または確率変数という。 〔こ の場合には,厳密には「離散変量」である。〕さて変量Xがある定まったx以下の値を取る 確率Pr(X≦x)を考えると,これはxの函数となるからF(x)と書ける。 このF(x)を変 量Xの分布函数という。つまりその一連の事象の集まりから一つを取り出した時,その事象の 冒印しとした値がκ以下である確率が,分布函数によって知られる訳である。ではこの事と語 彙論とがどう結びつくか。それには下記のように二段に分けて考えるのが便利であろう。

 第一段として,考察の対象である語彙すなわち見出し語の集合から一つの見繊し議を取り出 すことを考える。直観的には,それらの見出し語を等しいスペースに列寵したリストの上に,

高い断から針を落して,針が刺さった見出し語に着目すると考えてもよい。この時,上に述べ た「事象」は「ある見出し語が取り出されること」に亙る。また事象の「目印しjにはその見 出し語の「使用率の値」を採用するQそうすれば「変量」は当然,そういう封印しの様々な値 の一一つとして実現する「使用率」というものであるQここで,一つ取り出した見出し語の使用 率が特定のP以下の傭である確率を知ろうとしたとする。これは上述のところがら分る通り,

分獅函数を使ってF(P)として求められるはずである。もしその函数が既知なら,その式にρ の纏を代入して計算することにより,求める確率は解熱〔もちろん0と1とを両端としてその 範囲にある値〕として示される。

 そこで第二段として,上記の確率が語彙論上どんな性質:のものかに目を向けよう。考察して いる語彙がすべてでし個の見出し語から成るとする。そのL個中で使用率が最大の見目し語 の使用率がPm。xだったとする。この時にはどの見出し語を取っても使用率は必ずPm。x以下

だから,F(Pmax)は1である。更に

   ガ≧PmaxであるようなP に対しては F(P )・・ 1

と言える。次にこの諮彙で最小の使用率がPrnlnだったとする。この時には    Pi,<ρ翻nであるようなP tに対しては F(カt )=・O

と言える。なぜなら,どの見出し語を取ってもその使用率がカminより小さい事は起らないか らである。なお次の事には注意を要する:〔離散変量の場合〕F(Pmin)は0ではない。現に使 用率がPminであるような見出し語が何個かはあるからである。それならこの場合の分布函数

       一38一

       g 3e2

の値はどうなるか。今ここでは,見出し語を一つ護り出すのに,どの見出し語も選ばれるチャ ンスが平等である事を前提に遣いでいるQだから,L個の見蓋し語のうち使用率が訳載であ るものの数を酬麟とすれば,一つだけ取り幽した見出し語の使用率がPminである確率は〔古 典確率論が教える通り〕々7しである。またPminより小さい使用率の見錫し語が現われる確率 は〔上記の通り〕0であった。そこで F(Pmin)=le7L となる。この右辺は,すべてでる個 の見出し語中,使月捧がP、、、i、ユ以下である見出し語の占める割合にほかならない。この事は何 もPminの場合にだけ成り立つのではなく,一般に次のように貯えるのである。

   語彙がL個の見出し語から成る時,使用率がヵ以下であるような兇出し語の数をkと    すれば, F(P):k/L.

 以上のような結びつけ方で,分布函数が語彙論上どんな働きをするかが分った。そこからは 使用率がヵ以下の語が金体の何割を占めるかという,その割会を知ることが出来る。またその 回読を1から引くことによって,使用率がpを越える語の占める罰合も分る。ここでもし語彙 量すなわち見出し語の総個数が既知なら,割含だけでなくその条件を満たす見出し語の個数も.

求められる。更に,分布函数を利用して計算を進めれば,使周率が任意に定めたヵを越えるよ うな(L−k)側の見出し語だけで,延べ語数全体の何割までがまかなわれるかを算出すること も出来る。この最後の結果は,基本語彙を選定する際,何語ぐらいを選んだらよいかを考える・

のに一往の冒安を与えるという意味で,有力な資料となる。また翻訳機械の設計に当っても岡.

様に,寵憶装欄に食えるべき語彙の量を決めるのに役立つであろう。このほか,いわゆる重体.

論研究で藷彙の豊かさなどを論じようとする時,印象による主観的態度や特性の単なる勘定に.

よる方法から進んで,更に精密な論拠を用意することが,使用率の分布函数を利用すれば可能 になる。このように,分布函数の追及は,理論的興味だけでなく様々の問題に応用されるはず のものと言ってよい。

 3・22今までに示され為諸子数式

 使用率または使用度数の散らばり方に関する研究は,上記のようなフォーミュレイショソば 少なかったにせよ,鰍こ幾つかまとめられている。この問題はまだ十分に解明されたとは雷え ない。そうであるだけに,今までに示された説を顧みて麗きたい。ここでは次の四種について

簡単に紹介する:すなわち,CONDON−ZIPFの式, MANDELBROTの式, ZIPFの他の式,

およびわれわれが以前に発増した式である。〔なお式の引用に当っては,比較の便をはかって,

必ずしも原典の記号法によらないことを断って賢く。〕

 (1) CONDON−ZIPFの式滋)ある見出し語の使用度数をf,すべての晃出し語を使用度

数の多い方から並べた時のその見出し語の順位をrで表わせば,

       fr =C

が近似鰍こ成り立つという。ここにCは樹象とする言語表現の集合により統計的に定まる定 数であって,ZIPFによれば現代英語の場合1◎である。注2)〔この式はC. E. SKANNONや P. GUIRAUDの研究に利用された。〕

       一39一

       g3・2

 この武は面接には使用度数〔簡単な変換により使用率に変えられる〕の分廊室数を与えては いない。しかし使用順位γは分母函数と密接に関係する。そのおおよその筋道をたどってみよ う。まず使用旧位を使用度数の函数と考えて r==C/∫ が得られる。次に,この対象の延べ 語数がiV,語彙量がL,またrより類位が若い方へ直上の語の使用順位,使月渡数をそれぞ れ〆,ノ で表わし,更にP ・. f /IV Co・ C々V と置け1ま

       R〈p)一一一r 一一Co/p となる。ゆえに分布函数F(P)は

       F(p) =1−R(p)/L

       または !   〔特にρがγ=:1の時〕

という形1こ表わされる。

 さてCONDON−ZIPFの式は象どんな対象についても成り立つものではない。この批判はつ

とに出ていた。 〔臼本議でも,われわれが調査した婦人雑誌や総合雑誌のデータに.は明らかに 当てはまらない。〕そこで次に,同じく使用順位と使用率との関係に着目したMANDELBRo r の式に移ろう。

 (9)MANDELBROTの式注3)MAND既BROTは,情報理論の考え方を導入し,いきな

り語を取り上げず,その語を形作る音韻とか文字とかいう記母を基礎にして,下記のような函 数式を示した。推論の過程ば省いて結果だけをしるすと,A, B, cを定数として使田鼠ρと 客位γとの闘には

       P=A/(r十B)c

という関係が認められると雷うのである。ただしここでは,次の二つの事を仮定している。

   仮定1 羅を形作る諸豪・畢には,それぞれ一定のco就が対応していると見なし,その       co食tは記母の使用率に比例するものとする。

   仮定2 諸記号は互にどの記号とも結びつき得るものとする。

この仮定を許せば,上記の式が理論的に導けるのである。 (1)の式が金く経験的なものであ るのに引き替え,この式1こは理論の裏づけという強みがある。ただし先の仮定2は特に,雷語 醜事実と著しく反するので,まだ十分な理論とは言えない。だが一般に,CONDON−ZIPFの 武より良い近似を与えていることも争われない。従ってわれわれも一一往この式を総禽雑誌のデ

ータに当てはめてみたが,思わしい結果は得られなかった。

 以上二種の式では使用率を使1調順位と関係づけているが,これを異なり語教と関係づけた研 究もある。それを晃よう。

 滋1(3gページ)E.V. CoNDOI:Statistics of Vocabulary, Science 67,!928に発表された由,なお    cf. G.A. MILLER: Language and Com munication, 195!, pp. 91−92.

 注2(39ページ) G、K. ZIPF:The Psycho−biology of Language,1935, p。45.

 i. i  3 B. MANDELBRoT:Contribution a la th60rie math6matique des jeux de communication,

   1952等。なお原典が入手出来なかったので,L。 BRILLOulN:Science and Information Theory,

   1956, の綴介1 こよった。

       L一 40 一

ドキュメント内 現代語の語彙調査 : 総合雑誌の用語 後編 (ページ 44-50)

関連したドキュメント