付録1
{もし丁丁ならそれは科学ではないし,後者なら研究水準の低さのあかしである。〕
そこで以下に,語彙調査が成立する方法論的基礎を,もう少し掘り下げてみたい。その前に 幾つかの基本的概念を定義する必要を覚える。すなわち
単位語 「語」と一下に呼ばれその存在が予期される単体として,実際の二二蓑現に震 現したもの%を,単位型という。
単位語は,いわゆる単純語とは限らず,場合によっては複合語や語根・造語成分であってもさ しっかえない。その内容酌な定義窯別に行えばよく,この調査では.「β単位」と名づけて先に.
げん§2・3で述べたものを単位語と認めた。また計量約研究では,単位語を集合の元(element)
と考えると痩利な拳:が多い。
見出し語 意味上形式上同じと見てよい元〔すなわち単位語〕から成る集合σを〔それ らの単位語の〕見出し語という。
雪語学1{勺には,それらの単泣語の集禽から抽象した語形,あるいはその集合の呼び名として,
「見出し語」の名称を使う方がよかろうが,二丁自体をさすものと約束しても概念の混乱は起 るまいから,上認のように定義した○
使購度数 ある揺語表現1こおいて認められるある見出し語σに属する元の数を, 〔その 言語表現での〕ひの使用度数という。
延べ語数 ある言語表現において認められるすべての見出し語の使月渡致の和を, 〔そ の言語蓑現の〕延べ語数というQ
すなわちその三門表現でi吏われている単位語の総数が延べ語数である。またそれは,集合Uの 集合に属する元の数とも雷い換えられる。
使用率 冤出し語σについての使用度数∫の,ひを含む雷語蓑現についての延べ語数π
に対する,比の鰺ヵr肋を〔その言語表現での〕Uの随用率という。
従って 0≦P≦1 である。
異なり語数 ある言語表現において認められるすべての見出し語の数を〔その言語表現 の〕異なり語数という。
語彙 ある雷語表現において認められるすべての箆出し語から成る集合を〔その言語蓑 現の〕語彙という。
語彙は集含σの集含だとも雷い換えられる。
なおこの報告書では,以上七つの概念は上記の意味に使った。また文脈などで自明と思われ る揚合には,単に「語」で「単位語」または「見出し語」をさしたこともある。
立ち返って,語彙調査で使用率が測れるための条件一一語彙調査が科学的操作として意味を もつための根拠になる事柄を考えよう。それは,この付録1の最初に述べた三つの事柄に対応 して,次の三つの群の七つの事柄に帰するように思われる。
単位語認定の可能性
ユ。任意の単位語μが同時に異なった位概を占めることがない。一πが必ず一続きのま
一95一
付録1
とまりを成し,その間に別の単位語ノが割ってははいらない。
2。任意の単位語Ul. u2が同時に同じ位置を占めることがない。
3。任意の雷語表現に対して,表現の意味を指定すれば,そこでの延べ語数がただ一通1)
に定まる。
見繊し語認定の可能性
4。・任意の単位語Ulとu2とについて Ul≡u2か,Ul SS u2かのどちらか一方だけが 成り:立つ。ここに
駒蕪挽 とは 勧∈びかつ晩∈…σ のことであり,
Ul≠U2 とは Ul∈U1. U2 di U2でUI∩U2が空集合 となることである。
5。任意の書語表現に対して,表現の意味を指定すれぽ,そこでの異なり語数がただ一通 りに定まる。
計量的操作の可能性
6。使紺度数,従って延べ語数には簿徳的な演算が施ぜる0 7。異なり語数には集合論的な演算が施せるQ
理想的な単位語認定法は少なくとも励磁の1。〜3。を満たさなければならず,理想的な単位語 分類法は少なくとも上寵の4。〜5。を満たさなければならない。注)ところで2。については,
ろくだいめ は せ が わ けいぶ
一見そのままでは適甚しないような言語現象があるQたとえば「菊五郎」「殺人を覗く男」の ような二重表記, 「来ぬ人をまつほの浦の」 「あとしら浪と消え失せる」のような懸詞であ る。これらは普通の用語の習慣に意図的に逆らった所に蓑現価纏を生じている。そしてこれら は上記40〜5。についても難関となるQ何とか解決をつけなければ,調査の方法論的基礎をく ずしてしまう。なるべく他と矛盾しない扱い方を定め,上記の七条件が操作上満たされるよう にしなければならないQたとえば,二重表記は,その一方の形が本体であり他方がその意味の 注記の働きを受け持つと見なせる。そこでその本体と兇なぜる方だけを採る,つまり上の例で は「ろくだいめ」「殺人を覗く男」の方の形を採りもう一方を捨てることに約束するというの が,一つの解決策である。また懸詞は音の連想を利燭した表現である。従って連想される語形 の方は無視する,つまり,「待つ」ではなく「松帆」を,「知ら(ず)」ではなく「白浪」を採 ることに約束するというのが,一つの解決策である。それはちょうど,「紫」という語が交脈 の中で「高貴」をさしていても,その語を色名として扱うのと同じ態度である。このような解 決策を採れば,上寵の例の揚合も先の前提と矛鷹を起さない。
そしてこれらの前提条件を根拠として認めた上で,その線に沿って行われた語彙調査が,初 めて意味をもつ。ある語の使用率の大小が一往はその語の重要さの度合を測る霞安になるとい
う,従来階黙のうちに認められて来た考え方も,上述のような根拠をそれとなく予期しての立 言と思われる。
注 これは必要条件である。十分条件としては更に,その操作の結果が,われわれをの書語を使う集繊 にとって不自然なものでなく,かつ魍語学上も意味のあるものでなければならない。
一96一
付録il この調査で採った抽出・推定法
1 抽出・推定の方針
この調査の標本抽鵬に当って考えるべき条件は,次のようなものであった。
k。調査対象とした範閥の雑誌群における,懸々の語の使用率を推矩する。雑誌は更にそ の性格によって層に分け,履での使用率も求める。
1 雑誌別の使用率を求めることは,調査目的に照らして余り意味があるまいから,行わ ない。また調査対象を通じて施した記事別ごとの使用率を求めることは意嚢があろう が,実際上艶事分類の作業が困難な割には良い結果が得難いから,これも行わないG 2。 〔最終〕抽出単位を「語」にすることは作業の実際上出来ないから,雑誌の形態を利 用して「ページ」のようなものにするQ
3。調査射象の延べ語数が正確には分らないから,比推定を使う。
4。調査能力と考え合わせて標本の大きさは二十五万語程度とする。〔なお調査対象全体 の延べ語数は三九百万と推定された。〕
5。使用率の推定だけでなく,なるべく色々な言語分析に便利な方式を選ぶ。
6。使用率の大きな語については推定精度も算鋤したいので,なるべく精度計箕に手闘の
カ、カ、らなし、プヲ式を選。ぶ。
既にわれわれは語彙の抽出調査を二つ経験している。一つは婦人雑誌調査で,ページな抽出単 位とする}醐il一段抽出法を旧いた〔二三報告4§2・52参照〕。他は,今回の調査の準傭として 薙ベニが語の標本によりおもに方法論を検討した調査で,雑誌の号を第一次抽出単位,ぺ■一ジ を最終抽出単位として,確率比例二段抽出法を用いた。これらを比べれば次の事が分る○同じ 大きさの標本を取る時,
精度の点では一段抽墨がすぐれている。
計算の手間では確率比例抽出がすぐれている。
そこで爾者の利点を兼ね備えた抽出法をくふうすべきである。この観点から次の事が考えられ
る。
集落の大きさが等しければ,集落の確率比例抽出は等確率抽出と同じ事になるQ 等大の集落の形成がランダムに行われていれば,集落抽出法による精度は平均として一 段抽出法の場合と等しい。注)
ゆえに,もし最終抽出単位のrandom selectionによって等大の集落が作れれば,等 確率でこういう集落を抜いた場合の平均精度は,最終単位をそれと同数だけ抜く一段抽出 一97一
付録H 法の場合とほぼ等しい。
以上の考察の結果,すべての集落が同数のページ,従って大体同数の語を含むようにページを ランダムに組み合わせ,こうして作った集落から必要数をランダムに抜き,抜かれfc集落が含 む本文のすべての語を調べるという方針を立てた。
2 抽出三方式の比較
上述の三方式以外にも抽出法は色々考えられるが,作業の実際とにらみ合わせれば,一往こ の三つの優劣を見るだけでよかろう。結論を表にして示せば,
比較項目
一段抽出法
確率比例:二段抽出法 等大の集落抽出法抽出台帳の