方法論 - 両接辞による派生形容詞 - 博士学位論文（東京外国語大学）

4. 両接辞による派生形容詞

4.2. 方法論

本節ではより具体的に、本章における分析に用いた分析手法、およびコロケーションの抽出などの方法論を紹介する。

4.2.1. 分析対象

本章での分析の最終的な目的は、両接辞による派生形容詞の特徴的な修飾パターンを特定したうえで、形容詞派生接辞としての -dor/-nte 間に存在する意味的な差異、類似点を説明することにある。そこで、本章では同一動詞を語根とする、両接辞による派生形容詞のペア（i.e. cortador/cortante）を分析対象とし、それぞれの形式の特徴的な修飾パターンを探る。

ペアを扱うのはこれまでの分析でペアを取り上げてきたことと同様の理由による。

両派生形容詞のペアであるが、前章までに分析してきたペアの内、コーパスes TenTen（分析に使用するコーパス。次節で詳述）における、形容詞としての出現頻度がそれぞれ 1000 を超える40のペアを分析対象として取り上げる。このように、一定以上の頻度を持つ派生語のみを取り上げるのは、分析の妥当性を確保するためである。具体的には、以下のペアを分析対象として扱う。

(stronger) (weaker)

133 表1. 分析対象のペア

表内の数値であるが、例えば、indegrar/-dor の枠内の47885 は使用したコーパス内で、派

生語、integrador の生起回数が 47885 回であったことを示している。その中には、派生名詞

dor nte 総計

integrar 47885 193942 241827

gobernar 127048 42430 169478

dominar 6370 154342 160712

conservar 145449 4352 149801

visitar 2352 106090 108442

contaminar 3562 87374 90936

cantar 6636 60804 67440

portar 50136 3994 54130

operar 44532 4636 49168

estimular 2941 36723 39664

limitar 2576 35030 37606

aspirar 1853 33580 35433

amenazar 9303 24636 33939

triunfar 11220 17444 28664

motivar 21653 4300 25953

donar 2243 20439 22682

cortar 3708 18360 22068

contar 16843 3961 20804

aislar 1441 17865 19306

tranquilizar 9944 4554 14498

navegar 6809 6154 12963

embriagar 2639 9549 12188

volar 6736 5222 11958

deslizar 2100 9491 11591

observar 9969 1478 11447

cautivaｒ 5929 4037 9966

secar 7531 2047 9578

globalizar 7042 1618 8660

estabilizar 7148 1007 8155

detonaｒ 2046 6103 8149

cargar 6677 1396 8073

avasallar 4818 3181 7999

discriminar 5067 2648 7715

certificar 6032 1091 7123

bloquear 3643 3041 6684

totalizar 5233 1412 6645

socializar 3586 1220 4806

perforar 2665 1468 4133

quemar 2037 1330 3367

moralizar 1407 1936 3343

総計 616809 940285 1557094

134

としてのintegrador の使用も含まれている。

4.2.2. コーパスとコロケーションの強度

コロケーションの強度を測定する際には、使用する資料体の規模が大きければ大きいほど正確な結果が得られる。そこで本研究ではスペイン語コーパスの中でも最大規模の、es

TenTenコーパスを使用する。コーパス名にある TenTenは「10の10乗」、つまり 100 億語

規模であることを示す。 es は「スペイン語」の略字である。本コーパスはウェブサイト

Sketch Engine 内で公開されているが、当該サイトにはスペイン語だけでなく英語や日本語

の TenTen コーパスも公開されており、言語学の研究だけでなく、辞書の作成にも使用されている¹⁰。コーパスの詳細や TenTen コーパスの理念については、 Jakubíček et al. (2013) を参照されたい。

このコーパスには分析機能、 Word Sketch Differences が搭載されており、本章における分析ではこの機能を使用し、先に紹介した派生形容詞のペアを分析する。多くのコーパスでは一度に一種類の語や句、レマが分析されないが、この Word Sketch Differences 機能を利用することで、同時に二種類のレマを分析することができる。この機能を使用することで問題となる二種類のレマの内の片方とのみ強く結びついた語が検出される。基本的に、類似した二種類の語をコロケーションという観点からその類似点、差異を探るために使用される分析機能である。形容詞については、 Word Sketch Differences で分析すると、それとの結びつきの強い名詞、修飾されやすい名詞がリストとなって表示される。同じ動詞を語根とする同義的な派生形容詞の意味的差異・類似点の記述を目指す本章の目的に合致した極めて有用な機能であるといえるだろう。

例えば、分析対象である limitador/ limitante というペアを Word Sketch Differences を用いて分析すると以下の表が得られる。

10 小学館、Oxford University Press, Cambridge University Press, Collins 等の出版社も Sketch Engineを辞書の作成にあたって使用している。

135 表2. Limitador/limtiante の分析

Word Sketch Differences から得られる表はこのように、緑、赤、白の三色で区分されてい

る。それぞれの色は、それぞれの語との結びつきの強さを表している。

緑のセクション内の名詞は典型的に limitador によってのみ修飾され、limitante によっては修飾されない名詞、赤いセクション内の名詞は limitante によって典型的に修飾さ

れ、 limitador が修飾することのない名詞がコロケーションの強度順に列挙される。この二

種類のセクション内の名詞を観察していくことで両タイプの派生形容詞に固有の修飾パターンが推測できる。また、白いセクション内の名詞は両派生形容詞が一定の頻度で修飾する名詞であり、両タイプの派生形容詞の類似点を記述する足がかりとなる。

Word Sketch Differences を用いた分析においては、コロケーションの強度を表す指標とし

て、絶対頻度および logDice という二種類の指標を選択することができる。前者は問題となる二語の単純な共起の回数、後者はそれに統計的な処理を施したものであるが、本研究では後者をコロケーション上の強度を測定するための尺度として採用する。

絶対頻度はコロケーション、共起関係の強さを測定するための指標としては必ずしも適切なものではない。例えば、es TenTen には、2,084,306 件の estudiante(s) という語の生起がある。そして、同コーパスにおいてこの名詞が定冠詞 el, la, los, las と共起する回数は

854,997 回であった。このように、およそ 41% のestudiante は定冠詞と共起していること

になり、この共起回数の多さから、定冠詞と estudiante の共起関係は強いように思われる。

しかしながら、定冠詞の側からこの共起関係をみると、それはむしろ弱いものである。当該

136

コーパスには、952,568,249 回の定冠詞の生起が確認されていて、この定冠詞の内、

estudiante と共起した回数は 854,997 であり、その共起率はおよそ 0.09% に留まる。

このように、語と語の結びつきは、単純な共起の回数からははかり知ることができないために、コロケーションの研究においては統計的指標が用いられる。本研究で使用する指標、

logDice もその一つで、これはダイス係数を対数化したものである。そのダイス係数である

が、以下の数式から得られる。

ダイス係数= 2𝑓𝑎𝑏 𝑓𝑎 + 𝑓𝑏

ダイス係数とはこのように、ある語 a と共起語 b のそれぞれの出現頻度の和で a と b の共起回数を二倍した数値を割ったものである。このダイス係数はコロケーションの強度を測る指標として妥当なものと考えられているが、それは通常、極めて低い数値となり、分析や議論を煩雑なものにすることがしばしばあった。そこで Rychlý (2008) はこのダイス係数を対数化し、さらに14 を加えたlogDice を提案した。この点について Rychlý (2008) は以下のように述べている。

As one can see from the previous section, Dice score gives very good results of collocation candidates. The only problem is that the values of the Dice score are usually very small numbers.

We have defined logDice to fix this problem.

logDice = 14 + log2 2𝑓𝑎𝑏 𝑓𝑎 + 𝑓𝑏

Values of the logDice have the following features:

– Theoretical maximum is 14, in case when all occurrences of X co-occur with Y and all occurrences of Y co-occur with X. Usually the value is less then 10.

– Value 0 means there is less than 1 co-occurrence of XY per 16,000 X or 16,000 Y. We can say that negative values means there is no statistical significance of XY collocation.

– Comparing two scores, plus 1 point means twice as often collocation, plus 7 points means roughly 100 times frequent collocation.

– The score does not depend on the total size of a corpus. The score combine relative frequencies of XY in relation to X and Y.

- All these characteristics are useful orientation points for any field linguist working with collocation candidate lists.

(Rychlý 2008: 9)

137

logDice の他に、広く知られているコロケーションの指標としては T スコア、および MI

スコア等がある¹¹。しかし前者は共起の絶対頻度の高い語を、後者は共起回数の少ない語をそのほかの指標に比べ高く評価する傾向がある。その性質から、例えば名詞のコロケーションを T スコアを用いて分析した場合、定冠詞や指示代名詞といった機能語が検出されることがしばしばある¹²、同様に、MI スコアによる分析では、その性質から母語話者ですら聞きなれない語や、つづりのおかしい文字列が強度の高いコロケーションとして検出されるケースが散見される¹³。logDice による分析でこうした極端な共起語が検出されることは稀であり、本研究では語の共起関係が習慣的であるか否かを判断する際に、この logDice を判断の基準として使用する。

ドキュメント内博士学位論文（東京外国語大学） (ページ 133-138)