4. 両接辞による派生形容詞
4.2. 方法論
本節ではより具体的に、本章における分析に用いた分析手法、およびコロケーションの抽 出などの方法論を紹介する。
4.2.1. 分析対象
本章での分析の最終的な目的は、両接辞による派生形容詞の特徴的な修飾パターンを特 定したうえで、形容詞派生接辞としての -dor/-nte 間に存在する意味的な差異、類似点を説 明することにある。そこで、本章では同一動詞を語根とする、両接辞による派生形容詞のペ ア(i.e. cortador/cortante)を分析対象とし、それぞれの形式の特徴的な修飾パターンを探る。
ペアを扱うのはこれまでの分析でペアを取り上げてきたことと同様の理由による。
両派生形容詞のペアであるが、前章までに分析してきたペアの内、コーパスes TenTen(分 析に使用するコーパス。次節で詳述)における、形容詞としての出現頻度がそれぞれ 1000 を超える40のペアを分析対象として取り上げる。このように、一定以上の頻度を持つ派生 語のみを取り上げるのは、分析の妥当性を確保するためである。具体的には、以下のペアを 分析対象として扱う。
(stronger) (weaker)
133 表1. 分析対象のペア
表内の数値であるが、例えば、indegrar/-dor の枠内の47885 は使用したコーパス内で、派
生語、integrador の生起回数が 47885 回であったことを示している。その中には、派生名詞
dor nte 総計
integrar 47885 193942 241827
gobernar 127048 42430 169478
dominar 6370 154342 160712
conservar 145449 4352 149801
visitar 2352 106090 108442
contaminar 3562 87374 90936
cantar 6636 60804 67440
portar 50136 3994 54130
operar 44532 4636 49168
estimular 2941 36723 39664
limitar 2576 35030 37606
aspirar 1853 33580 35433
amenazar 9303 24636 33939
triunfar 11220 17444 28664
motivar 21653 4300 25953
donar 2243 20439 22682
cortar 3708 18360 22068
contar 16843 3961 20804
aislar 1441 17865 19306
tranquilizar 9944 4554 14498
navegar 6809 6154 12963
embriagar 2639 9549 12188
volar 6736 5222 11958
deslizar 2100 9491 11591
observar 9969 1478 11447
cautivar 5929 4037 9966
secar 7531 2047 9578
globalizar 7042 1618 8660
estabilizar 7148 1007 8155
detonar 2046 6103 8149
cargar 6677 1396 8073
avasallar 4818 3181 7999
discriminar 5067 2648 7715
certificar 6032 1091 7123
bloquear 3643 3041 6684
totalizar 5233 1412 6645
socializar 3586 1220 4806
perforar 2665 1468 4133
quemar 2037 1330 3367
moralizar 1407 1936 3343
総計 616809 940285 1557094
134
としてのintegrador の使用も含まれている。
4.2.2. コーパスとコロケーションの強度
コロケーションの強度を測定する際には、使用する資料体の規模が大きければ大きいほ ど正確な結果が得られる。そこで本研究ではスペイン語コーパスの中でも最大規模の、es
TenTenコーパスを使用する。コーパス名にある TenTenは「10の10乗」、つまり 100 億語
規模であることを示す。 es は「スペイン語」の略字である。本コーパスはウェブサイト
Sketch Engine 内で公開されているが、当該サイトにはスペイン語だけでなく英語や日本語
の TenTen コーパスも公開されており、言語学の研究だけでなく、辞書の作成にも使用され ている10。コーパスの詳細や TenTen コーパスの理念については、 Jakubíček et al. (2013) を 参照されたい。
このコーパスには分析機能、 Word Sketch Differences が搭載されており、本章における分 析ではこの機能を使用し、先に紹介した派生形容詞のペアを分析する。多くのコーパスでは 一度に一種類の語や句、レマが分析されないが、この Word Sketch Differences 機能を利用す ることで、同時に二種類のレマを分析することができる。この機能を使用することで問題と なる二種類のレマの内の片方とのみ強く結びついた語が検出される。基本的に、類似した二 種類の語をコロケーションという観点からその類似点、差異を探るために使用される分析 機能である。形容詞については、 Word Sketch Differences で分析すると、それとの結びつき の強い名詞、修飾されやすい名詞がリストとなって表示される。同じ動詞を語根とする同義 的な派生形容詞の意味的差異・類似点の記述を目指す本章の目的に合致した極めて有用な 機能であるといえるだろう。
例えば、分析対象である limitador/ limitante というペアを Word Sketch Differences を用 いて分析すると以下の表が得られる。
10 小学館、Oxford University Press, Cambridge University Press, Collins 等の出版社も Sketch Engineを辞書の 作成にあたって使用している。
135 表2. Limitador/limtiante の分析
Word Sketch Differences から得られる表はこのように、緑、赤、白の三色で区分されてい
る。それぞれの色は、それぞれの語との結びつきの強さを表している。
緑のセクション内の名詞は典型的に limitador によってのみ修飾され、limitante によ っては修飾されない名詞、赤いセクション内の名詞は limitante によって典型的に修飾さ
れ、 limitador が修飾することのない名詞がコロケーションの強度順に列挙される。この二
種類のセクション内の名詞を観察していくことで両タイプの派生形容詞に固有の修飾パタ ーンが推測できる。また、白いセクション内の名詞は両派生形容詞が一定の頻度で修飾する 名詞であり、両タイプの派生形容詞の類似点を記述する足がかりとなる。
Word Sketch Differences を用いた分析においては、コロケーションの強度を表す指標とし
て、絶対頻度および logDice という二種類の指標を選択することができる。前者は問題と なる二語の単純な共起の回数、後者はそれに統計的な処理を施したものであるが、本研究で は後者をコロケーション上の強度を測定するための尺度として採用する。
絶対頻度はコロケーション、共起関係の強さを測定するための指標としては必ずしも適 切なものではない。例えば、es TenTen には、2,084,306 件の estudiante(s) という語の生起が ある。そして、同コーパスにおいてこの名詞が定冠詞 el, la, los, las と共起する回数は
854,997 回であった。このように、およそ 41% のestudiante は定冠詞と共起していること
になり、この共起回数の多さから、定冠詞と estudiante の共起関係は強いように思われる。
しかしながら、定冠詞の側からこの共起関係をみると、それはむしろ弱いものである。当該
136
コーパスには、952,568,249 回の定冠詞の生起が確認されていて、この定冠詞の内、
estudiante と共起した回数は 854,997 であり、その共起率はおよそ 0.09% に留まる。
このように、語と語の結びつきは、単純な共起の回数からははかり知ることができないた めに、コロケーションの研究においては統計的指標が用いられる。本研究で使用する指標、
logDice もその一つで、これはダイス係数を対数化したものである。そのダイス係数である
が、以下の数式から得られる。
ダイス係数= 2𝑓𝑎𝑏 𝑓𝑎 + 𝑓𝑏
ダイス係数とはこのように、ある語 a と共起語 b のそれぞれの出現頻度の和で a と b の共起回数を二倍した数値を割ったものである。このダイス係数はコロケーションの強度 を測る指標として妥当なものと考えられているが、それは通常、極めて低い数値となり、分 析や議論を煩雑なものにすることがしばしばあった。そこで Rychlý (2008) はこのダイス係 数を対数化し、さらに14 を加えたlogDice を提案した。この点について Rychlý (2008) は 以下のように述べている。
As one can see from the previous section, Dice score gives very good results of collocation candidates. The only problem is that the values of the Dice score are usually very small numbers.
We have defined logDice to fix this problem.
logDice = 14 + log2 2𝑓𝑎𝑏 𝑓𝑎 + 𝑓𝑏
Values of the logDice have the following features:
– Theoretical maximum is 14, in case when all occurrences of X co-occur with Y and all occurrences of Y co-occur with X. Usually the value is less then 10.
– Value 0 means there is less than 1 co-occurrence of XY per 16,000 X or 16,000 Y. We can say that negative values means there is no statistical significance of XY collocation.
– Comparing two scores, plus 1 point means twice as often collocation, plus 7 points means roughly 100 times frequent collocation.
– The score does not depend on the total size of a corpus. The score combine relative frequencies of XY in relation to X and Y.
- All these characteristics are useful orientation points for any field linguist working with collocation candidate lists.
(Rychlý 2008: 9)
137
logDice の他に、広く知られているコロケーションの指標としては T スコア、および MI
スコア等がある11。しかし前者は共起の絶対頻度の高い語を、後者は共起回数の少ない語を そのほかの指標に比べ高く評価する傾向がある。その性質から、例えば名詞のコロケーショ ンを T スコアを用いて分析した場合、定冠詞や指示代名詞といった機能語が検出されるこ とがしばしばある12、同様に、MI スコアによる分析では、その性質から母語話者ですら聞 きなれない語や、つづりのおかしい文字列が強度の高いコロケーションとして検出される ケースが散見される13。logDice による分析でこうした極端な共起語が検出されることは稀 であり、本研究では語の共起関係が習慣的であるか否かを判断する際に、この logDice を 判断の基準として使用する。