1.はじめに
今日,接辞を見出しで扱うドイツ語学習辞書は珍しくないが,Langenscheidt Großwörterbuch Deutsch als Fremdspracheは,他のドイツ語学習辞書や英語学習辞書に先駆けて,接辞(や 一部の語形成)の生産性を,sehr produktiv,begrenzt produktiv,nicht produktiv(2010 年版はwenig produktiv)の3段階で評価している。これは,語彙学習における接辞の 重要性を意識したもので,生産性の程度を知ることで,すなわち,生産性の高い接辞か らそうでないものまでを段階的に区別することで,効率的な語彙学習を促すことが狙い であると考えられる。 しかしながら,語彙に比べ,接辞に関しては教育上の共通認識を形成しようとする動 きがほとんど見られないのが実情で,筆者の手元にあるドイツ語教材を見比べてみて も,1)扱われる接辞や,その順序,分量も異なっている。その限りにおいて,接辞学習は 使用する教材や教員の判断に委ねられる部分が大きい。そのため,個々の接辞や形態規 則がどの程度多様で,どの程度新語を 出しているのかをコーパスを手掛かりに言語使 用の観点から捉え直すことが有効であると考えられる。しかし,ドイツ語の接辞を対象 とした従来のコーパス研究は,接辞の生産性の変化と,意味的制約や統語的制約の変化 との関係を通時的観点から考察した研究がほとんどで(Scherer, 2005;Hartmann, 2016; Wegera, Waldenberger & Lemke, 2018),使用するコーパスにも偏りがある。接辞の生産 性はテキストジャンルに影響されるとも言われており(Baayen, 1994;Baayen & Renouf, 1996;Plag, Dalton-Puffer & Baayen, 1999;Baayen, 2009),接辞に関する共通認識とは 何かを探っていくためには,様々なジャンルのテキストを利用して多角的に接辞の使用 実態を観察していくことも重要になる。
1) たとえば,Cornelsen社のドイツ語総合教材Studio dシリーズ5冊(A1からB2.1)と Ernst Klett Sprache社のMittelpunkt neuシリーズ2冊(B1+とC1.1)を見比べると,Mittelpunkt neuはほぼ各課で派生を文法の習得項目としており,巻末には造語法に関する解説を掲載してい る。一方,Studio dはB1で2項目,B2.1で1項目を扱うにとどまっている。また,Studio dの 登場順序は,(1)否定の形容詞をつくるun –,–los,(2)形容詞を名詞にする–keit,–heit,(3) 反義関係にある–losと–vollであるのに対し,Mittelpunkt neuの登場順序は,(1)形容詞をつ くる–ig,–lich,–isch,(2)除去を意味するent –,(3)形容詞を名詞にする–heit,–(ig)keit, –schaft,–ung,–(a)tion,–tätとなっており,取り上げる項目,順序,範囲は両者で異なってい る。
現代ドイツ語の
接尾辞使用とテキストジャンル
─形容詞をつくる接尾辞を例として以下では,現代ドイツ語の接辞使用を計量的に概観する試みとして,形容詞をつくる 接尾辞を例に,その生産性とテキストジャンルの関係を検証する。 2.先行研究 2.1 生産性の評価 接辞や形態規則の生産性は,形態論の重要なテーマのひとつであり,Harald Baayen らを中心に,様々な手法を用いて生産性を評価する試みがなされてきた(Bauer, 2004; Haspelmath & Sims, 2010;Hartmann, 2016)。Duden (2016:688)によると,たとえば, ドイツ語の接辞では,動詞を基礎とする接尾辞の–ung,–er,–bar,形容詞を基礎とす る接尾辞の–heit,–keit,–igkeit,縮小辞の–chen,女性形をつくる接尾辞の–inなどが 生産的な接辞であるとされる。しかし,その評価基準は不明であり,生産性を問題にす る際は,どのような側面に重きを置いた評価であるのかに注意を払う必要がある。これ まで提案された手法のうち,よく用いられるのが,表1の指標である。 表1 代表的な生産性指標とその算出方法および目的 生産性指標 算出方法 目的 (1) realized productivity タイプ数 規模 (2) potential productivity hapax legomena数 / トークン数 潜在力 (3) expanding productivity hapax legomena数 / コーパス全体のhapax legomena数 拡張度 (1)のrealized productivityは,当該の接辞が実際に結びつく形態素の数(いわゆるタ イプ数)のことで,当該の接辞の規模(あるいは多様性)を捉える際に利用される。 ただし,規模の大きい接辞が必ずしも生産性が高いとは限らない。生産性の高い接辞 ほど,新語や新しい形式を多く 出するが,こうした新語は通常稀にしか用いられない という特徴がある(Baayen & Renouf,1996)。(2)のpotential productivityは,この稀 な事例を生み出す潜在力や 造性をどの程度有しているのかを測る指標で,当該の接辞 をとる使用頻度1回の語(hapax legomena,以下,hapax)の数と当該の接辞をとるす べての語(トークン数)との比によって求められ,category-conditioned degree of pro-ductivityとも呼ばれる(Baayen & Lieber, 1991;Baayen, 1993)。
ただし,接辞のタイプ数が多く,様々な種類の形態素と結合したとしても,新語をあ まり生み出さない場合もあれば,逆に,新語を生み出す割には,多くの形態素と結合せ ず,タイプ数が少ない場合もある(Haspelmath & Sims, 2010)。そこで,(1)を縦軸,(2)
を横軸として二次元平面上に双方の値を布置することで,生産性を評価する手法(global
productivityと呼ばれる)も考案されている(Baayen & Lieber, 1991)。しかし,この手 法では,たとえば,(1)が高くて(2)が低い接辞と,(2)が高くて(1)が低い接辞のどち
らが生産的であるのかといった問題に答えることができない。また,(1)と(2)の関係
こうした問題に対処すべく考案された指標が(3)のexpanding productivityで,当該の 接辞をとるhapaxの数とコーパス全体のhapaxの数の比で算出され,hapax-conditioned degree of productivityとも呼ばれる(Baayen, 1993)。この指標は,当該の接辞が新語を
拡張する程度を測る際に利用される。他方で,コーパス中のhapaxの認定は,単語の定
義に依拠する部分も大きく,数値が変動する恐れもある。
以上の3指標は,コーパスサイズに影響されるために利用の際には注意が必要である
が,これらの指標はシンプル(何を算出しているかが明確)であるという利点もあり, Haspelmath & Sims(2010:132)は,hapaxを基礎とする(2)または(3)の利用が増え ているとしている。
また,Baayen(2001)は,LNRE(large number of rare events models)という新た
な手法も提案している。2)このモデルも,使用頻度の低い語を数多く産出するものが生産
性の高い接辞であるとの考えを土台とするものであるが,hapaxに加えて,使用頻度2
回の語(dis legomena),使用頻度3回の語(tri legomena)などの頻度配分を考慮する という特徴がある。
この他にも,本来の目的・用途とは異なるが,Claude Elwood Shannon(1916-2001)
によって考案されたentropy(平均情報量)も,コーパス研究ではしばしば利用され
(Miyaoka & Tamaoka, 2005;金, 2018),Joachim Scharloth氏(早稲田大学)らの研究グ ループによるドイツ語の語彙に関するサイト(http://www.basic-german.com)では,基 礎語彙の造語能力の評価に用いられている。 ただし,こうした各種の手法を用いたドイツ語の接辞研究は,新聞コーパスを分析対 象とした研究にとどまっており,テキストジャンルの違いが考慮されていない。 2.2 生産性とテキストジャンル ドイツ語学習の重心が話し言葉から書き言葉に移行し,扱うテキストの種類が多様に なると,指導する教員には,話し言葉と書き言葉の間や,テキストジャンル間の相違の 把握が求められる。また,専門分野のドイツ語指導の際には,分野固有の特徴を理解し ておくことも重要になる。しかし,実際には,そうした相違や特徴を捉えることは容易 ではない。一方,英語やオランダ語では,接辞の生産性とテキストジャンルとの関係を 巡って,計量的観点からいくつかの研究がなされてきた。
たとえば,Plag, Dalton-Puffer & Baayen(1999)は,British National Corpusに含ま 2) LNREは,単語の出現頻度と順位の積が定数となることを示したZipfの法則に依拠して 考案されたものであるが,この法則に異議が唱えられて以降,いくつかの修正版が提案されて いる。たとえば,Lüdeling & Evert(2003)は,2000年代にドイツで出版された新聞を対象に, 形容詞をつくる接尾辞–lichと結合する形態素の品詞に注目して,LNREモデルの修正版のひと つであるGIGPモデル(generalised inverse Gauß-Poisson model)を用いて,生産的か否かを調 査し,名詞,形容詞,動詞のいずれの品詞も当該モデルに適合せず,生産的とは言えないもの の,複合語をとる–lichが唯一生産的であると判定されたとしている。
れる書き言葉,フォーマルな話し言葉,インフォーマルな話し言葉をデータとして,表 1の(2)の指標を用いて,接尾辞の生産性を調査した結果,多くの接尾辞は話し言葉よ りも書き言葉で生産的で,–nessは書き言葉では–ableよりも生産的であるが,自発的な 会話では,–ableは–nessよりも かに生産的であるなどの特徴が見られたことを指摘し ている。 Baayen(2009)は,英語の子供向けテキスト,官庁の文書,文学テキスト,聖典 (religious texts)をデータとして,同じく表1の(2)の指標を用いて,後述する主成分分 析という統計手法で接辞との相関構造を分析した結果,分析対象とした接辞は,ゲルマ ン系の接辞とラテン系の接辞に二分され,前者は子供向けのテキストで,後者は官庁の 文書や小説などで生産性が高くなったとしている。 また,Keune(2012)は,書き言葉と話し言葉のコーパスを対象に,今述べたBaayen (2009)と同様の手順で,オランダ語の接辞を分析した結果,話し言葉よりも書き言葉 で,インフォーマルよりはフォーマルなテキストジャンルで接辞の生産性が高かったこ とや,特定のテキストジャンルにおいて特徴的に使用される接辞が見られたと指摘して いる。 以上の結果を踏まえるならば,ドイツ語の接辞においても,テキストのフォーマリ ティや文体の違いによって,生産性が異なっている可能性が考えられる。もっとも,ド イツ語の語形成とテキストジャンルとの関係については,Fleischer & Barz(2012)が既 往研究を概観しているが,合成語や新語に関する議論が主流で,接辞を対象とした研究 はほとんど見られない。 3.リサーチデザインと手法 3.1 研究目的とリサーチクエスチョン そこで,本研究では現代ドイツ語における接辞の使用傾向を捉えるための試行的調査 として,複数のテキストジャンルからなるコーパスを用いて,形容詞をつくる接尾辞を 例に,計量的観点から生産性を評価すると共に,テキストジャンルとの関係を概観する ことを目指す。分析に際して具体的に設定するリサーチクエスチョン(RQ)は以下の 3点とする。 RQ1:接尾辞の生産性はどの程度で,辞書の評価とどの程度一致するか? RQ2:接尾辞の生産性にジャンル差は見られるか?見られるならば,どの接尾辞にお いてか? RQ3:ジャンル差を示す接尾辞にはどのような特徴が見られるか? 3.2 データ 本研究では,既存コーパスの中で最も種類が多く大規模なコーパスを公開しているベ ルリン・ブランデンブルク科学アカデミー(BBAW)のDWDS(Digitales Wörterbuch
der deutschen Sprache, http://www.dwds.de)に収録の(1)Die Zeit紙(2000-2016年, 以下「新聞」),(2)学術書(1990-2009年),(3)映画字幕(2000-2014年,以下「字 幕」),(4)ブログ(2000-2016年)の4コーパスを利用する。コーパスの年代は基本的 に2000年以降とするが,学術書については,コーパスサイズが他のコーパスと比較し て小規模であるため,1990年から2009年までとする。 分析対象とする接尾辞は,語源や(意味的・統語的)カテゴリーの違いを考慮せず, Altmann(2011),Donalies(2011),Fleischer & Barz(2012),Duden(2016)など,造 語法の概説書や文法書で取り上げられている形容詞をつくる15の接尾辞(–abel,–al, –ant,–är,–bar,–ell,–haft,–ig,–isch,–iv,–lich,–los,–mäßig,–sam,–voll)とし, これらの接尾辞をとる形容詞を抽出する。抽出にあたっては,検索式で一括して事例を 収集すると共に,必要に応じて手作業で修正を行なう。 3.3 手法 RQ1では,新聞,学術書,字幕,ブログの4コーパスにおける各接尾辞の生産性の 程度を評価し,Langenscheidtによる評価と比較する。生産性の評価には,先行研究に 倣って,接辞の潜在力や 造性に焦点を当てた表1のpotential productivity(以下,pp) を利用し,各接尾辞をとる語の総数(トークン数)において,hapaxが含まれる割合を 算出する。ただし,使用する4コーパスのサイズは異なっており,各接尾辞をとる形容 詞の使用頻度は一様でないため,各コーパスから抽出する接尾辞の事例数に制限を設け る。具体的には,原則3000例を無作為に抽出することとし,3000例に満たない場合は, 可能な数だけ事例を抽出するという方針をとる。表2は,4コーパスにおける15の接 尾辞のppを集計した結果で,4コーパスのppをそれぞれ総計し,数値の高いものから 順に並べている(3000例を満たさない事例は「網掛け」で強調)。 表2を見ると,たとえば,最上位の–ischはいずれも0.1前後で,最下位の–samは 0.005∼0.013の範囲の値をとっている。上位から下位に向けてppの値をざっくり見て いくと,総じて低くなっており,上位の接尾辞と下位の接尾辞の間には,差があるよう に見える。しかし,細かく見ると,たとえば,–ischは字幕では上位1位であるが,そ の他のコーパスでは上位2位となっており,–barは字幕では上位4位,ブログと新聞で は上位3位,学術書では上位7位と,コーパス間で微妙に序列が異なっている。 したがって,4コーパスの総合指標を取り出すには,表2で行った総計や,平均値を
求めるなどの方法が考えられるが,上述の主成分分析(principal component analysis) を用いると,より客観的に取り出すことができる。主成分分析は,多数の変数を主な成 分に圧縮してその性質を考察する統計手法で,コーパス研究では,頻度情報を合成する
際や,テキストを分類する際に広く使用される(石川・前田・山崎,2010)。本研究で
表2 4コーパスにおける15の接尾辞のpotential productivity (hapax legomena / token) 接尾辞 字幕 ブログ 新聞 学術書 – isch 0.132 (396/3000) 0.093 (278/3000) 0.118 (355/3000) 0.102 (305/3000) – ig 0.080 (240/3000) 0.120 (361/3000) 0.125 (376/3000) 0.107 (320/3000) – bar 0.042 (125/3000) 0.074 (223/3000) 0.087 (262/3000) 0.068 (205/3000) – mäßig 0.090 (153/1708) 0.055 (166/3000) 0.036 (108/3000) 0.079 (58/732) – lich 0.041 (123/3000) 0.073 (220/3000) 0.066 (198/3000) 0.061 (183/3000) – haft 0.016 (49/3000) 0.035 (105/3000) 0.047 (141/3000) 0.094 (126/1344) – los 0.023 (69/3000) 0.035 (106/3000) 0.035 (104/3000) 0.083 (116/1391) – abel 0.012 (11/889) 0.017 (51/3000) 0.009 (27/3000) 0.103 (16/156) – al 0.024 (73/3000) 0.040 (119/3000) 0.028 (84/3000) 0.040 (120/3000) – iv 0.015 (45/3000) 0.031 (94/3000) 0.026 (78/3000) 0.040 (120/3000) – är 0.014 (26/1843) 0.020 (59/3000) 0.013 (40/3000) 0.061 (32/524) – ant 0.008 (25/3000) 0.019 (56/3000) 0.019 (56/3000) 0.030 (24/795) – voll 0.010 (30/3000) 0.017 (50/3000) 0.012 (35/3000) 0.034 (47/1399) – ell 0.010 (30/3000) 0.013 (40/3000) 0.010 (31/3000) 0.022 (65/3000) – sam 0.005 (16/3000) 0.006 (17/3000) 0.005 (16/3000) 0.013 (25/1957) 次に,Langenscheidtの評価と比較するため,序列化した接尾辞の分類を試みる。本研
究では,表2の集計データを元に,階層的クラスター分析(hierarchical cluster analysis, 以下,クラスター分析)を用いて,接尾辞の分類を行なう。クラスター分析は,変数 (または個体)間の(非)類似度(距離)に基づいて,似ている(近い)変数同士(ま たは個体同士)をまとめてデータの分類を行なう統計手法で,コーパス研究では,語 彙・品詞・ジャンルなどの分類に広く利用される(石川・前田・山崎,2010)。ただし, 通常,クラスター分析は個体か変数の一方しか分析できない。本研究では,両者の対応 関係を同時に分析することができるヒートマップ(heat map)という図示方法を用いた 手法を通して,接尾辞の分類を試みると共に,4コーパスの分類を行なう。なお, Langenscheidtは,最新版である2019年度版に加え,参考までに大幅改訂前の2010年度 版を利用する。 RQ2では,表2を手掛かりに,テキストジャンル間の差や文体差の有無を調査する。 RQ1でジャンル差が示唆されたが,十分な確証が得られるものではなかった。そこで, 再度,表2を元に,言語データの分類によく使用されるコレスポンデンス分析(correspondence analysis)を用いて,改めてジャンル差の識別に寄与する接尾辞の抽出を試みる。コレ スポンデンス分析は,表2のような集計データに含まれる情報を少数の成分(次元)に まとめる手法で,一般に,圧縮された成分の得点(スコア)を二次元散布図などにプ ロットすることで解析が行なわれる。コーパス研究では,単語・品詞・コーパス・書き 手の分類などの目的で広く用いられる(石川・前田・山崎,2010)。
RQ3では,RQ2においてジャンル差が見られた接尾辞を対象に,再度コレスポンデ ンス分析を行い,ジャンル差を示す接尾辞に見られる特徴を分析する。 また,一連の統計処理には,統計解析言語R(https://www.r-project.org)を利用す る。 4.結果と考察 4.1 RQ1:接尾辞の生産性はどの程度で,辞書の評価とどの程度一致するか? ■ 接尾辞の序列化 RQ1では,まず表2を元に接尾辞を序列化するため,主成分分析を行った。主成分 分析を行なう際には,一般に,固有値および寄与率(表3),主成分負荷量(表4),主 成分得点(表5および図1)を確認する必要がある。 表3 固有値・寄与率 第1主成分 第2主成分 固有値 3.24 0.49 寄与率(%) 80.97 12.15 表4 主成分負荷量(第1主成分) ブログ 新聞 字幕 学術書 −.96 −.95 −.90 −.78 固有値(eigenvalue)は,どの程度元の情報を含んでいるかを示すもので,1以上な いと主たる成分とは言えない。寄与率(contribution)は,全体の中でどの程度の割合 を占めるか,あるいは,説明力を有するかを示す。また,第1主成分は,データの合成 の際に一番説明力が高いと判定された成分のことで,第2主成分は2番目に説明力が高 い成分を意味する。表3より,第1主成分の固有値は3.24で,第2主成分は0.49となっ ており,固有値が1以上という条件を満たすのは第1主成分のみであることがわかる。 また,その寄与率は80.97%に達しており,集計データの大部分が第1成分に合成(圧
縮)されたと言える。主成分負荷量(principal component loading)は,各コーパスが
当該の第1主成分とどの程度相関しているのかを示すもので,相関係数同様に−1から 1の値をとる。表4を見ると,いずれもマイナスの値をとっており,第1主成分がマイ 表5 主成分得点(第1主成分) 接尾辞 主成分得点昇順 – isch −3.66 – ig −3.56 – bar −1.27 – mäßig −1.07 – lich −0.86 – haft −0.11 – los 0.11 – abel 0.62 – al 0.70 – iv 0.99 – är 1.07 – ant 1.51 – voll 1.55 – ell 1.81 – sam 2.18
ナス方向に広がるデータであることがわかる。3)いずれのコーパスも第 1主成分と強い相 関が見られるが,ブログ(−.96)と新聞(−.95)の値が近似しており,これらが4コー パスを総合する際の中核になることがわかる。一方,学術書(−.78)は,字幕(−.90) よりも値が低く,4コーパスの中では,やや異質なポジションにあるテキストジャンル であることが示唆される。
主成分得点(principal component score)は,個々の個体(ケース)がそれぞれの主 成分によって特徴づけられる度合いを示す得点(スコア)のことで(石川・前田・山 崎,2010),総合指標を取り出すには,第1主成分の主成分得点を参照する必要がある。 表5は,集計データの大部分が合成された第1主成分における各接尾辞の主成分得点 で,(マイナスの値をとる接尾辞ほど,第1主成分を特徴づける接尾辞となることから) 昇順で並び替えている。結果的に,4コーパスの総計による表2と同じ序列になったが, 各接尾辞は,−3.66から2.18の間で,概ね連続的に分布しており,Langenscheidtの評価 と比較するには,どこかで線引きをする必要がある。 ■ 接尾辞の分類 そこで,ヒートマップによるクラスター分析を行った結果,図1の樹形図(dendrogram) が得られた。ヒートマップは,個体(本研究では接尾辞)の樹形図と変数(本研究では コーパス)の樹形図を同時に示し,色彩の色と濃淡を用いて値の大小を表示する図示方 法である(金,2018)。 図1の中央部にある色の濃淡はppの高低を示しており,ppの値が高いと色が薄くな り,低いと色が濃くなる。やや厳密に色の違いを横方向に見ていくと,接尾辞は左から, 「色が薄いクラスター」,「色が濃いクラスター」,「色がやや濃いクラスター」,「色がや や薄いクラスター」に分類される。クラスター分析は,似ている(近い)もの同士を結 びつけてグルーピングを行うため,ひとつのクラスターで,ひとつのグループとして捉 えることができる。この分類をppの総合指標として得た表5と照合すると,当該の接
尾辞は,「–isch,–ig」,「–bar,–mäßig,–lich」,「–haft,–los,–abel」,「–al,–iv,–är,– ant,–voll,–ell,–sam」の4つのグループ(クラスター)に分類することができる。
3) ただし,表4は数値の上で負の相関を示すものの,金(2017:70)によれば,本研究で 利用している統計解析言語Rでは,固有値(および固有値ベクトル)を求める際のアルゴリズ ムの違いにより正・負の符号が逆になることから,実際には正の相関を示すデータと言える。
さらに,表5の主成分得点をとる接尾辞が,具体的にどのように分類されるのかを確 認するため,第1主成分(PC1:横軸)と第2主成分(PC2:縦軸)の主成分得点を二 次元散布図にプロットした(図2)。主成分分析では,一般に,第1主成分と第2主成 分の主成分得点を二次元平面上に布置して,変数や個体の分類がなされる。図2では, クラスター分析で「色が薄いクラスター」には「■」,「色が濃いクラスター」には「+」, 「色がやや濃いクラスター」には「▲」,「色がやや薄いクラスター」には「●」の印を 付けている。 第1主成分である横軸に注目すると,「色が薄いクラスター(■)」が飛び抜けており, その後,ppの値が低くなるにつれ,クラスター間の距離が狭まるのが見て取れる。また, 各クラスターは近い距離に布置されており,とりわけ,「色がやや濃いクラスター(▲)」 は図の上部にプロットされる。図2の縦軸は第2主成分の主成分得点を示しており,表 3の固有値が1に満たないことで,説明力のある成分とは言えないが,当該のクラスター
に分類される「–haft,–los,–abel」は,後でも見るように,学術書で顕著に使用される 接尾辞であり,接尾辞の生産性には,テキストジャンルが関連することがわかる。 再び,図1のクラスター分析の結果を縦方向に見渡すと,ブログと新聞がはじめに融 合し,字幕,学術書と続くことから,「ブログと新聞」,「字幕」,「学術書」の間にジャ ンル差が存在することが伺える。表4の主成分負荷量より,学術書がやや異質であるこ とが示唆されたが,全体的にやや色が薄い(すなわち,ppの値が高い)点で,他のテ キストジャンルと異なることがわかる。また,「字幕」は「ブログと新聞」に比べて,色 がやや濃い(ppの値が低い)接尾辞が多く,とりわけ「学術書」と比較するとその差 がはっきり見える。その意味において,テキストのフォーマリティが高いジャンルほど, 図1 接尾辞(およびコーパス)の分類デンドログラム(クラスター分析) ※ 距離計算(クラスター間:ウォード法,接尾辞間:平方ユークリッド距離)
接尾辞の生産性が高くなるという先行研究の知見と類似の傾向が示唆される。 ■ Langenscheidtによる評価との比較
一方,冒頭でも述べたように,Langenscheidtにおいて接尾辞は生産性の程度に応じて 3つ([1]:sehr produktiv,[2]:begrenzt produktiv,[3]:wenig/nicht produktiv)に
分類される。図1のクラスター分析の結果を,少し緩めに評価すれば,「色がやや薄いク
ラスター(▲)」と「色がやや濃いクラスター(●)」を同一のクラスターと見なすこと
もできるが,図2の主成分分析の結果を見る限りは,4つに分類することが適切である
と思われる。したがって,分類数は異なるが,表6において両者の対応づけを行なった。
その結果,クラスター分析で生産性が高いと評価された■印の–isch,–igを,Langenscheidt
の両版も,生産性が非常に高い([1])としており,評価が一致するが,生産性が高い
と言えない▲印の–haftや–losについても,生産性が非常に高い([1])としている。ま た,クラスター分析で生産性が低い(+)とされた接尾辞(–al,–iv,–är,–ant,–voll, –ell,–sam)については,[2]または[3]の評価が混在している。Langenscheidtは,生産 性の評価基準を明らかにしていないが,実証的な調査をしていない可能性が示唆され る。同時に,その評価が辞書編纂者の言語的直観に基づくものであるならば,評価の不 一致は,生産性が下がるにつれて,直感的,主観的評価が難しくなることを示している ものと考えられる。加えて,これらの接尾辞は,両版共に[3]よりも[2]の評価が優勢 であり,Langenscheidtでは生産性をやや高めに評価していると言える。 以上のことから,Langenscheidtによる生産性の評価は,クラスター分析(および主成 分分析)によって導かれた結果と大きく異なるものではないものの,総じて生産性をや や高めに評価している点は否めない。また,接尾辞の生産性が下がるにつれて,評価が 図2 スコア散布図(主成分分析:第1・第2主成分)
揺れており,計量的観点に基づく以外の基準で生産性を評価している可能性が示唆され る。
表6 Langenscheidtにおける接尾辞の生産性の評価
※[1]:sehr produktiv,[2]:begrenzt produktiv,[3]:wenig/nicht produktiv 接尾辞 pp Langenscheidt Cluster (2010) (2019) – isch ■ [1] [1] – ig ■ [1] [1] – bar ● [1] [1] – mäßig ● [1] [1] – lich ● [1] [1] – haft ▲ [1] [1] – los ▲ [1] [1] – abel ▲ [3] [2] – al + [3] [2] – iv + [2] 記載なし – är + 記載なし 記載なし – ant + 記載なし 記載なし – voll + [2] [2] – ell + [2] [2] – sam + [3] [3] 4.2 RQ2:接尾辞の生産性にジャンル差は見られるか?見られるならば,どの接尾辞 においてか? 前節のRQ1では,学術書の異質性などが示唆されたが,図2の主成分分析では,第 2主成分の固有値が十分でないことから,4コーパスからppの総合指標を取り出すだけ にとどまった。そこで,改めて,別の手法(すなわち,コレスポンデンス分析)を用い て,コーパス間の関係とコーパスと接尾辞間の関係を見ていく。コレスポンデンス分析 は,上述の通り,コーパス研究では単語・品詞・コーパス・書き手などの分類をはじめ とする分析に広く利用される手法で,多変量のデータを少数の成分(次元)に圧縮する ことで,分類がなされる。主成分分析同様,通例,第1次元と第2次元に特徴づけられ るスコアを,二次元散布図にプロットすることで,解釈が行なわれる。本研究では,解 析の結果,3つの次元が抽出された。次の図3は,抽出された第1次元(Dimension 1: 横軸)と第2次元(Dimension 2:縦軸)のスコアを二次元散布図にプロットしたもの で,第1次元の寄与率は70.28%,第2次元の寄与率は25.92%で,2つをあわせると 95%以上の説明力を有する次元が抽出されたことになる。
まず,横軸(第1次元)に注目すると,左側(マイナス方向)に「学術書」が布置さ れ,右側(プラス方向)に「ブログ」,「新聞」,「字幕」の順にプロットされるのがわか る。このことから第1次元は学術書の異質性を示す軸になっていることが読み取れる。 また,表4の主成分負荷量および図1のクラスター分析でも見られたように,コレスポ ンデンス分析でも,「ブログ」と「新聞」が近い距離関係にあり,これらは「学術書」 よりも「字幕」に近い。新聞は典型的な書き言葉で,文体面の学術化(Verwissenschaftlichung) が指摘されることがあるものの,接尾辞の使われ方に関して,学術書と異なることが示 唆される。 次に,縦軸(第2次元)に目を向けると,上部(プラス方向)に「字幕」が,下部 (マイナス方向)に「ブログ」と「新聞」が位置づけられる。このことから,第1次元 において新聞が字幕に近いと言っても,両者には隔たりがあることがわかる。 また,図3では,同時に15の接尾辞もプロットされており,各コーパスの付近に位 置するものは,当該のコーパスに特徴的な接尾辞と見なすことができる。よって,「学 術書」では,たとえば–abel,–är,–haft,–los,–vollなどが,「ブログと新聞」では, –bar,–lich,–igなどが,「字幕」では,–isch,–mäßigが,当該ジャンルにおいて特徴的 な接尾辞と言える。これらの接尾辞のうち,「ブログと新聞」および「字幕」に特徴的 な接尾辞(–bar,–lich,–ig,–isch,–mäßigなど)は,表6のクラスター分析によると,
序列が上位の■または●印の接尾辞であるのに対して,「学術書」に特徴的な接尾辞
(–abel,–är,–haft,–los,–vollなど)は,序列が高くない▲または+印の接尾辞である。 一般に,大学のドイツ語教育では,コミュニケーションや新聞読解などの学習を経て, 専門分野のドイツ語を学ぶ。したがって,今回の調査で得た序列と学習順序は概ね一致
していると言える。その限り,生産性に関する情報は,習熟度に応じたドイツ語学習を 行なう際の目安のひとつになることが示唆される。 4.3 RQ3:ジャンル差を示す接尾辞にはどのような特徴が見られるか? RQ3では,ジャンル差が見られた接尾辞が,どのような点で特徴的であると言える のかを検証する。本研究では,紙面の都合上,図3の第1次元でその差が顕著に見られ た学術書と字幕に注目する。その際,前者に特徴的な–haftと,後者に特徴的な–mäßig に議論を限定し,これらの接尾辞をとる形容詞(の使用頻度上位50語)を対象に,コ レスポンデンス分析を行ない,どのような点で特徴的であるのかを検証する。なお,学 術書に関しては,他にも特徴的とされる接尾辞があるが,これらのうちで比較的事例数 が多いことから,例として–haftを取り上げる。 図4は,学術書に特徴的な–haftにおいて抽出された第1次元(横軸)と第2次元(縦 軸)のスコアを二次元散布図にプロットしたものである。第1次元(横軸)だけで寄与 率は73.67%を示しており,–haftを分類する際に,説明力を持った軸であることがわか る。コーパスの配置に注目すると(解読が困難であるため,「吹き出し」で補足してい る。以下,同様),右側に学術書がプロットされ,左側には新聞とブログが布置され,字 幕が最も左端に位置づけられる。位置関係としては,新聞とブログが字幕近くにあるこ とから,第1次元(横軸)は学術書の異質性を表していると言える。 次に,形容詞の分布を見ると,とりわけ学術書付近に集中しており,これらの語が, 当該コーパスで顕著に使用される語と言える。図4から個々の語を読み解くことが困難 であるため,第1次元(横軸)に特徴的な各語のスコアを表7に示した(図中では表で 図4 –haftのスコア散布図(コレスポンデンス分析:第1・第2次元)
示したスコアが圧縮表示されるために図下の目盛りとの間に若干のずれが見られるが, 解釈に影響はない。以下,同様)。プラス方向にある語が学術書に特徴的で,マイナス 方向にある語が字幕などに特徴的な語を意味する。まず,字幕などに特徴的な形容詞を 見ると,ekelhaft(吐き気を催すような),fabelhaft(すばらしい),zauberhaft(すばらし い)など,話者の感情や主観に関わる形容詞が目立つ。それに対して,学術書に特徴的 な形容詞は,genrehaft(風俗画のような),körperhaft(具体的な),gleichnishaft(比 的 な),zeichenhaft(シンボリックな),sinnhaft(意味のある)など,性質や様態を意味す る抽象性の高い形容詞が多い。加えて,いずれも1以上の値をとっており,抽象的な議 論を行う学術書では,こうした形容詞が好んで使用されることが伺える。 表7 識別に関わる形容詞:–haft 字幕など 第1次元得点 学術書 第1次元得点 ekelhaft −1.75 genrehaft 1.98 fabelhaft −1.64 körperhaft 1.93 zauberhaft −1.22 gleichnishaft 1.92 frnsthaft −1.12 zeichenhaft 1.91 heldenhaft −0.99 sinnhaft 1.91 schmackhaft −0.93 skizzenhaft 1.84 ehrenhaft −0.90 symbolhaft 1.83 herzhaft −0.88 scherzhaft 1.74 standhaft −0.87 vorbildhaft 1.70 schmerzhaft −0.77 bildhaft 1.68 最後に,図5は,字幕に特徴的な–mäßigにおいて抽出された第1次元(横軸)と第 2次元(縦軸)のスコアを二次元散布図にプロットしたものである。寄与率が5割を超 える第1次元(横軸)に注目すると,右側に字幕が,原点のやや左側にブログと新聞が 重なる形でプロットされ,さらにその左に学術書が布置されている。よって,第1次元 は字幕の異質性を示す軸であることが示唆される。 図5から字幕に顕著な語を直接解読することが困難であるため,第1次元のスコアに 従い,字幕に顕著な語と,そうでない語,すなわち,学術書などに顕著な語の上位を表 8に挙げた。字幕に特徴的な形容詞を見ると,–mäßigは強意詞(hammermäßig,spitzenmäßig, megamäßig,…)や,「∼のような,∼によって」の意味の形容詞(lehrbuchmäßig(教科 書の),vorschriftsmäßig(規定通りの),außerplanmäßig(予定外の))として顕著に使用さ れる接尾辞であることがわかる。とくにhammermäßig,spitzenmäßig,megamäßigのスコ
アは3以上で,やや高い値をとっており,字幕では強意表現としての使用がとりわけ多
いと言える。それに対して,学術書などでは,上位にtypenmäßig(タイプに関する),
ずれも独和辞典をはじめ,学習者向けの独独辞典にも記載されていない。また,他の形 容詞も,低頻度語もしくは辞書未掲載の語がほとんどで,学術書などにおいて当該の接 尾辞は生産的に使用されていないことが伺える。 表8 識別に関わる形容詞:–mäßig 字幕 第1次元得点 学術書など 第1次元得点 hammermäßig 3.79 typenmäßig −1.89 spitzenmäßig 3.26 quellenmäßig −1.89 lehrbuchmäßig 3.21 gattungsmäßig −1.89 megamäßig 3.12 bildmäßig −1.87 mordsmäßig 2.81 fabrikmäßig −1.76 rechtmäßig 2.16 bildungsmäßig −1.72 vorschriftsmäßig 1.82 generalstabsmäßig −1.47 saumäßig 1.63 unbotmäßig −1.43 mittelmäßig 1.30 verstandesmäßig −1.35 außerplanmäßig 1.15 schwerpunktmäßig −1.27 以上より,抽象性の高い議論がなされる学術書では,性質や様態などを表現する際 に,–haftが生産的に使用され,登場人物間のインターアクションが中心となる字幕で は,とりわけ強意的表現をする際に–mäßigが顕著に使用されており,テキストジャン ルが異なると,接尾辞の使用において違いが見られることがわかる。このことから,接 尾辞の生産性を問題にする際は,テキストジャンル間の違いに注意を払う必要があると 図5 –mäßigのスコア散布図(コレスポンデンス分析:第1・第2次元)
ことが確認できる。 5.まとめと今後の課題 本研究では新聞,学術書,字幕,ブログの4コーパスにおける15の接尾辞の生産性 の程度を評価し,テキストジャンルとの関係を調査した。最後に,RQによって明らか になった知見をまとめておきたい。 RQ1(生産性の評価)では,主成分分析およびクラスター分析を用いて,計量的観点 から接尾辞を序列化し,Langenscheidtの評価との比較を試みた。その結果,Langenscheidt の評価は,調査結果と大きな相違はないものの,全体的に生産性をやや高めに評価して おり,生産性が低い接尾辞に関しては,調査結果との間にずれが見られ,計量的観点に 基づく以外の基準で生産性を評価している可能性が示唆された。 RQ2(ジャンル差)では,コレスポンデンス分析を通して,コーパス間の関係と,コー パスと接尾辞間の関係を探った。その結果,字幕では–isch,–mäßig,ブログと新聞で は,–bar,–lich,–igなど,生産性が高い接尾辞が顕著に使用されるのに対して,学術 書では,–abel,–är,–haft,–los,–vollなど,生産性の序列が高くない接尾辞が特徴的 に使用されていることがわかった。このことから,少なくとも接尾辞の生産性の程度は, はじめにドイツ語コミュニケーションを学習し,その後,新聞読解練習などを経て,学 術ドイツ語に至るという,一般的な大学ドイツ語教育の学習順序に,概ね一致している ことがわかる。その限りにおいて,生産性に関する情報は,効率的な語彙学習を行う際 の重要な情報になりうると考えられる。 RQ3(ジャンル差の特徴)では,紙幅の関係上,学術書に顕著な–haftと,字幕に顕 著な–mäßigに分析対象を限定して,それぞれの接尾辞の特徴を探った。その結果,学 術書では,性質や様態を表現する際に–haftが生産的に使用され,字幕では,とりわけ 強意的表現で–mäßigが生産的に使用される可能性が示唆された。 もっとも,本研究で行なった調査にはもちろん制約もあり,現代ドイツ語全般に通用 するかどうかのさらなる検証が必要である。今後コーパスの種類,事例数,分析対象を 拡充するほか,その他の接辞も分析対象に入れて調査する必要がある。加えて,本研究 では全般的な特徴を概観することに重きを置いたが,ドイツ語教育への応用を念頭に置 く場合,具体的に個々の事例についても今後分析していく必要がある。 謝辞 本稿の執筆に際して,詳細で適切な助言や提案をいただいた匿名の査読者および編集 委員会の方々に感謝する。また,本研究の一部は,JSPS科研費(JP16K0268)の助成 を受けた。
引用文献
Altmann, Hans (2011): Prüfungswissen Wortbildung, Göttingen, Vandenhoeck & Ruprecht. Baayen, Harald (1993): On frequency, transparency and productivity, In: Booij, Geert & van Marle,
Jaap (eds). Yearbook of morphology 1992 (pp.181–208), Dordrecht: Kluwer.
Baayen, Harald (1994): Derivational productivity and text typology, Journal of Quantitative Linguistics, 1(1): 16-34.
Baayen, Harald (2001): Word Frequency Distributions, Dordrecht, Kluwer.
Baayen, Harald (2009): Corpus linguistics in morphology: Morphological productivity, In: Anke, Lüdeling & Merja, Kytö (eds.). Corpus Linguistics: An international handbook volume 2 (pp. 899-919), Berlin/New York, de Gruyter.
Baayen, Harald & Lieber, Rochelle (1991): Productivity and English Word-formation: a Corpus-based Study, Linguistics, 29: 801-843.
Baayen, Harald & Renouf, Antoinette (1996): Chronicling the Times: Productive Lexical Innovations in an English Newspaper, Language, 72(1): 69-96.
Bauer, Laurie (2004): Morphological productivity, Cambridge, Cambridge University Press. Donalies, Elke (2011): Basiswissen Deutsche Wortbildung, Tübingen, Francke.
Duden (2016): Die Grammatik, Berlin, Duden Verlag.
Fleischer, Wolfgang & Barz, Irmhild (2012): Wortbildung der deutschen Gegenwartssprache, Berlin/ New York, de Gruyter.
Hartmann, Stefan (2016): Wortbildungswandel, Berlin/New York, de Gruyter.
Haspelmath, Martin & D. Sims, Andrea (2010): Understanding Morphology, London, Hodder Education.
石川慎一郎・前田忠彦・山崎誠(2010):言語研究のための統計入門,東京,くろしお出版. Keune, Karen (2012): Explaining register and sociolinguistic variation in the lexicon: Corpus studies
on Dutch, Utrecht, LOT.
金明哲(2017):Rによるデータサイエンス第2版:データ解析の基礎から最新手法まで,東京, 森北出版.
金明哲(2018):テキストアナリティクス,東京,共立出版.
Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2010): Berlin, Langenscheidt. Langenscheidt Großwörterbuch Deutsch als Fremdsprache (2019): Berlin, Langenscheidt. Lüdeling, Anke & Evert, Stefan (2003): Linguistic experience and productivity: Corpus evidence for
fine-grained distinctions, In: Archer, Dawn et al. (eds.). Proceedings of the 2003 Corpus Linguistics Conference (pp. 475-483), Lancaster.
Miyaoka, Yayoi & Tamaoka, Katsuo (2005): A corpus investigation of the right-hand head rule applied to Japanese affixes, Glottometrics, 10: 45-54.
Plag, Ingo, Dalton-Puffer, Christiane, & Baayen, Harald (1999): Morphological productivity across speech and writing, English Language and Linguistics, 3(2), 209-228.
Scherer, Carmen (2005): Wortbildungswandel und Produktivität. Eine empirische Studie zur nominalen -er-Derivation im Deutschen, Tübingen: Niemeyer.
Wegera, Klaus-Peter, Waldenberger, Sandra & Lemke, Ilka (2018): Deutsch diachron: Eine Einführung in den Sprachwandel des Deutschen, Berlin, Erich Schmidt Verlag.