• 検索結果がありません。

英文シラブルの計量分析

N/A
N/A
Protected

Academic year: 2021

シェア "英文シラブルの計量分析"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)

英文シラブルの計量分析

著者 橋本 直樹

雑誌名 英語英文学研究

巻 10

ページ 89‑98

発行年 2004‑09

出版者 東京家政大学文学部英語英文学科

URL http://id.nii.ac.jp/1653/00009656/

(2)

英文シラブルの計量分析

橋 本 直 樹

1.序論

 最近のコンピュータの発達により各種言語のコーパスの計量的な研究が盛 んに行われている。特に、文体に関しての統計分析やデータマイニングによ るテキストの構造的な知見を得ることなどが研究されている。本論文では計 算言語学の立場から、英語の文章の特徴を抽出する一つの試みを行う。これ らの研究は、未定な著書物の著者の推定や著者の執筆時期などを推定するこ と等に応用されている。そこでは、単語の出現頻度、文の長さ、品詞の分布 や特徴的な単語(キーワード)による分類などが行われ、それらを統計的に 処理することにより特徴が得られている。本研究においては、単語のシラブ ルを用いて文章の特徴を抽出する。これは、上述の単語の出現頻度など他の 方法と合わせて全体的に各著者の特徴付けを行うための一っの要素である。

 本論文では、一般的にシラブル解析を行う一っの方法を提示し、実際に Benjamin Franklinの「Autobiography」 について分析を行う。そこで

は各単語のシラブルを得るためにGNU GPLで配布されているフリーソフ トrhymeを利用する。シラブルによる文章の分析ではConstable等[1−3]

が多くの結果を得ているので、我々は、彼らの分析量を再定義して解析を行 う。その結果、B. Franklinの「Autobiography」に対しては、そのシラ ブル数の列が必ずしもランダムに出現していないことを示す。これは、この

「Autobiography」がAoyama&Constable[2]が調べた散文とは異なる種

類の文章であることを示唆する。他のいくっかの研究[5,6]では、多数の作

品を集め、その全体の平均的な傾向を調べているが、本研究では、各著者の

(3)

個性を抽出するための要素を見っけ出すことを目的としている。

2.シラブル分析量の定義

 はじめに、以下で用いる数式に対応するいくっかの記号を定義する[2]。

1を一っの文章の全単語数とし、i−thの単語のシラブルの数をN,とする。

このとき一っの文章のシラブルは、整数の列N,(i=1,._,1)からなる。次に、

N,の中の連続した部分列の和を

 N

加Σμ

 店

(1)

と定義する。この和の上限は1を越えないようにとる。Aoyama&

Constable[2]は、後に数学的な数式展開をするために周期境界条件をおい て、1より大きな数に対してもm(mod Z)でカウントしている。そしてデー タサイズが大きいためにこの誤差は無視できると主張している。上の我々の 定義のように境界条件を置かないときは、数学的な定式化が余り進まないが、

データサイズが小さい場合にも有効な式となる。次に、屡醜一2に対し、L。,h

を以下のように定義する。すなわち、L。,hとは、数列N,(i=1,2,_,1)の中から

連続したk個のN,の和がnに等しくなるものの単語数とする。例えば、L。,i

は、k=1なので(N,,N,,_N,)の中でシラブルがnとなるものの個数である。

このときの最大値は1である。また、L。,2は連続した2っのN,、すなわち(N,

+N,,N,≠1>1、,_,N,.1≠1>})の中の(1−1)項の中でシラブルがnに等しい個数、

L。,3は、(N,+N,≠N,,N,≠N,≠瓦,___, N,−2+Nl.1≠N,?の(」−2)項の中で、 nとな

るものの個数である。このときある十分大きな整数M。が存在して次が成立

する。

         ㌫一1.(1.le)(h≧1)  (2)

         iZ= 1

これは、1っの単語のシラブル数は有限であることによる。また定義から明

らかに次が成立する。

(4)

      Ln,h=O  for  ん>n      (3)

これらの定義の下で、我々は次の量を計算する[2]。

      Ln一Σ恥      (4)

      ん=1

この量はシラブルの数nを固定して、そのシラブル数を実現する各kの値の 和をとるものである。例えば、n=2のときは、 L2,i+L2,2である。シラブルが

2となるものは、1単語だけからなるものと2っの連なる単語で2となるも のの合計である。また、他のデータとの比較のためにLnを正規化したQnを 次で定義する。

      婦        (5)

他の量に対しても同様の正規化を用いて解析を行うため次の量を定義する。

      几・一識)轡(f…>>h) (6)

このとき、次式が成立する。

      Mo

      Σ瓦・−1 f・r・a・hk      (7)

      n=1 同様に

      n      n       n

    略摯一碧孕い塾(f…》h)(8)

が得られる。

(5)

3.単語のシラブル

単語のシラブルの数をカウントするために、GNU GPLの配布ライセンス に従うフリーソフトrhyme[3]を用いる。 Rhymeは、与えられた単語のシ ラブル数を辞書から検索・表示するコマンドラインのソフトウェアである。

その辞書はCMU(Carnegie Mellon University)のPronouncing Dictionaryに基づいて作成されている。このオリジナルの辞書は、約 125000語を集録してあり、北米英単語が計算機が読めるデータ形式で格納 されているフリーソフトでWebから自由に入手できる[4]。従って、

rhymeを用いずに直接このCMUの辞書を検索することもできる。しかし、

我々の使用方法は、何万という単語のシラブルを得ることなので、このまま ではうまくいかないので、rhyme及びrhymeに付属している辞書をその まま使った。Rhymeの作者たちは、多くの単語を処理することはPerl等の 簡易言語で容易に対応できるとしているが、コンピュータのOSが Microsoft Windowsの場合には、これらの処理が少し煩雑になる。しかし、

シラブル数の処理だけでなく、他の文書処理も必要になるため、Linuxよ りもMicrosoft Windowsの方が便利である。 Rhymeは、 Linuxや他の UNIX及びMicrosoft Windows用に構成されているので、我々は、

Microsoft Windows用のrhymeを用いた。このプログラムはコマンドラ インで使用し、そして多くの単語を一度に処理するためには工夫を必要とす る。数多くの単語を処理するためには、rhymeのプログラム自身を書き直 す方法と、rhymeの入出力部分を別途プログラミングする方法がある。

rhymeプログラムは、2っのデータベース(DB)を用いてシラブルを得る。

     word→key(DB)→rhyme(DB)→syllable

この作業を含めてプログラムを改変するためには、GDBM(GNU database manager)もインストールしておかなければならない。解析の容易性及び簡 単化のため本研究では入出力部分を別にプログラミングする後者の方法をとっ

た。一方、新しい単語をrhymeの辞書に追加する機能はないので、もし追

加したい場合はこの部分もプログラミングする必要が生じる。またrhyme

(6)

では1っの単語で、複数のシラブルの可能性が考えられる場合には、「2−3」

のようにハイフォンを付けて出力される。これらの後処理は、それぞれを Webster等の辞書により手で行う。

4.B. Franklin「Autobiography」のシラブル解析

 本節では、実際に行ったシラブル解析の方法を示す。対象文書には、

Benjamin Franklin「Autobiography」を用い、散文のシラブルの分析を 行う。ある種の文学作品のいくっは、既に研究されているので我々は、その 範疇から少し離れた自叙伝の作品を選択した。

 B.Franklinの「Autobiography」の文書は、電子コーパスとしてWeb 上に多数存在する。その中からテキスト部分を抽出した。このようにして得 られた文章をコンピュータで処理するために、幾っかの点を修正しておく必 要がある。rt」を使った簡略表記は、テキストエディタを用いて完全な形に 直した。また、英語以外の文章、例えばフランス語の文章の部分は削除した。

文中のそれぞれの単語にフランス語などが使われている場合は、その語の辞 典を用いることで対応した。Franklinの文章には少し古い英語が用いられ ている箇所があるので、それらは現代的なスペルに置き換えてシラブルを調 べた。これらの作業は、最初に全部できるのではなく、各単語のシラブルを 調べるときにも行った。

 このようになるべく多くの修正を行った後、その文章を単語ごとに分割し た。この分割作業のためにC言語により簡単なプログラムを作成した。単 語間のスペース及び改行記号を見っけて単語ごとに切り出すプログラムであ る。このとき、単独の数字、ピリオド等は削除した。この結果、タイトルも 含めて、64444語の単語列が得られた。不完全な単語を発見・修正するため に、この単語列を辞書式にソートして検査した。ただし、本研究で興味があ るのは、はじめの文章の単語列の並びに対応したシラブル数の数列である。

次に、各単語のシラブルを得るため、コマンドラインで走るバッチプログラ

ムを作成する。それぞれの単語は、「rhyme−s単語」という命令を入力す

(7)

ると、結果が2行にわたり出力される。この命令を各単語ごとに実行させる バッチファイルを作成し、実行した。結果を見やすく、後で処理をしやすい ようにテキストエディタで整形する。その際、rhymeの辞書に登録されて いない単語にはエラーメッセージが出力される。これらの単語の多くは英米 表記の違いや、少し古い英語が使われていることによるので辞書を用いて手 で修正をした。この過程を経て文章の各単語のシラブル数の列からなる基礎 データが得られ、以下このデータを解析する。

 L。,hおよび式(4)のLnをn=1〜19、 k=1〜5で計算した結果を表1 に示した。この計算には、C言語を用いたプログラムを作成して行った。極 めて短時間に結果を得ることができる。この結果を元に(5)式のQnも計算

した。

       表1

n L。」 L。.2 ム,3

L耐

ム15 L. Q,

1

44966

0 0 0 O

44966 0,698

2

12184 30042

0 0 0

42226 0,655

3

5137 18561 20080

0 0

43778 0,679

4

1738 9907 19506 13644

0

44795 0,695

5

407 4048 13188 17725 9338 44706 0,694

6 12 1375

6904 14612 15049 44373 0,689

7 0

386 3052 9461 14803 44399 0,689

8 0 99

1188 5110 11163 44502 0,691

9 0 25 381

2425 7040 44638 0,693

10 0 0 109 941

3881 44391 0,689

11 0 0 29

358 1863 44351 0,688

12 0 0 5 126 792

44517 0,691

13 0 0 0 30

337 44456 0,690

14 0 0 0 8 118

44418 0,689

15 0 0 0

1

42

44439 0,690

16 0 0 0 0 11

44423 0,689

17 0 0 0 0 3

44403 0,689

18 0 0 0 0 0

44458 0,690

19 0 0 0 0 0

44324 0,688

(8)

これらは、正規化した量なので、文献[2]の解析と比較することができる。

ただし、Qnの定義が我々と少し異なることに注意する。本研究で用いる文 章は、単語数がある程度多いので、彼らとの定義による違いは僅差である。

なおこれらの詳細な検証は他の場所で報告する。

 ④の平均はq−0.689である。n−1,2,3,4における特徴的な増減は、文献[2]

と同様であるが彼らより大きい。現時点で、この現象の完全な説明はできて いないが、シラブル数n=2のLnが小さいということは1単語で2、また は2つの連なる単語で1+1シラブルとなる単語列が少ないことが起因する。

特に、1シラブルが2っ連続する単語が少ないということを表している。な おL。,iは、1単語でのシラブル数がnとなる単語の数である。 Random−

ordering仮説の成立を主張しているAoyama&Constable[2]は、 L,,1が 得られる確率と、L,,,となる確率がそれぞれρ1、plと対応することを導いてい る。実際、彼らの調べた文書に対するこれらの値は、よく一致している。し かし、我々の解析での数値は大きくずれる。従って、我々の用いた文章に対

してはrandom−ordering仮説が成立していないことを示唆している。

表2

m

n=1 n=2

n=3 n=4 n=5 n=6

1 30042 9247 4020 1348

299 9

2 9314 1905 689

210

64

2

3

3982

714

289

123 28

1

4

1297

255 119 51 16 0

5

322

62 17 6 0 0

6 9

1

2 0 0 0

 次に、2っの連続した単語のシラブルの遷移の数を調べる。n→mシラブ ル遷移の結果が表2である。例えば、n=2からm=3では、2っの連続する 単語のシラブルが2→3となるものが714個存在することを示す。

各単語のシラブル出現率が全くランダムならば、n→mとm→nの遷

移における数が、ほぼ一致していなければならない。すなわち、表2の対角

(9)

線に沿って対称となるはずである。表は、カウント数の多いシラブル遷移に 対しては対称であることを示しているが、カウント数が小さい遷移は非対称 のように見える。この表の値に対して式(6)のP。,hを計算しその値を比べる とある程度の違いが出る(表3参照)。

       表3

m n累1 nニ2 n=3 n=4 n=5 n=6

1

0,668 0,759 0,783 0,776 0,735 0.75

2 0,207 0,156 0,134 0,121 0,157 0,167

3

0,089 0,059 0,056 0,071 0,069 0,083

4

0,029 0,021 0,023 0,029 0,039

0

5

0,007 0,005 O,003 0,003

0 0

6

0,000 0,000 0,000

0 0 0

 しかし、この結果および表2による分析では、random−ordering仮説が 成立しているか否かは断定できない。

 上で調べた単語のシラブル数の並びは、直前の単語のシラブル数だけを考 慮したもので、1重マルコフ性の可能性を調べたことに対応する。random−

ordering仮説が正しいのならばマルコフ性はない。しかし、表1の結果、

及び表2の結果はシラブル数列が完全にランダムではないということを示唆 している。我々は、これをもう少し深く調べるため2重マルコフ性の可能性 を調べた。すなわち、ある単語のシラブル数が2つ前までの単語のシラブル 数に依存するかである。表4は、その解析結果の一部である。例えばある単        表4

八π、−2 .〈ろ.1

ハろ,2 .M1

瓦 数

ハ乙一2 N.1 N、

1

2 1

7067 1 2 2

1448

1 2

3 557

2

1 1 6196

2

1 2 1927

2

1

3 785

1

3

1 3074 1

3 2 555

1

3 3 231

3

1 1 2655

3

1

2 836 3

1

3

370

1

4 1

990 1

4

2

173

1

4 3 95

4

1 1 896

4 1 2 264 4

1

3 137

(10)

語のシラブル数が2(=瓦)であるとする。そのとき2単語前までのシラブル 数列N,2瓦1,瓦に対し次のような2っのプロセスを考えることが出来る。

      1→2→2       2→1→2

これらの連続する3単語のシラブル数の出現回数とその合計が同じなので、

ほとんど同じ割合で出現するはずである。しかし、結果はこれら2っのプロ セスの出現回数がかなり大きく異なっている。他の同様のプロセスに対して も同じ傾向である。従って、この方法による解析は、単語列のシラブル数の 並びが2重マルコフ性を持っている可能性を示している。一方、シラブル数 でなくて普通の単語としての並び方がマルコフ性[7]を持っという指摘も存 在する。単語の並び方とシラブル数の並び方に関係があるかもしれない。

5.結論および議論

 B.FranklinのAutobiographyの各単語のシラブル数の列を調べた結果 以下のことが結論できる。表1の結果から、1一シラブルの単語が2っ続く 出現率が、単なるランダム性から予測される値とずれることが確認された。

また、表2、表3によるn→mシラブル遷移数とn→mシラブルへの遷移数

との非対称性は余り見られない。すなわち、出現確率の高いシラブル数の遷

移に対しては1重のマルコフ性(bigram)は確認できない。しかし、小さい

カウント数の遷移は、かなり非対称である。これは、n→m(n≠m)の遷

移では必ずしもランダムにシラブルが出現していないことを示す。次に同文

書のシラブル数列が2重マルコフ過程(trigram)であるのかを調べたのが

表4である。ある単語の2っ前からのシラブル列で(N、.2,N、.、,,Ni)の3っのシ

ラブルが同じ出現率同志を比較する。例えば、N,−1のとき、その前の2っ

のシラブル(瓦一2, Ni−1)に(1,2)の列と(2,1)の並びが考えられる。これらの

出現回数の比較には、明らかな差異が認められる。従って、本研究において

調べた文章のシラブル列は、2重マルコフ過程の性質を持っ部分の存在を示

している。我々の結論が一般性を持っためには、他の種類の作品も調べるこ

(11)

とが必要でありかっ重要である。

1.

2.

3.

・ 

4RJ

6.

7.

参考文献

Constable, J.(1997):Verse Form:A Pilot Study in the Epidemiology of Representations. Human Nature 8,171−203

Aoyama,H. and Constable,J.(1999):Word length frequency and distribution in English:Part I Prose. Literary and Linguistic

Computing,14(3),339−359

Constable,J. and Aoyama, H.(1999):Word length frequency and distribution in English:Part ll. An empirical and mathematical

examination of the character and consequences of Isometric

lineation. Literary and Linguistic Computing,14(4),507−535

rhymeのプログラム:http://rhyme.sourceforge.net/

Fucks, W. On the mathematical analysis of style, Biometrika 39

(1952), 122−129

Wimmer, G. and Koehler, R., Grotjahn, R., and Altmann, G.,

(1994):Towards a Theory of Word Length Distribution, Journal of Quantitative Linguistics,1(1),98−106

Brown, P.F., Pietra, V.J.D., de Souza, P.V., Laj, J.C. and Mercer,

R.(1992)l Class−based n−gram models of natural language.

Computational Linguistics,18(4),467−479

参照

関連したドキュメント

分析 3.1 特徴量について 本研究での特徴量の出現率について、相関係数行列を用 いた主成分分析を行った。特徴量の出現率は bigram

【要旨】

の長さの長短に違いが見られたとしている。文単位(1文またはそれ以上に渡る)のリ

本稿では、項目反応理論を英文の文書分析に適用することを試みる。文

Science map ないしは科学活動の

テキスト型データの計量的分析 ―2 つのアプローチの峻別と統合― 樋口 耕一 (大阪大学)

実践医療用語の実態を把握する研究が相良らの研究グループによって行われている(内 山他 2018,相良 2014,相良他 2010,2012,2015,2016,2017,2019,東条他

言語計量研究部部内資料文献目録 文献目録 件名索引 Biblography Subject lndex