英文シラブルの計量分析
著者 橋本 直樹
雑誌名 英語英文学研究
巻 10
ページ 89‑98
発行年 2004‑09
出版者 東京家政大学文学部英語英文学科
URL http://id.nii.ac.jp/1653/00009656/
英文シラブルの計量分析
橋 本 直 樹
1.序論
最近のコンピュータの発達により各種言語のコーパスの計量的な研究が盛 んに行われている。特に、文体に関しての統計分析やデータマイニングによ るテキストの構造的な知見を得ることなどが研究されている。本論文では計 算言語学の立場から、英語の文章の特徴を抽出する一つの試みを行う。これ らの研究は、未定な著書物の著者の推定や著者の執筆時期などを推定するこ と等に応用されている。そこでは、単語の出現頻度、文の長さ、品詞の分布 や特徴的な単語(キーワード)による分類などが行われ、それらを統計的に 処理することにより特徴が得られている。本研究においては、単語のシラブ ルを用いて文章の特徴を抽出する。これは、上述の単語の出現頻度など他の 方法と合わせて全体的に各著者の特徴付けを行うための一っの要素である。
本論文では、一般的にシラブル解析を行う一っの方法を提示し、実際に Benjamin Franklinの「Autobiography」 について分析を行う。そこで
は各単語のシラブルを得るためにGNU GPLで配布されているフリーソフ トrhymeを利用する。シラブルによる文章の分析ではConstable等[1−3]
が多くの結果を得ているので、我々は、彼らの分析量を再定義して解析を行 う。その結果、B. Franklinの「Autobiography」に対しては、そのシラ ブル数の列が必ずしもランダムに出現していないことを示す。これは、この
「Autobiography」がAoyama&Constable[2]が調べた散文とは異なる種
類の文章であることを示唆する。他のいくっかの研究[5,6]では、多数の作
品を集め、その全体の平均的な傾向を調べているが、本研究では、各著者の
個性を抽出するための要素を見っけ出すことを目的としている。
2.シラブル分析量の定義
はじめに、以下で用いる数式に対応するいくっかの記号を定義する[2]。
1を一っの文章の全単語数とし、i−thの単語のシラブルの数をN,とする。
このとき一っの文章のシラブルは、整数の列N,(i=1,._,1)からなる。次に、
N,の中の連続した部分列の和を
N
加Σμ
店(1)
と定義する。この和の上限は1を越えないようにとる。Aoyama&
Constable[2]は、後に数学的な数式展開をするために周期境界条件をおい て、1より大きな数に対してもm(mod Z)でカウントしている。そしてデー タサイズが大きいためにこの誤差は無視できると主張している。上の我々の 定義のように境界条件を置かないときは、数学的な定式化が余り進まないが、
データサイズが小さい場合にも有効な式となる。次に、屡醜一2に対し、L。,h
を以下のように定義する。すなわち、L。,hとは、数列N,(i=1,2,_,1)の中から連続したk個のN,の和がnに等しくなるものの単語数とする。例えば、L。,i
は、k=1なので(N,,N,,_N,)の中でシラブルがnとなるものの個数である。このときの最大値は1である。また、L。,2は連続した2っのN,、すなわち(N,
+N,,N,≠1>1、,_,N,.1≠1>})の中の(1−1)項の中でシラブルがnに等しい個数、
L。,3は、(N,+N,≠N,,N,≠N,≠瓦,___, N,−2+Nl.1≠N,?の(」−2)項の中で、 nとな
るものの個数である。このときある十分大きな整数M。が存在して次が成立
する。
㌫一1.(1.le)(h≧1) (2)
iZ= 1
これは、1っの単語のシラブル数は有限であることによる。また定義から明
らかに次が成立する。
Ln,h=O for ん>n (3)
これらの定義の下で、我々は次の量を計算する[2]。
Ln一Σ恥 (4)
ん=1
この量はシラブルの数nを固定して、そのシラブル数を実現する各kの値の 和をとるものである。例えば、n=2のときは、 L2,i+L2,2である。シラブルが
2となるものは、1単語だけからなるものと2っの連なる単語で2となるも のの合計である。また、他のデータとの比較のためにLnを正規化したQnを 次で定義する。
婦 (5)
他の量に対しても同様の正規化を用いて解析を行うため次の量を定義する。
几・一識)轡(f…>>h) (6)
このとき、次式が成立する。
Mo
Σ瓦・−1 f・r・a・hk (7)
n=1 同様に
n n n
略摯一碧孕い塾(f…》h)(8)
が得られる。
3.単語のシラブル
単語のシラブルの数をカウントするために、GNU GPLの配布ライセンス に従うフリーソフトrhyme[3]を用いる。 Rhymeは、与えられた単語のシ ラブル数を辞書から検索・表示するコマンドラインのソフトウェアである。
その辞書はCMU(Carnegie Mellon University)のPronouncing Dictionaryに基づいて作成されている。このオリジナルの辞書は、約 125000語を集録してあり、北米英単語が計算機が読めるデータ形式で格納 されているフリーソフトでWebから自由に入手できる[4]。従って、
rhymeを用いずに直接このCMUの辞書を検索することもできる。しかし、
我々の使用方法は、何万という単語のシラブルを得ることなので、このまま ではうまくいかないので、rhyme及びrhymeに付属している辞書をその まま使った。Rhymeの作者たちは、多くの単語を処理することはPerl等の 簡易言語で容易に対応できるとしているが、コンピュータのOSが Microsoft Windowsの場合には、これらの処理が少し煩雑になる。しかし、
シラブル数の処理だけでなく、他の文書処理も必要になるため、Linuxよ りもMicrosoft Windowsの方が便利である。 Rhymeは、 Linuxや他の UNIX及びMicrosoft Windows用に構成されているので、我々は、
Microsoft Windows用のrhymeを用いた。このプログラムはコマンドラ インで使用し、そして多くの単語を一度に処理するためには工夫を必要とす る。数多くの単語を処理するためには、rhymeのプログラム自身を書き直 す方法と、rhymeの入出力部分を別途プログラミングする方法がある。
rhymeプログラムは、2っのデータベース(DB)を用いてシラブルを得る。
word→key(DB)→rhyme(DB)→syllable
この作業を含めてプログラムを改変するためには、GDBM(GNU database manager)もインストールしておかなければならない。解析の容易性及び簡 単化のため本研究では入出力部分を別にプログラミングする後者の方法をとっ
た。一方、新しい単語をrhymeの辞書に追加する機能はないので、もし追
加したい場合はこの部分もプログラミングする必要が生じる。またrhyme
では1っの単語で、複数のシラブルの可能性が考えられる場合には、「2−3」
のようにハイフォンを付けて出力される。これらの後処理は、それぞれを Webster等の辞書により手で行う。
4.B. Franklin「Autobiography」のシラブル解析
本節では、実際に行ったシラブル解析の方法を示す。対象文書には、
Benjamin Franklin「Autobiography」を用い、散文のシラブルの分析を 行う。ある種の文学作品のいくっは、既に研究されているので我々は、その 範疇から少し離れた自叙伝の作品を選択した。
B.Franklinの「Autobiography」の文書は、電子コーパスとしてWeb 上に多数存在する。その中からテキスト部分を抽出した。このようにして得 られた文章をコンピュータで処理するために、幾っかの点を修正しておく必 要がある。rt」を使った簡略表記は、テキストエディタを用いて完全な形に 直した。また、英語以外の文章、例えばフランス語の文章の部分は削除した。
文中のそれぞれの単語にフランス語などが使われている場合は、その語の辞 典を用いることで対応した。Franklinの文章には少し古い英語が用いられ ている箇所があるので、それらは現代的なスペルに置き換えてシラブルを調 べた。これらの作業は、最初に全部できるのではなく、各単語のシラブルを 調べるときにも行った。
このようになるべく多くの修正を行った後、その文章を単語ごとに分割し た。この分割作業のためにC言語により簡単なプログラムを作成した。単 語間のスペース及び改行記号を見っけて単語ごとに切り出すプログラムであ る。このとき、単独の数字、ピリオド等は削除した。この結果、タイトルも 含めて、64444語の単語列が得られた。不完全な単語を発見・修正するため に、この単語列を辞書式にソートして検査した。ただし、本研究で興味があ るのは、はじめの文章の単語列の並びに対応したシラブル数の数列である。
次に、各単語のシラブルを得るため、コマンドラインで走るバッチプログラ
ムを作成する。それぞれの単語は、「rhyme−s単語」という命令を入力す
ると、結果が2行にわたり出力される。この命令を各単語ごとに実行させる バッチファイルを作成し、実行した。結果を見やすく、後で処理をしやすい ようにテキストエディタで整形する。その際、rhymeの辞書に登録されて いない単語にはエラーメッセージが出力される。これらの単語の多くは英米 表記の違いや、少し古い英語が使われていることによるので辞書を用いて手 で修正をした。この過程を経て文章の各単語のシラブル数の列からなる基礎 データが得られ、以下このデータを解析する。
L。,hおよび式(4)のLnをn=1〜19、 k=1〜5で計算した結果を表1 に示した。この計算には、C言語を用いたプログラムを作成して行った。極 めて短時間に結果を得ることができる。この結果を元に(5)式のQnも計算
した。
表1
n L。」 L。.2 ム,3
L耐
ム15 L. Q,1
449660 0 0 O
44966 0,6982
12184 300420 0 0
42226 0,6553
5137 18561 200800 0
43778 0,6794
1738 9907 19506 136440
44795 0,6955
407 4048 13188 17725 9338 44706 0,6946 12 1375
6904 14612 15049 44373 0,6897 0
386 3052 9461 14803 44399 0,6898 0 99
1188 5110 11163 44502 0,6919 0 25 381
2425 7040 44638 0,69310 0 0 109 941
3881 44391 0,68911 0 0 29
358 1863 44351 0,68812 0 0 5 126 792
44517 0,69113 0 0 0 30
337 44456 0,69014 0 0 0 8 118
44418 0,68915 0 0 0
142
44439 0,69016 0 0 0 0 11
44423 0,68917 0 0 0 0 3
44403 0,68918 0 0 0 0 0
44458 0,69019 0 0 0 0 0
44324 0,688これらは、正規化した量なので、文献[2]の解析と比較することができる。
ただし、Qnの定義が我々と少し異なることに注意する。本研究で用いる文 章は、単語数がある程度多いので、彼らとの定義による違いは僅差である。
なおこれらの詳細な検証は他の場所で報告する。
④の平均はq−0.689である。n−1,2,3,4における特徴的な増減は、文献[2]
と同様であるが彼らより大きい。現時点で、この現象の完全な説明はできて いないが、シラブル数n=2のLnが小さいということは1単語で2、また は2つの連なる単語で1+1シラブルとなる単語列が少ないことが起因する。
特に、1シラブルが2っ連続する単語が少ないということを表している。な おL。,iは、1単語でのシラブル数がnとなる単語の数である。 Random−
ordering仮説の成立を主張しているAoyama&Constable[2]は、 L,,1が 得られる確率と、L,,,となる確率がそれぞれρ1、plと対応することを導いてい る。実際、彼らの調べた文書に対するこれらの値は、よく一致している。し かし、我々の解析での数値は大きくずれる。従って、我々の用いた文章に対
してはrandom−ordering仮説が成立していないことを示唆している。
表2
m
n=1 n=2n=3 n=4 n=5 n=6
1 30042 9247 4020 1348
299 9
2 9314 1905 689
210
642
3
3982714
289123 28
14
1297255 119 51 16 0
5
32262 17 6 0 0
6 9
12 0 0 0
次に、2っの連続した単語のシラブルの遷移の数を調べる。n→mシラブ ル遷移の結果が表2である。例えば、n=2からm=3では、2っの連続する 単語のシラブルが2→3となるものが714個存在することを示す。
各単語のシラブル出現率が全くランダムならば、n→mとm→nの遷
移における数が、ほぼ一致していなければならない。すなわち、表2の対角
線に沿って対称となるはずである。表は、カウント数の多いシラブル遷移に 対しては対称であることを示しているが、カウント数が小さい遷移は非対称 のように見える。この表の値に対して式(6)のP。,hを計算しその値を比べる とある程度の違いが出る(表3参照)。
表3
m n累1 nニ2 n=3 n=4 n=5 n=6
1
0,668 0,759 0,783 0,776 0,735 0.752 0,207 0,156 0,134 0,121 0,157 0,167
3
0,089 0,059 0,056 0,071 0,069 0,0834
0,029 0,021 0,023 0,029 0,0390
5
0,007 0,005 O,003 0,0030 0
6
0,000 0,000 0,0000 0 0
しかし、この結果および表2による分析では、random−ordering仮説が 成立しているか否かは断定できない。
上で調べた単語のシラブル数の並びは、直前の単語のシラブル数だけを考 慮したもので、1重マルコフ性の可能性を調べたことに対応する。random−
ordering仮説が正しいのならばマルコフ性はない。しかし、表1の結果、
及び表2の結果はシラブル数列が完全にランダムではないということを示唆 している。我々は、これをもう少し深く調べるため2重マルコフ性の可能性 を調べた。すなわち、ある単語のシラブル数が2つ前までの単語のシラブル 数に依存するかである。表4は、その解析結果の一部である。例えばある単 表4
八π、−2 .〈ろ.1
瓦
数
ハろ,2 .M1
瓦 数
ハ乙一2 N.1 N、数
1
2 1
7067 1 2 21448
1 23 557
2
1 1 61962
1 2 19272
13 785
1
3
1 3074 13 2 555
13 3 231
3
1 1 26553
12 836 3
13
3701
4 1
990 14
2173
14 3 95
4
1 1 8964 1 2 264 4
13 137
語のシラブル数が2(=瓦)であるとする。そのとき2単語前までのシラブル 数列N,2瓦1,瓦に対し次のような2っのプロセスを考えることが出来る。
1→2→2 2→1→2
これらの連続する3単語のシラブル数の出現回数とその合計が同じなので、
ほとんど同じ割合で出現するはずである。しかし、結果はこれら2っのプロ セスの出現回数がかなり大きく異なっている。他の同様のプロセスに対して も同じ傾向である。従って、この方法による解析は、単語列のシラブル数の 並びが2重マルコフ性を持っている可能性を示している。一方、シラブル数 でなくて普通の単語としての並び方がマルコフ性[7]を持っという指摘も存 在する。単語の並び方とシラブル数の並び方に関係があるかもしれない。
5.結論および議論
B.FranklinのAutobiographyの各単語のシラブル数の列を調べた結果 以下のことが結論できる。表1の結果から、1一シラブルの単語が2っ続く 出現率が、単なるランダム性から予測される値とずれることが確認された。
また、表2、表3によるn→mシラブル遷移数とn→mシラブルへの遷移数
との非対称性は余り見られない。すなわち、出現確率の高いシラブル数の遷
移に対しては1重のマルコフ性(bigram)は確認できない。しかし、小さい
カウント数の遷移は、かなり非対称である。これは、n→m(n≠m)の遷
移では必ずしもランダムにシラブルが出現していないことを示す。次に同文
書のシラブル数列が2重マルコフ過程(trigram)であるのかを調べたのが
表4である。ある単語の2っ前からのシラブル列で(N、.2,N、.、,,Ni)の3っのシラブルが同じ出現率同志を比較する。例えば、N,−1のとき、その前の2っ
のシラブル(瓦一2, Ni−1)に(1,2)の列と(2,1)の並びが考えられる。これらの出現回数の比較には、明らかな差異が認められる。従って、本研究において
調べた文章のシラブル列は、2重マルコフ過程の性質を持っ部分の存在を示
している。我々の結論が一般性を持っためには、他の種類の作品も調べるこ
とが必要でありかっ重要である。
1.
2.
3.
・
●
4RJ
6.
7.
参考文献
Constable, J.(1997):Verse Form:A Pilot Study in the Epidemiology of Representations. Human Nature 8,171−203
Aoyama,H. and Constable,J.(1999):Word length frequency and distribution in English:Part I Prose. Literary and Linguistic
Computing,14(3),339−359Constable,J. and Aoyama, H.(1999):Word length frequency and distribution in English:Part ll. An empirical and mathematical
examination of the character and consequences of Isometric
lineation. Literary and Linguistic Computing,14(4),507−535rhymeのプログラム:http://rhyme.sourceforge.net/
Fucks, W. On the mathematical analysis of style, Biometrika 39
(1952), 122−129
Wimmer, G. and Koehler, R., Grotjahn, R., and Altmann, G.,
(1994):Towards a Theory of Word Length Distribution, Journal of Quantitative Linguistics,1(1),98−106
Brown, P.F., Pietra, V.J.D., de Souza, P.V., Laj, J.C. and Mercer,
R.(1992)l Class−based n−gram models of natural language.
Computational Linguistics,18(4),467−479