雑誌名英語英文学研究

(1)

英文シラブルの計量分析 II

著者橋本直樹

雑誌名英語英文学研究

巻 15

ページ 49‑59

発行年 2009‑09

出版者東京家政大学人文学部英語コミュニケーション学科

URL http://id.nii.ac.jp/1653/00009684/

(2)

英文シラブルの計量分析皿

橋本直樹

1．序論

コンピュータによる言語コーパスの計量的な研究の一っの方法として、文書のシラブル数の分析を文献［1］で行った。そこでは、Benjamin Franklin

「Autobiography」のシラブル数の出現がランダムに出現しているものではないということを計量的に示した。これは計算言語学における英語等の文章の特徴抽出を行うという立場に基づく研究である［2−8］。本稿では、前出の研究をより詳細に行った結果及び文書のシラブル数から得られる他の知見について言及する。すなわちコンピュータによる計算結果から高次のマルコフ性を議論する。一方、文書を特徴付けるもう一っの量として情報理論でよく現れる情報エントロピーをシラブル数に適用し、文体の特徴付けの量として妥当かどうかを議論する。本稿の研究では、計算プログラムはすべてC言語で作成して結果を得た。

本論文では、Benjamin FranklinのrAutobiography」にっいて分析を行うが、その文書自体の研究を行うのが主目的ではなく、一般的な文書に対してシラブル解析を行う一っの方法を提示し、その文書の特徴を示す量を求めたいという考えに基づいている。

2．記号の定義

文献［1］と同様に、各単語のシラブルを得るためにGNU GPLで配布されているフリーソフトrhyme［5］を用いた。以下で用いる数式に対応するいくっかの記号を復習する［1］。1を一っの文章の全単語数とし、i−thの単語の

(3)

シラブルの数をN，とする。このとき一っの文章のシラブルは、整数の列N，

（i＝1 ＿，1）からなる。次に、N，の中の連続したzからmの部分列の和を m

n ＝＝ ENi

と定義する。この和の上限は1を越えないようにとる。次に、h＝m−1に対し、

L。，、tを数列N，（ご＝1，2．．．，Dの中から連続したk個のN，の和がnに等しくなるものの単語数とする。

n

L・：i￥ILnk l

この量はシラブルの数nを固定して、そのシラブル数を実現する各kの値の和をとるものである。

3．高次マルコフのシラブル

文献［1］で報告した文書中の各シラブル数の出現確率は、次のようになる。

P（1）2L1，1／1max＝0．697753 P（2）＝L2，1／1max ＝0．189063

P（3）＝L3，1／1max＝0．079712 P（4）＝L4，1／1max＝0．026969 P（5）＝L5，1／ 1 rnax ＝0．006315 P（6）＝L6，1／∫max 冨0．000186

（1）

式（1）は、シラブル数が1〜6までの発生する確率である。これは、B．

Franklinの「Autobiography」に対するシラブルの出現頻度に基づく値で文書ごとに異なる。文献［1］で高次のマルコフ性にっいて示唆しその一部を例示したが、本稿ではその研究の詳細を述べる。はじめに、2次のマルコフ性を調べる。3っの連続する単語のシラブル数の合計が同じもの同志を比較

する。すなわち、（Ni．2， Ni．1， N，）（i＝3，．．，lm。．）を3っの連続するシラブル列とするとき、Sn−N、．2＋Ni．i＋N，を与えられたSnに対して調べていく。ここで、 nは

(4)

合計のシラブル数とする。例えば、S，は、3っの連続するシラブル列の合計が3になるもので、それに対応する組み合わせは、（八砿瓦．1，N，）＝（1，1，1）

となるものになる。明らかに＆は、この組み合わせだけである。この各S，

に対してその組み合わせとなるすべてのシラブル列をカウントして出現率を求める。同時に、各シラブルの文書全体での出現数から得られる確率、すなわち（1）式の値から求めたものと比較する。この（1）式から求あた値を理論値ということにする。例えば、上述の（1，1，1）の列に対しては、その出現数は20080なので、20080／64444−O．3116と出現率が求まる。一方、（1）式からは、P（1）3＝0．3397と求められる。すなわち（1，1，1）とシラブル列が連続する部分は、実際の害1」合は0．3116なのに対し、完全にランダムにシラブル数 1が発生しそれが3っ続く場合の確率値0．3397となり、前者の値より大きくなる。これはこのシラブル数はランダムに出現していないことを示唆している。参考のために、（1，1）というシラブル列の場合、実際の値は、

30042／64443＝0．4661であるが、これを理論値として求あると、0．67752

＝0．4868となる。この場合も理論値の方が大きいがその差異が適当かどうかは不明である。

より明確に、シラブルのランダム性がないことを示すために、まずS、を

計算する。S4となりうるケースは（ハ砿N4，N，）が（1，1，2）、（1，2，1）、（2，1，1）の3

っの場合だけである。それぞれの出現率は、次のようになる。

表1 S4の出現率

（N．2，瓦一，， Ni）出現率（カウント）理論値

（1，1，2） 0，0969（6243）

（1，2，1） 0．1097（7067） 0．0921

（2，1，1） 0．0961（6196）

ここで、出現率の（）内のカウントは、シラブル列の数を示している。確率を見るよりもカウント数を調べる方が判りやすい場合があるので参考のため明示した。また、理論値は（1）式により求まり、その値はこれらの3っの場合に共通である。この理論値と出現率の比較では、理論値の方が小さい。

(5)

上述の（1，1，1）の場合とは逆になっている。この量的な違いも、現時点では不明である。しかし、（1，1，2）、（1，2，1）、（2，1， 1）の互いの差の相違は顕著で特に（1，2，1）の出現率が高い。

次にS5となる場合の計算結果を調べる。連続した3項のシラブルの合計が

5となる（N，−2， Ni．1， N，）の組合せは、2っのタイプがあり、次表のようになる。

表2 S5の出現率

（瓦2，ハろ．b瓦）出現率（カウント）理論値

（1，1，3） 0．0412（2653）

（1，3，1） 0．0477（3074） 0．0388

（3，1，1） 0．0412（2655）

（1，2，2） 0．0225（1448）

（2，1，2） 0．0299（1927） 0．0249

（2，2，1） 0．0222（1431）

表により（1，1，3）、（1，3，1）、（3，1，1）の中では、（1，3，1）の組合せの出現率が

最も高く、他はほぼ同じである。また、（1，2，2）、（2，1，2）、（2，2，1）の中では、

（2，1，2）の組合せの出現率が最も高い。いずれの場合にも3っの同様の組合せの中で、1っだけが出現する割合が高い。すなわち、これらの場合にもシ

ラブル列はランダムに出現していない。

同様の分析を＆にっいても行う。シラブルの合計が6となる3っの連続

した列には、（2，2，2）及び、（1，1，4）、（1，4，1）、（4，1，1）の場合と（1，2，3）、（1，

3，2）、（2，1，3）、（2，3， 1）、（3，1，2）、（3，2，1）の3っのタイプがある。この計算

結果は次のようになる。

表3＆の出現率

（N，．，，Alli．，，〈N，）出現率（カウント）理論値

（2，2，2） 0．0048（308） 0．0068

（1，1，4） 0．0133（857）

（1，4，1） 0．0154（990） 0．0131

（4，1，1） 0．0139（896）

(6)

（Ni．2，N，．，， Ni）出現率（カウント）理論値

（1，2，3） 0．0086（557）

（1，3，2） 0．0086（555）

（2，1，3） 0．0122（758）

（2，3，1） 0．0091（584） 0．0105

（3，1，2） 0．0130（836）

（3，2，1） 0．0083（536）

2番目のタイプでは、（1，4，1）の出現率が他の2っに比べて高い。また、3番目のタイプの中では、（3，1，2）、（2，1，3）が高い出現率になっている。カウント数からみると出現率の低い組合せとの違いは明白である。50％近い相違がある。一方（2，2，2）のタイプは単一の組合せなので理論値との比較だけが意味を持っ。理論値が実際の出現率よりかなり大きい値になる。ここの点は、

（1，1，1）の場合と同じ結果になる。

次にS，の場合を考察する。出現率は小さく次表のようになる。

表4 S7の出現率

（2＞、。2，瓦．1，N）出現率（カウント）理論値

（1，1，5） 0．0032（204）

（1，5，1） 0．0036（230） 0．0031

（5，1，1） 0．0033（210）

（1，3，3） 0．0036（231）

（3，1，3） 0．0057（370） 0．0044

（3，3，1） 0．0037（240）

（1，2，4） 0。0031（197）

（1，4，2） 0．0027（173）

（2，1，4） 0．0041（267）

（2，4，1） 0．0032（206） 0．0036

（4，1，2） 0．0041（264）

（4，2，1） 0．0025（158）

（2，2，3） 0．0017（112）

（2，3，2） 0．0013（81） 0．0029

（3，2，2） 0．0017（109）

(7)

各タイプの中で、相互に出現率が異なるものが必ず存在する。一般的にシラブル数が大きくなるとその出現率は小さくなり、統計精度も低くなると考えられる。表中各タイプごとに大きな出現率のものを上げると最初のタイプは

（1，5，1）、次のタイプは（3，1，3）、3番目のタイプでは（2，1，4）と（4，1，2＞、4 番目のタイプは（2，2，3）と（3，2，2）となる。それぞれのタイプの中で出現率

は一様でないことがわかる。Sh（h≧8）以上のすべてを計算したが、上述と傾向と同様である。ただし、出現率は極めて小さい。

以上の計算からSk（k≧3）の場合、3っの連続するシラブル数は、非対称で、その出現率は均一でない。これまでの結果から、その3っの連続したシ

ラブル数がランダムに整列していないことが理解される。

上述の結果をより確実にするために、次に連続する4っのシラブル数の合計yゐ偽≧4）についての出現率を調べる。ここで、Y，は、

Yk＝2＞，．3＋N，．2＋2＞，．、＋・v、

と定義され、hは合計のシラブル数である。この分析で、ある1っのシラブル数は、その直前の3っのシラブルから影響を受けているかということがわかる。実際にはすべての種類を計算したが、小さな出現数のものは統計精度が低いので、主に出現数が100カウント以上のものを示す。

はじめにY，にっいての結果である。この場合は、（1，1，1，2）、（1，1，2，1）、

（1，2，1，1）、（2，1，1，1）の4っの場合がある。

表5 Y，の出現率

（．〈熱＋ハXi．2＋ハ乙一1＋ハ1，、）出現率（カウント）理論値

（1，1，1，2） 0．0736（4745）

（1，1，2，1） 0．0639（4116）

（1，2，1，1） 0．0743（4790） 0．0642

（2，1，1，1） 0．0632（4074）

このタイプでは、出現率の高低により半々に分かれる。（1，1，1，2）と（1，2，1，

1）の列の出現率が高い。理論値を挟んだ値になる。

(8)

次にY，の計算結果を表6に示す。シラブルの合計が6となる4っの連続したシラブル列は、2つのタイプに分かれる。

表6 Y，の出現率

（ノVi−3＋〈ろ，2＋ハII，．1＋N、）出現率（カウント）理論値

（1，1，2，2） 0．0149（963）

（1，2，1，2） 0．0224（1442）

（1，2，2，1） 0．0170（1094）

（2，1，1，2） 0．0197（1270） 0．0174

（2，1，2，1） 0．0231（1487）

（2，2，1，1） 0．0143（923）

（1，1，1，3） 0．0257（1656）

（1，1，3，1） 0．0315（2031）

（1，3，1，1） 0．0318（2050） 0．0271

（3，1，1，1） 0．0263（1696）

最初のタイプの中で、出現率の最大と最小に約60％の違いがあり、また、

後者のタイプでは、約20％の違いが認められる。双方のタイプ共に2っずっの出現率の高い列が存在する。ここでもランダム性は明白に否定される。また理論値の方が実際の値より若干低い傾向が見られる。

シラブル数の合計が7となるY，にっいてもカウント数が100以上のものを調べると2っのタイプに分かれる。表を2っに分割して示す。

表7 Y，の出現率その1

（N，．3＋Ni．2＋N，．1＋N，）出現率（カウント）理論値

（1，1，1，4） 0．0082（4745）

（1，1，4，1） 0．0102（4116）

（1，4，1，1） 0．0104（4790） 0．0092

（4，1，1，1） 0。0083（4074）

(9)

表8 Y，の出現率その2

（Ni．3＋1＼lli．2＋N，．1＋．〈T，）出現率（カウント）理論値

（1，1，2，3） 0．0056（362）

（1，1，3，2） 0．0059（377）

（1，2，1，3） 0．0091（584）

（1，2，3，1） 0．0072（464）

（1，3，1，2） 0．0096（617）

（1，3，2，1） 0．0069（443）

（2，1，1，3） 0，0097（627） 0．0073

（2，1，3，1） 0．0097（622）

（2，3，1，1） 0．0059（377）

（3，1，1，2） 0．0091（584）

（3，1，2，1） 0．0094（603）

（3，2，1，1） 0．0053（341）

表7のタイプは、明白に2っのグループに分かれている。また、表8のタイプは、出現率が約2倍ほど違うものがある。この場合もその出現に偏りが見られる。同様にY，も計算したが、そのタイプの数が多くなることとカウン

ト数が100前後になるための統計精度の信頼性の低下を考慮して表で示すのは省く。その結果は、上述の傾向と同じで1番大きな出現率の列と1番小さな出現率の比が2倍以上あるものが存在する。シラブルが一様に出現していないことがより顕著になる。以上の計算したすべてにおいて各シラブル列の出現は偏っており、そのシラブル列のランダム性は明白に否定される。

4．シラブルのエントロピー

本節では、Shannon［9］に基づく情報エントロピーをシラブルに適用する。

それは、すべての情報が2進符号化できることすなわち、0と1で表せることから定義されたもので、エントロピーHは次式で定義される。

H−一^{ｰP・ i・9・Pi} l

（2）

(10)

ここで、p，は、 i−thの事象の確率である。この量は平均情報量を表しており、

情報源のエントロピーとも言われるが、本稿では単にエントロピーと言うことにする。

シラブルのエントロピーにより、それが文書を特徴付ける量として可能かどうかを調べたい。はじめに、前節で調べた文書すなわちB．Franklinの

「Autobiography」のシラブルの出現率の値（1）式を用いてエントロピーを求める。文中に出現するシラブル数は1〜6の6種類なので、（2）式か

ら

6

H＝一ΣP（）・9・P（り

と書ける。その計算結果は、H＝1．2965となる。単位は・bitであるが省略する。

この量は、文書全体のシラブル数の出現数のカウントだけで得られる値で、

その列の並びの情報等は一切入っていないため、小さい値となる。

次に、シラブル列の並び方を反映させたエントロピーを考える。Shannon は、2っの確率事象）c，yがある場合、｛κ｝がrn通り、｛y｝がn通りの可能性があるとき、p（i，11）で、事象scがゴ成立し、同時にyでノが生起する確率とするときその同時確率事象のエントロピーH（x，y）を

n

H（x・y）＝卿 ^GP（・ノ）1°9・P（ノ）

と定義した。これをシラブル列に適用する。あるシラブルに着目したときその直前のシラブル数の値の影響が反映されているのでマルコフ性を考慮したエントロピーになる。文献［1］の表2から遷移確率を計算すると、次の表のようになる。

(11)

表9 シラブル遷移（i→j）の確率

i＝1 i＝2 i＝3 i＝4 i＝5 i＝6

j＝1 0．4662 0．1435 0．0624 0．0209 0．0046 0．0001 j＝2 0．1445 0．0296 0．0107 0．0033 0，001 0 j＝3 0．0618 ^0．01・11 0．0045 0．0019 0．0004 0 j＝4 0．0201 0，004 0．0018 0．0008 0．0002 0

j＝5 0，005 0，001 0．0003 0．0001 0 0

j；6 0．0001 0 0 0 0 0

この表の値を基に、エントロピーH（x，N）を計算すると 6 6

H（x・y）＝一濡君ゴ1・9・R・一 2・5822

と求められる。前者のシラブル数の出現数だけから求めたエントロピーよりも、得られる情報量が多いことを示している。この方法は、前節で述べた高次マルコフ列に対しても条件確率事象に対するエントロピーということで定義される。

調べた例は、僅かであるがエントロピーは、その文章のシラブル構造をマクロに測る量として価値のある量と考えられる。上述した、H、 H（x，y）の量またはより高次マルコフの条件付確率を用いたエントロピーで、文書の特徴付けの知見が得られると思われる。多くの文献を調べることが重要である。

参考文献

1．Hashimoto， N．（2004）：英文シラブルの計量分析、英語英文学研究 2．Constable， J．（1997）：Verse Form：APilot Study in the Epide−

miology of Representations．：Human Nature 8，171−203

3．Aoyama，H． and Constable，J．（1999）：Word length frequency and dis七ribution in English：Part I Prose． Literary and Linguistic Computing，14（3），339−359

(12)

4．

RJ農U

7．

8．

9．

Constable，J． and Aoyama，H．（1999）：Word length frequency and distribution in English：Part II． An empirical and mathematical examination of the character and consequences of Isometric lineation． Literary and Linguistic Computing，14（4），507−535 rhymeのプログラム：http：〃rhyme．sourceforge．net／

Fucks， W， On the mathematical analysis of style． Biometrika

39（1952）， 122−129

Wimmer， G． and Koehler， R．， Grotjahn， R．， and Altmann， G．，

（1994）：Towards a Theory of Word Length Distribution． Journal of Quantitative Linguistics，1（1），98−106

Brown， P．F．， Pietra， V。J．D．， de Souza， P．V。， Laj， J．C． and Mercer，

R，（1992）：Class−based n−gram models of matural language．

Computational Linguistics，18（4），467−479

Shannon， C．E．，（1963）：The Mathematical Theory of Communi−

cation， University 6f Illinois Press

雑誌名 英語英文学研究

英文シラブルの計量分析 II

著者 橋本 直樹