• 検索結果がありません。

雑誌名 英語英文学研究

N/A
N/A
Protected

Academic year: 2021

シェア "雑誌名 英語英文学研究"

Copied!
12
0
0

読み込み中.... (全文を見る)

全文

(1)

英文シラブルの計量分析 II

著者 橋本 直樹

雑誌名 英語英文学研究

巻 15

ページ 49‑59

発行年 2009‑09

出版者 東京家政大学人文学部英語コミュニケーション学科

URL http://id.nii.ac.jp/1653/00009684/

(2)

英文シラブルの計量分析皿

橋 本 直 樹

1.序論

 コンピュータによる言語コーパスの計量的な研究の一っの方法として、文 書のシラブル数の分析を文献[1]で行った。そこでは、Benjamin Franklin

「Autobiography」のシラブル数の出現がランダムに出現しているものでは ないということを計量的に示した。これは計算言語学における英語等の文章 の特徴抽出を行うという立場に基づく研究である[2−8] 。本稿では、前出の 研究をより詳細に行った結果及び文書のシラブル数から得られる他の知見に ついて言及する。すなわちコンピュータによる計算結果から高次のマルコフ 性を議論する。一方、文書を特徴付けるもう一っの量として情報理論でよく 現れる情報エントロピーをシラブル数に適用し、文体の特徴付けの量として 妥当かどうかを議論する。本稿の研究では、計算プログラムはすべてC言 語で作成して結果を得た。

 本論文では、Benjamin FranklinのrAutobiography」にっいて分析を 行うが、その文書自体の研究を行うのが主目的ではなく、一般的な文書に対 してシラブル解析を行う一っの方法を提示し、その文書の特徴を示す量を求 めたいという考えに基づいている。

2.記号の定義

 文献[1]と同様に、各単語のシラブルを得るためにGNU GPLで配布され ているフリーソフトrhyme[5]を用いた。以下で用いる数式に対応するいく っかの記号を復習する[1]。1を一っの文章の全単語数とし、i−thの単語の

(3)

シラブルの数をN,とする。このとき一っの文章のシラブルは、整数の列N,

(i=1 _,1)からなる。次に、N,の中の連続したzからmの部分列の和を        m

       n == ENi

と定義する。この和の上限は1を越えないようにとる。次に、h=m−1に対し、

L。, 、tを数列N,(ご=1,2...,Dの中から連続したk個のN,の和がnに等しくなるも のの単語数とする。

      n

       L・ :i¥ILnk l

この量はシラブルの数nを固定して、そのシラブル数を実現する各kの値の 和をとるものである。

3.高次マルコフのシラブル

文献[1]で報告した文書中の各シラブル数の出現確率は、次のようになる。

P(1)2L1,1/1max=0.697753 P(2)=L2,1/1max =0.189063

P(3)=L3,1/1max=0.079712 P(4)=L4,1/1max=0.026969 P(5)=L5,1/ 1 rnax =0.006315 P(6)=L6,1/∫max 冨0.000186

(1)

式(1)は、シラブル数が1〜6までの発生する確率である。これは、B.

Franklinの「Autobiography」に対するシラブルの出現頻度に基づく値で 文書ごとに異なる。文献[1]で高次のマルコフ性にっいて示唆しその一部を 例示したが、本稿ではその研究の詳細を述べる。はじめに、2次のマルコフ 性を調べる。3っの連続する単語のシラブル数の合計が同じもの同志を比較

する。すなわち、(Ni.2, Ni.1, N,)(i=3,..,lm。.)を3っの連続するシラブル列とす るとき、Sn−N、.2+Ni.i+N,を与えられたSnに対して調べていく。ここで、 nは

(4)

合計のシラブル数とする。例えば、S,は、3っの連続するシラブル列の合 計が3になるもので、それに対応する組み合わせは、(八砿瓦.1,N,)=(1,1,1)

となるものになる。明らかに&は、この組み合わせだけである。この各S,

に対してその組み合わせとなるすべてのシラブル列をカウントして出現率を 求める。同時に、各シラブルの文書全体での出現数から得られる確率、すな わち(1)式の値から求めたものと比較する。この(1)式から求あた値を理 論値ということにする。例えば、上述の(1,1,1)の列に対しては、その出現 数は20080なので、20080/64444−O.3116と出現率が求まる。一方、(1)式 からは、P(1)3=0.3397と求められる。すなわち(1,1,1)とシラブル列が連続 する部分は、実際の害1」合は0.3116なのに対し、完全にランダムにシラブル数 1が発生しそれが3っ続く場合の確率値0.3397となり、前者の値より大き くなる。これはこのシラブル数はランダムに出現していないことを示唆して いる。参考のために、(1,1)というシラブル列の場合、実際の値は、

30042/64443=0.4661であるが、これを理論値として求あると、0.67752

=0.4868となる。この場合も理論値の方が大きいがその差異が適当かどうか は不明である。

 より明確に、シラブルのランダム性がないことを示すために、まずS、を

計算する。S4となりうるケースは(ハ砿N4,N,)が(1,1,2)、(1,2,1)、(2,1,1)の3

っの場合だけである。それぞれの出現率は、次のようになる。

表1 S4の出現率

(N.2,瓦一,, Ni) 出現率(カウント) 理論値

(1,1,2) 0,0969(6243)

(1,2,1) 0.1097(7067) 0.0921

(2,1,1) 0.0961(6196)

ここで、出現率の()内のカウントは、シラブル列の数を示している。確率 を見るよりもカウント数を調べる方が判りやすい場合があるので参考のため 明示した。また、理論値は(1)式により求まり、その値はこれらの3っの 場合に共通である。この理論値と出現率の比較では、理論値の方が小さい。

(5)

上述の(1,1,1)の場合とは逆になっている。この量的な違いも、現時点では 不明である。しかし、(1,1,2)、(1,2,1)、(2,1, 1)の互いの差の相違は顕 著で特に(1,2,1)の出現率が高い。

 次にS5となる場合の計算結果を調べる。連続した3項のシラブルの合計が

5となる(N,−2, Ni.1, N,)の組合せは、2っのタイプがあり、次表のようになる。

表2 S5の出現率

(瓦2,ハろ.b瓦) 出現率(カウント) 理論値

(1,1,3) 0.0412(2653)

(1,3,1) 0.0477(3074) 0.0388

(3,1,1) 0.0412(2655)

(1,2,2) 0.0225(1448)

(2,1,2) 0.0299(1927) 0.0249

(2,2,1) 0.0222(1431)

表により(1,1,3)、(1,3,1)、(3,1,1)の中では、(1,3,1)の組合せの出現率が

最も高く、他はほぼ同じである。また、(1,2,2)、(2,1,2)、(2,2,1)の中では、

(2,1,2)の組合せの出現率が最も高い。いずれの場合にも3っの同様の組合 せの中で、1っだけが出現する割合が高い。すなわち、これらの場合にもシ

ラブル列はランダムに出現していない。

 同様の分析を&にっいても行う。シラブルの合計が6となる3っの連続

した列には、(2,2,2)及び、(1,1,4)、(1,4,1)、(4,1,1)の場合と(1,2,3)、(1,

3,2)、(2,1,3)、(2,3, 1)、(3,1,2)、(3,2,1)の3っのタイプがある。この計算

結果は次のようになる。

表3&の出現率

(N,.,,Alli.,,〈N,) 出現率(カウント) 理論値

(2,2,2) 0.0048(308) 0.0068

(1,1,4) 0.0133(857)

(1,4,1) 0.0154(990) 0.0131

(4,1,1) 0.0139(896)

(6)

(Ni.2,N,.,, Ni) 出現率(カウント) 理論値

(1,2,3) 0.0086(557)

(1,3,2) 0.0086(555)

(2,1,3) 0.0122(758)

(2,3,1) 0.0091(584) 0.0105

(3,1,2) 0.0130(836)

(3,2,1) 0.0083(536)

2番目のタイプでは、(1,4,1)の出現率が他の2っに比べて高い。また、3番 目のタイプの中では、(3,1,2)、(2,1,3)が高い出現率になっている。カウン ト数からみると出現率の低い組合せとの違いは明白である。50%近い相違が ある。一方(2,2,2)のタイプは単一の組合せなので理論値との比較だけが意 味を持っ。理論値が実際の出現率よりかなり大きい値になる。ここの点は、

(1,1,1)の場合と同じ結果になる。

次にS,の場合を考察する。出現率は小さく次表のようになる。

       表4 S7の出現率

(2>、。2,瓦.1,N) 出現率(カウント) 理論値

(1,1,5) 0.0032(204)

(1,5,1) 0.0036(230) 0.0031

(5,1,1) 0.0033(210)

(1,3,3) 0.0036(231)

(3,1,3) 0.0057(370) 0.0044

(3,3,1) 0.0037(240)

(1,2,4) 0。0031(197)

(1,4,2) 0.0027(173)

(2,1,4) 0.0041(267)

(2,4,1) 0.0032(206) 0.0036

(4,1,2) 0.0041(264)

(4,2,1) 0.0025(158)

(2,2,3) 0.0017(112)

(2,3,2) 0.0013(81) 0.0029

(3,2,2) 0.0017(109)

(7)

各タイプの中で、相互に出現率が異なるものが必ず存在する。一般的にシラ ブル数が大きくなるとその出現率は小さくなり、統計精度も低くなると考え られる。表中各タイプごとに大きな出現率のものを上げると最初のタイプは

(1,5,1)、次のタイプは(3,1,3)、3番目のタイプでは(2,1,4)と(4,1,2>、4 番目のタイプは(2,2,3)と(3,2,2)となる。それぞれのタイプの中で出現率

は一様でないことがわかる。Sh(h≧8)以上のすべてを計算したが、上述と 傾向と同様である。ただし、出現率は極めて小さい。

 以上の計算からSk(k≧3)の場合、3っの連続するシラブル数は、非対称 で、その出現率は均一でない。これまでの結果から、その3っの連続したシ

ラブル数がランダムに整列していないことが理解される。

 上述の結果をより確実にするために、次に連続する4っのシラブル数の合 計yゐ偽≧4)についての出現率を調べる。ここで、Y,は、

Yk=2>,.3+N,.2+2>,.、+・v、

と定義され、hは合計のシラブル数である。この分析で、ある1っのシラブ ル数は、その直前の3っのシラブルから影響を受けているかということがわ かる。実際にはすべての種類を計算したが、小さな出現数のものは統計精度 が低いので、主に出現数が100カウント以上のものを示す。

 はじめにY,にっいての結果である。この場合は、(1,1,1,2)、(1,1,2,1)、

(1,2,1,1)、(2,1,1,1)の4っの場合がある。

表5 Y,の出現率

(.〈熱+ハXi.2+ハ乙一1+ハ1,、) 出現率(カウント) 理論値

(1,1,1,2) 0.0736(4745)

(1,1,2,1) 0.0639(4116)

(1,2,1,1) 0.0743(4790) 0.0642

(2,1,1,1) 0.0632(4074)

このタイプでは、出現率の高低により半々に分かれる。(1,1,1,2)と(1,2,1,

1)の列の出現率が高い。理論値を挟んだ値になる。

(8)

次にY,の計算結果を表6に示す。シラブルの合計が6となる4っの連続し たシラブル列は、2つのタイプに分かれる。

表6 Y,の出現率

(ノVi−3+〈ろ,2+ハII,.1+N、) 出現率(カウント) 理論値

(1,1,2,2) 0.0149(963)

(1,2,1,2) 0.0224(1442)

(1,2,2,1) 0.0170(1094)

(2,1,1,2) 0.0197(1270) 0.0174

(2,1,2,1) 0.0231(1487)

(2,2,1,1) 0.0143(923)

(1,1,1,3) 0.0257(1656)

(1,1,3,1) 0.0315(2031)

(1,3,1,1) 0.0318(2050) 0.0271

(3,1,1,1) 0.0263(1696)

最初のタイプの中で、出現率の最大と最小に約60%の違いがあり、また、

後者のタイプでは、約20%の違いが認められる。双方のタイプ共に2っずっ の出現率の高い列が存在する。ここでもランダム性は明白に否定される。ま た理論値の方が実際の値より若干低い傾向が見られる。

 シラブル数の合計が7となるY,にっいてもカウント数が100以上のもの を調べると2っのタイプに分かれる。表を2っに分割して示す。

表7 Y,の出現率その1

(N,.3+Ni.2+N,.1+N,) 出現率(カウント) 理論値

(1,1,1,4) 0.0082(4745)

(1,1,4,1) 0.0102(4116)

(1,4,1,1) 0.0104(4790) 0.0092

(4,1,1,1) 0。0083(4074)

(9)

表8 Y,の出現率その2

(Ni.3+1\lli.2+N,.1+.〈T,) 出現率(カウント) 理論値

(1,1,2,3) 0.0056(362)

(1,1,3,2) 0.0059(377)

(1,2,1,3) 0.0091(584)

(1,2,3,1) 0.0072(464)

(1,3,1,2) 0.0096(617)

(1,3,2,1) 0.0069(443)

(2,1,1,3) 0,0097(627) 0.0073

(2,1,3,1) 0.0097(622)

(2,3,1,1) 0.0059(377)

(3,1,1,2) 0.0091(584)

(3,1,2,1) 0.0094(603)

(3,2,1,1) 0.0053(341)

表7のタイプは、明白に2っのグループに分かれている。また、表8のタイ プは、出現率が約2倍ほど違うものがある。この場合もその出現に偏りが見 られる。同様にY,も計算したが、そのタイプの数が多くなることとカウン

ト数が100前後になるための統計精度の信頼性の低下を考慮して表で示すの は省く。その結果は、上述の傾向と同じで1番大きな出現率の列と1番小さ な出現率の比が2倍以上あるものが存在する。シラブルが一様に出現してい ないことがより顕著になる。以上の計算したすべてにおいて各シラブル列の 出現は偏っており、そのシラブル列のランダム性は明白に否定される。

4.シラブルのエントロピー

 本節では、Shannon[9]に基づく情報エントロピーをシラブルに適用する。

それは、すべての情報が2進符号化できることすなわち、0と1で表せるこ とから定義されたもので、エントロピーHは次式で定義される。

H−一ーP・ i・9・Pi    l

(2)

(10)

ここで、p,は、 i−thの事象の確率である。この量は平均情報量を表しており、

情報源のエントロピーとも言われるが、本稿では単にエントロピーと言うこ とにする。

 シラブルのエントロピーにより、それが文書を特徴付ける量として可能か どうかを調べたい。はじめに、前節で調べた文書すなわちB.Franklinの

「Autobiography」のシラブルの出現率の値(1)式を用いてエントロピー を求める。文中に出現するシラブル数は1〜6の6種類なので、(2)式か

      6

         H=一ΣP( ・9・P(り

と書ける。その計算結果は、H=1.2965となる。単位は・bitであるが省略する。

この量は、文書全体のシラブル数の出現数のカウントだけで得られる値で、

その列の並びの情報等は一切入っていないため、小さい値となる。

 次に、シラブル列の並び方を反映させたエントロピーを考える。Shannon は、2っの確率事象)c,yがある場合、{κ}がrn通り、{y}がn通りの可能性が あるとき、p(i,11)で、事象scがゴ成立し、同時にyでノが生起する確率とする ときその同時確率事象のエントロピーH(x,y)を

      n

H(x・y)=卿 GP( ・ノ)1°9・P( ノ)

と定義した。これをシラブル列に適用する。あるシラブルに着目したときそ の直前のシラブル数の値の影響が反映されているのでマルコフ性を考慮した エントロピーになる。文献[1]の表2から遷移確率を計算すると、次の表の ようになる。

(11)

表9 シラブル遷移(i→j)の確率

i=1 i=2 i=3 i=4 i=5 i=6

j=1 0.4662 0.1435 0.0624 0.0209 0.0046 0.0001 j=2 0.1445 0.0296 0.0107 0.0033 0,001 0 j=3 0.0618 0.01・11 0.0045 0.0019 0.0004 0 j=4 0.0201 0,004 0.0018 0.0008 0.0002 0

j=5 0,005 0,001 0.0003 0.0001 0 0

j;6 0.0001 0 0 0 0 0

この表の値を基に、エントロピーH(x,N)を計算すると        6  6

       H(x・y)=一濡君ゴ1・9・R・一 2・5822

と求められる。前者のシラブル数の出現数だけから求めたエントロピーより も、得られる情報量が多いことを示している。この方法は、前節で述べた高 次マルコフ列に対しても条件確率事象に対するエントロピーということで定 義される。

 調べた例は、僅かであるがエントロピーは、その文章のシラブル構造をマ クロに測る量として価値のある量と考えられる。上述した、H、 H(x,y)の 量またはより高次マルコフの条件付確率を用いたエントロピーで、文書の特 徴付けの知見が得られると思われる。多くの文献を調べることが重要である。

      参考文献

1.Hashimoto, N.(2004):英文シラブルの計量分析、英語英文学研究 2.Constable, J.(1997):Verse Form:APilot Study in the Epide−

 miology of Representations.:Human Nature 8,171−203

3.Aoyama,H. and Constable,J.(1999):Word length frequency and  dis七ribution in English:Part I Prose. Literary and Linguistic  Computing,14(3),339−359

(12)

4.

RJ農U

7.

8.

9.

Constable,J. and Aoyama,H.(1999):Word length frequency and distribution in English:Part II. An empirical and mathematical examination of the character and consequences of Isometric lineation. Literary and Linguistic Computing,14(4),507−535 rhymeのプログラム:http:〃rhyme.sourceforge.net/

Fucks, W, On the mathematical analysis of style. Biometrika

39(1952), 122−129

Wimmer, G. and Koehler, R., Grotjahn, R., and Altmann, G.,

(1994):Towards a Theory of Word Length Distribution. Journal of Quantitative Linguistics,1(1),98−106

Brown, P.F., Pietra, V。J.D., de Souza, P.V。, Laj, J.C. and Mercer,

R,(1992):Class−based n−gram models of matural language.

Computational Linguistics,18(4),467−479

Shannon, C.E.,(1963):The Mathematical Theory of Communi−

cation, University 6f Illinois Press

参照

関連したドキュメント

2 本会の英文名は、Japan Federation of Construction Contractors

ても情報活用の実践力を育てていくことが求められているのである︒

青塚古墳の事例を 2015 年 12 月の TAG に参加 した時にも、研究発表の中で紹介している TAG (Theoretical Archaeology Group) 2015

この 文書 はコンピューターによって 英語 から 自動的 に 翻訳 されているため、 言語 が 不明瞭 になる 可能性 があります。.. このドキュメントは、 元 のドキュメントに 比 べて

作品研究についてであるが、小林の死後の一時期、特に彼が文筆活動の主な拠点としていた雑誌『新

スキルに国境がないIT系の職種にお いては、英語力のある人材とない人 材の差が大きいので、一定レベル以

②立正大学所蔵本のうち、現状で未比定のパーリ語(?)文献については先述の『請来資料目録』に 掲載されているが

 英語の関学の伝統を継承するのが「子どもと英 語」です。初等教育における英語教育に対応でき