英文の相互参照表

(1)

英文の相互参照表

著者橋本直樹

雑誌名英語英文学研究

巻 11

ページ 77‑88

発行年 2005‑07

出版者東京家政大学文学部英語英文学科

URL http://id.nii.ac.jp/1653/00009662/

(2)

英文の相互参照表

橋本直樹

1．序論

言語情報科学として、種々の言語研究が行われている。特に膨大な言語データを多角的に扱い、その特性を導き出す多数の研究がなされている。本論文では、言語プロセッサによるソースプログラムの変数名リストを取り出す機能を英文の単語を抽出する方法に適用する。これはクロスリファレンス機能と言われ、従来の多くのプログラミング言語に対して存在した。そのクロスリファレンス（相互参照表）の機能は、コンパイラのオプションで出力できるものであった。しかし、近年は、分割コンパイルやオブジェクト指向開発が実用プログラミングに利用されているため、プログラム開発におけるクロスリファレンス機能の利用頻度は低くなった。そこでは、オブジェクトのリストが開発環境の中で自動生成される。しかし、巨大な数値計算等のプログラムに対しては、それを用いることは大変重要である。変数の入力ミスや、

プログラムの構成をチェックするために用いる。我々は、この機能を自然言語処理に活用できると考え、本論文ではそのためのプログラム改変とその幾っかの応用例を示す。この方法による自然言語処理を英文に対して実行すると文書中の単語の出現回数やその場所の特定に使うことができる。一方日本語の場合は、この処理の前に形態素分析が必要になるのでクロスリファレンスの機能だけ持たせても余り意味を持たない。またこのような単語の出現頻度を求める英文用のッールに、Wordsmith toolsなどがあるが、汎用であ

るため柔軟性が余りない。

以下2節で、相互参照表作成のプログラムの説明をする。3節では、John Stuart Millの4っの文章にっいて、その相互参照表を実際に作る。4節で

(3)

は、その単語分布から得られる結果を示し、言語ノイズとキーワードの分離を行う。5節は、そのノイズの中から得られる知見を議論する。

2．分析方法

プログラムは、米田［1］らによるC言語で書かれたクロスリファレンスのソースプログラムを利用し、我々の目的に合うように作り直した。以下その基本構造を述べる。はじめに与えられているものは、自然言語で書かれた文

（ここでは英文）のテキストファイルである。プログラムは、その英文ファイルを読んでその中の単語の出現行数とその個数を出力するもので、言語情報処理としては比較的簡単なものである。

プログラムでは、2っのファイルを用いる。第1のファイルは、文書処理をする英文の文書ファイルで、もう一っは処理可能な文字や除外すべき特殊記号・単語を登録してあるファイルである。この第2番目のファイル（シンボルファイルと言うことにする）は、コンピュータ言語の場合には、予約語と呼ばれるものを格納する。それは、プログラム言語であらかじめ決められている命令である。我々の場合には、特に除きたい単語や記号を入力してお

く。プログラムの処理方法は次のようにする。

読み込んだ英文のファイルを、その単語の出現順に登録しながら辞書式順序に整列（ソート）する。その方法として、binary search tree（2進探索木）

［2］を用いる。その単語の出現行数は線形リスト［2］を用いて登録する。除外語（予約語）がある場合は、上記の単語リスト処理と同様にbinary search treeを用いて、辞書式順序に整列する。一方、除外する特殊記号をチェックするために、256個の文字符号（ASCII符号）を3っに分類して、分類表を作成する。単語に用いてよい文字、単語の中間部等に用いてよい記号、それ以外の記号に分類する。プログラミング言語の場合は、単語の間に

abc．de のような記号を用いる場合があるので3っの分類が必要になる。自然言語処理の場合は、ハイフォン一等がこれにあたる。我々の英文の言語処理の場合は、数字を処理対象から除くことにした。この処理は上述の方

(4)

法により極あて簡単にできる。表1は、単語に用いてよい文字（1と表示）

をa−z、A−Zのアルファベットだけ採用し、また中間部に用いてよい文字（2と表示）をハイフォンだけにした場合の分類表の例である。他の文字は0と表示してある。左上が0番目で、右に順番に並び最後は右下の255番目となる。全部で256個のASCIIコードに対して設定する。

表1 ASCII符号分類表の例

次に、処理の対象となる英文文書を読み込む。読み込む時に、分類表と比較して処理する文字か否かを判別し、必要な単語だけを格納する。そして、

すでに作成したキーワード（予約語）の2進探索木と比較して異なるものだけを新たにその文書の2進探索木として作成する。そのとき、その単語の行番号をカウントする。2進探索木に単語を追加するとき既に同じものが存在するときは、その行番号のみを追加リストに入れてカウントする。このようにして単語リストの2進探索木とその行番号リストを作成する。以上のアルゴリズムを図1のように表すことができる。

(5)

シンボルファイルを読み込む

使用可能文字を読み込む

中間部に使用可能な記号を読み込む

@（その他の記号は初期化で対応）

キーワード（予約語）を読み込む i2進探索木で辞書式順序に整列）

文書ファイル（英文）を読み込む

許される文字・記号だけを選択する

@ （分類表と照合）

キーワードの2進探索木と比較し、異なる烽ﾌだけを別の単語の2進探索木に朗録

辞書式順序に整列されている単語潟Xトと、その個数・行数を出力する

図1 処理の流れ

(6)

3．相互参照表による分析

クロスリファレンスを取るプログラムを利用して、本節ではJohn Stuart Millの4っの作品にっいて分析をする。その4つの文章は、『On Liberty』、

『Utilitarianism』、『The Subjection of Women』、 rNature』［3］である。

本節では、これらの文章中の語彙による類似性もしくはそれらの特徴を、単語の出現回数、出現頻度等により抽出することを試みる。記号や数字を除いた単語数は、『On Liberty』が約48000語、『Utilitarianism』が約27000語、

『The Subjection of Women』が約45000語、『Nature』が約15000語で構成されている。ここでは、シンボルファイルに省くべき単語（予約語）は、

入力しないで分析した。C言語で書かれている我々のプログラムは、コマンドラインで動作する。小さい文章を分析する場合は、Microsoft社の Visual C＋＋でコンパイルし、 Windowsのコマンドプロンプトで実行した。

しかし、巨大な文章に対しては、Solaris 9のコンピュータ上でそれに対応した64bitsのCコンパイラにより実行ファイルを作成した。それはより大きなスタック領域やヒープ領域を確保できるからで、非常に大きな文章の場合に用いる。

上記の4つの文章は、それぞれ別のファイルに格納しそれをコマンドラインから1っずっ処理をする。表2から表5は、その結果を単語の出現頻度順に45番目までを整列した結果を表示している。クロスリファレンスは、その単語すべての出現を調べるものであるが、紙面の関係でここではその出現の割合が高いものだけを示す。

これらの結果からは、Zipの法則［4］は、成立していないように見える。

Zipの法則とは英文中の単語の出現頻度にっいての法則で、そのN番目の単語が1番目の単語の1／Nの出現頻度ということを主張するものである。す

なわち、

ん

9N ＝jll（h：定数）（N＝1，2，＿＿）

という式でN番目の出現頻度9Nが表されるという法則である。 Zipの法則は、

多くの人々により研究が継続され、その改良版も多数存在する［5］。しかし、

(7)

パラメータの少なさ、およびその表現の単純さから本研究では、Zip自身の主張による上の式のみを議論する。

「On Liberty』では、その頻度の1番目は「the」で、91＝O．0629であるので k＝o．0629である。従って、2番目の「of」のzipの法則による出現率92は、

92 ・・ O．0629／2＝0．0315、同様に93＝O．0210、9・＝＝ O．0157と予測されるが、実際は、それぞれ0．0512、0．0367、0．0268となる。この傾向は他の文書も同様である。少なくとも我々の扱っているJohn Stuart Millの4っの文書に対しては成立していない。換言すれば近年の精度のよい言語情報処理の議論としては誤差が大きすぎる。もちろん、Zipの法則の改良版を用いて、パラメータサーチをすれば再現する可能性はあるがその意味付けが難しく、ただのパラメータフィットになってしまうと思われる。すべての自然言語の文書をこのような法則で理解するのではなく、この法則が成り立っ文書とそうでない文書を分類し、その文書の特徴付けに使うのがよいのではないかということをここに主張する。

表2出現頻度：「On Liberty』

順

単語出現率順

単語出現率

ll

単語出現率

1 the 6，291％ 16 are ^0，833％ ³¹

if

0，446％

2 of 5，123％ 17 b 0，816％ 32 who ^0，441％

3 to 3，674％ 18 but 0，710％ 33 ma ^0，398％

4 and 2，679％ 19 on ^0，679％ 34 no ^0，398％

5

in

2，046％ 20 the 0，662％ 35 _an 0，360％

6 is

1，938％ 21 their α616％ 36 those 0，360％

7 a t826％ 22 ^his 0，531％ 37 he 0，358％

8 it

1，653％ 23 ^all ^0，529％ 38 ^its 0，358％

9 be 1，509％ 24 ^this ^0，520％ 39 has 0，344％

10 that 1，384％ 25 one ^0，512％ 40 there 0，335％

11

which 1，178％ 26 an ^0，504％ ⁴¹ ^onl ^0，323％

12 not ^1，064％ 27 have 0，485％ 42 should 0，316％

13 as ^0，993％ 28 from ^0，481％ 43 what α314％

14 _or 0，978％ 29 with 0，479％ 44 ^{o ・}_n lnlon ^0，312％

15 for α845％ 30 them ^0，454％ 45 more ^0，310％

(8)

表3出現頻度：『Utilitarianism』

順

単語出現率順

単語出現率

1 the 6，379％ 16 not ^0，965％ ³¹ ^natural ^0，412％

2 of 5，427％ 17 are ^0，727％ 32 bein 0，392％

3 to 3，672％ 18 ^all 0，701％ 33 human ^0，392％

4 and ^2，431％ 19 but 0，688％ 34 them ^0，386％

5 is

2，122％ 20 have ^0，656％ 35 we ^0，379％

6 in

2，038％ 21 for 0，649％ 36 SO ^0，367％

7 a ^2，013％ 22 the 0，604％ 37 _an 0，354％

8 it

1，582％ 23 ^this ^0，579％ 38 from ^0，354％

9 which 1，530％ 24 with 0，579％ 39 those 0，347％

10₁₁ that 1，447％ 25 what ^0，463％ 40 ood ^0，341％

be ^1，402％ 26 one ^0，457％ ⁴¹ ^its ^0，341％

12 nature 1」51％ 27 ^if 0，450％ 42 than 0，322％

13 as ^1，106％ 28 an ^0，437％ 43 more ^0，315％

14 or ^1，055％ 29 on ^0，437％ 44 most ^0，309％

15 b 0，984％ 30 ^their α418％ 45 other 0，309％

表4出現頻度：rThe Subjection of Women』

順単語出現率順

単語出現率順

単語出現率

1 the 6，328％ 16 b 0，829％ 31 an ^0，435％

2 of 5，591％ 17 for 0，818％ 32 we ^0，424％

3 to ^3，658％ 18 but 0，696％ 33 ustice 0，420％

4 ^is 2，427％ 19 ^this ^0，641％ 34 he ^0，416％

5 and 2，413％ 20 ^alI 0，593％ 35 ^their ^0，401％

6 in

2，059％ 21 an ^0，567％ 36 those 0，390％

7 a ^1，934％ 22 from ^0，560％ 37 what ^0，383％

8 that 1，827％ 23 with 0，553％ 38 no ^0，365％

9 ^it 1，775％ 24 on ^0，512％ 39 SO ^0，361％

10₁₁ as ^1，403％ 25 the 0，505％ 40 who ^0，354％

be 1，374％ 26 one ^0，501％ ⁴¹ more ^0，350％

12 which ^1，311％ 27 other 0，494％ 42 has 0，346％

13 not ^1，053％ 28 have ^0，460％ 43 ^onI ^0，346％

14 _◎r 0，954％ 29 ha iness ^0，453％ 44 ^its 0，335％

15 are ^0，829％ 30 ^if ^0，442％ 45 there 0，332％

(9)

表5出現頻度：『Nature』

順

単語出現率順

単語出現

1 the 6，485％ 16 for 0，854％ 31 if

0，434％

2 of 5，274％ 17 their 0，843％ 32 one ^0，407％

3 to 3，344％ 18 women ^0，781％ ³³ ^who ^0，405％

4 and ^2，766％ 19 but 0，726％ 34 an ^0，398％

5 ln 2，200％ 20 the 0，702％ 35 other 0，390％

6 lS 1，861％ 21 have ^0，691％ 36 has 0，387％

7 a t802％ 22 _or 0，684％ 37 no ^0，378％

8 it

1，507％ 23 ^alI 0，613％ 38 those 0，372％

9 that 1，332％ 24 them ^0，562％ 39 her 0，367％

10₁₁ be 1，193％ 25 with 0，562％ 40 ^his ^0，367％

which 1，065％ 26 on ^0，547％ ⁴¹ ^there ^0，365％

12 are ^0，978％ 27 an ^0，542％ 42 ^onl 0，359％

13 not ^0，961％ 28 men ^0，522％ ⁴³ ^been ^0，343％

14 as ^0，912％ 29 ^this 0，511％ 44 most ^0，330％

15 b 0，912％ 30 from ^0，496％ 45 than 0，328％

4．言語ノイズとキーワード

前節での分析により、最も大きな出現頻度の単語は、「the」で、それに続いて「of」、「to」であることが判る。このことは、すでに多くの研究がありよく知られていることである。4番目に大きな出現頻度は、「and」と「is」

が上の表から認められる。すなわち、4番目以降の厳密な順序は、文書によって異なる。しかし、7番目までを取ると、その中にthe， of， to， and， in， is，

aがすべて含まれている。主に冠詞、前置詞、be動詞、より下位には代名詞などが並ぶ。これらの単語は、多くの文書に共通して出現頻度が高い単語であると考えることができるが順序が異なるため、著者・執筆時期等の特徴が現れ始めている。表では上位から45番目までを示しているが、4つの文書の共通性をこの表から見っけることができる。一方、共通な単語以外に、文書の特徴を現すキーワード・識別語が、名詞、動詞等として出現している。

ここで、識別語とは、著者の文書から選び出された著者の特徴を表す単語のことである。これらを抽出するためには、ほとんどの文書中に常に出現頻度の上位に存在する単語は不要な存在である。したがって、キーワードや識別

(10)

語を得るためにその不要な単語はその研究上のノイズと考えられる。一般にこれらの研究では、ノイズは取り去った方がよいとの示唆［6］がある。

このノイズを取り除くと、その英文の特徴が際立っことが期待される。ここでのノイズは、ほとんどすべての英文（散文）に起こるのでバックグランドノイズと考えることができる。

上述の4っの文書の上位から57位までの単語が4っの文書に現われている単語を同定し、それらをノイズとして分析から除き、クロスリファレンスに

より再分析をする。実際には、全部でなく3っの文書に現われているものもカウントした。その結果上位約8割の単語は、4っの文書に含まれているものであった。また約1割が3っの文書に含まれていた。3っないし4つの文書に共通にある単語は、57位までの9割を占ある。これらの単語を除外する単語リスト（予約語）として求あたものが以下の単語である。

aall an and any are as at be being but by can for from has have he his ifin is it its more no not ofoll one only or other so than that the their them they this those to we what when which who with would

これらの単語をシンボルファイルの中の除外すべき単語として登録し、再びクロスリファレンスを取った。最初の表2−5のリストから手で除外リストの単語を除くことも可能であるが、より省力で行うようにシンボルファイルを作り直して実行した。しかし、その結果の中には、まだ求めるキーワード以外のバックグランドノイズを含んでいる。しかし、極めて簡単に手作業でキーワードを抽出でき、その結果は次のようになった。

①『On Liberty』：opinion， society

②rUtilitarianism』：hapPiness， justice， human， person ③rThe Subjection of Women』：women， men， power ④rNature』：nature， natural， human， law

(11)

これらの結果は、各文章の特徴を現す特徴的な単語の使用頻度が高いことを示している。また同様に、言語ノイズを取り去って分析する方法が極めて有効な手段であることもわかる。ただしこの分析は、著者の特徴ではなく、

文章毎の特徴が現われていると思われるので、著者の特徴を抽出する場合は、

他の著者との比較および、元の単語の出現頻度でかなり下位までバックグランドノイズを取り去る必要があるかもしれない。

5．バックグランドノイズと議論

バックグランドノイズの中にも著者の特徴を示す情報が含まれていることは十分考えられる。それは、前述したように、元々の単語の出現頻度（表2−

5）で、ある順位までは4つの文章すべてで共通の単語であったものが、途中から文章ごとにその順位が異なっていた。これは、その文章や著者の特性を示すものと考えられるが、普遍的に生じているかどうかは不明である。このような疑問から我々はいわゆる言語ノイズの中の最も頻度の高い「the」

について一考する。定冠詞「the」は、古来の指示代名詞から派生したものであると言われ、その機能は多く、難解な品詞であると言われている［7］。

「the」というのは、その時代に良く知られている常識的なものを指しているのか、又は文中の特にその「the」が出現する前の文章を限定する内容を指

していると思われる。我々が文章を書く場合、その既に書いた内容を細かい点まで把握しているには、短時間に書き上げる。長時間かけて書くと前のこ

とをかなり曖昧な形で記憶してその続きを書くことになる。J．s． Millは語学にも大変な才能の持ち主であるので、そのようなことはないのかもしれないが、「the」の分布が執筆時期または期間ごとに分類できるかもしれないとの予想の下に次の事を調べた。

我々のクロスリファレンスプログラムは、その単語が出現するすべての行番号を出力してくれる。この行番号リストの度数分布表を作成し、それをグラフ化した。rOn Liberty』と『The Subjection of Women』の2っの文章についての結果が図2、図3である。

(12)

200 150 100 50 0

「THE」の出現回数

110 160 行番号

図2 『On Liberty』

300 250 200 150 100 50

「THE」の出現回数

160 行番号

図3 rThe Subjection of Women』

(13)

図は、10行ごとに「the」の集計をとった分布である。初めの方は、いずれも増加しているが、中間部はがたがたと決して一定ではなく、大きく変動している。この分布の大きな変動が著者の執筆時間と何らかの相関があるのではないかと考える。もちろん、名詞の分布も考慮する必要があるが、より正確に理解するためには、執筆時期がよくわかっている作品を調べる必要がある。また、上の分布をより深く分析するためには、その文章の内容もよく理解する必要があるのかもしれない。これらは、本研究の今後の課題である。

参考文献

1．斎藤信男・武市正人・石畑清著、米田信夫偏、

「C言語とプログラミング」（産業図書）

2．石畑清著、「アルゴリズムとデータ構造」、

岩波講座ソフトウェア科学3（岩波書店）

3．URL：http：〃www．utilitariznism．com／及び

http：／／www．la．utexas．edu／research／poltheory／milll／

4．Zipf， G．K．（1949）． Humαn behαviorαn，d the principle（）f leαst effort．

Cambridge， Mass．：Addison−Wesley．

5．URL：http：〃www．nslij−genetics．org／wli／zipf／

6．金明哲、村上征勝、「言語と心理の統計」第1部（岩波書店）

7．翻訳の世界（1981）5月号、特集「不思議な分布一冠詞」

英文の相互参照表

英文の相互参照表

著者 橋本 直樹

雑誌名 英語英文学研究

巻 11

ページ 77‑88

発行年 2005‑07

出版者 東京家政大学文学部英語英文学科

URL http://id.nii.ac.jp/1653/00009662/

英文の相互参照表

著者橋本直樹

雑誌名英語英文学研究

出版者東京家政大学文学部英語英文学科