• 検索結果がありません。

英文の相互参照表

N/A
N/A
Protected

Academic year: 2021

シェア "英文の相互参照表"

Copied!
13
0
0

読み込み中.... (全文を見る)

全文

(1)

英文の相互参照表

著者 橋本 直樹

雑誌名 英語英文学研究

巻 11

ページ 77‑88

発行年 2005‑07

出版者 東京家政大学文学部英語英文学科

URL http://id.nii.ac.jp/1653/00009662/

(2)

英文の相互参照表

橋 本 直 樹

1.序論

 言語情報科学として、種々の言語研究が行われている。特に膨大な言語デー タを多角的に扱い、その特性を導き出す多数の研究がなされている。本論文 では、言語プロセッサによるソースプログラムの変数名リストを取り出す機 能を英文の単語を抽出する方法に適用する。これはクロスリファレンス機能 と言われ、従来の多くのプログラミング言語に対して存在した。そのクロス リファレンス(相互参照表)の機能は、コンパイラのオプションで出力でき るものであった。しかし、近年は、分割コンパイルやオブジェクト指向開発 が実用プログラミングに利用されているため、プログラム開発におけるクロ スリファレンス機能の利用頻度は低くなった。そこでは、オブジェクトのリ ストが開発環境の中で自動生成される。しかし、巨大な数値計算等のプログ ラムに対しては、それを用いることは大変重要である。変数の入力ミスや、

プログラムの構成をチェックするために用いる。我々は、この機能を自然言 語処理に活用できると考え、本論文ではそのためのプログラム改変とその幾 っかの応用例を示す。この方法による自然言語処理を英文に対して実行する と文書中の単語の出現回数やその場所の特定に使うことができる。一方日本 語の場合は、この処理の前に形態素分析が必要になるのでクロスリファレン スの機能だけ持たせても余り意味を持たない。またこのような単語の出現頻 度を求める英文用のッールに、Wordsmith toolsなどがあるが、汎用であ

るため柔軟性が余りない。

 以下2節で、相互参照表作成のプログラムの説明をする。3節では、John Stuart Millの4っの文章にっいて、その相互参照表を実際に作る。4節で

(3)

は、その単語分布から得られる結果を示し、言語ノイズとキーワードの分離 を行う。5節は、そのノイズの中から得られる知見を議論する。

2.分析方法

 プログラムは、米田[1]らによるC言語で書かれたクロスリファレンスの ソースプログラムを利用し、我々の目的に合うように作り直した。以下その 基本構造を述べる。はじめに与えられているものは、自然言語で書かれた文

(ここでは英文)のテキストファイルである。プログラムは、その英文ファ イルを読んでその中の単語の出現行数とその個数を出力するもので、言語情 報処理としては比較的簡単なものである。

 プログラムでは、2っのファイルを用いる。第1のファイルは、文書処理 をする英文の文書ファイルで、もう一っは処理可能な文字や除外すべき特殊 記号・単語を登録してあるファイルである。この第2番目のファイル(シン ボルファイルと言うことにする)は、コンピュータ言語の場合には、予約語 と呼ばれるものを格納する。それは、プログラム言語であらかじめ決められ ている命令である。我々の場合には、特に除きたい単語や記号を入力してお

く。プログラムの処理方法は次のようにする。

 読み込んだ英文のファイルを、その単語の出現順に登録しながら辞書式順 序に整列(ソート)する。その方法として、binary search tree(2進探索木)

[2]を用いる。その単語の出現行数は線形リスト[2]を用いて登録する。除外 語(予約語)がある場合は、上記の単語リスト処理と同様にbinary search treeを用いて、辞書式順序に整列する。一方、除外する特殊記号をチェック するために、256個の文字符号(ASCII符号)を3っに分類して、分類表を 作成する。単語に用いてよい文字、単語の中間部等に用いてよい記号、それ 以外の記号に分類する。プログラミング言語の場合は、単語の間に

abc.de のような記号を用いる場合があるので3っの分類が必要になる。自 然言語処理の場合は、ハイフォン 等がこれにあたる。我々の英文の言 語処理の場合は、数字を処理対象から除くことにした。この処理は上述の方

(4)

法により極あて簡単にできる。表1は、単語に用いてよい文字(1と表示)

をa−z、A−Zのアルファベットだけ採用し、また中間部に用いてよい文 字(2と表示)をハイフォンだけにした場合の分類表の例である。他の文字 は0と表示してある。左上が0番目で、右に順番に並び最後は右下の255番 目となる。全部で256個のASCIIコードに対して設定する。

表1 ASCII符号分類表の例

 次に、処理の対象となる英文文書を読み込む。読み込む時に、分類表と比 較して処理する文字か否かを判別し、必要な単語だけを格納する。そして、

すでに作成したキーワード(予約語)の2進探索木と比較して異なるものだ けを新たにその文書の2進探索木として作成する。そのとき、その単語の行 番号をカウントする。2進探索木に単語を追加するとき既に同じものが存在 するときは、その行番号のみを追加リストに入れてカウントする。このよう にして単語リストの2進探索木とその行番号リストを作成する。以上のアル ゴリズムを図1のように表すことができる。

(5)

シンボルファイルを読み込む

使用可能文字を読み込む

中間部に使用可能な記号を読み込む

@(その他の記号は初期化で対応)

キーワード(予約語)を読み込む i2進探索木で辞書式順序に整列)

文書ファイル(英文)を読み込む

許される文字・記号だけを選択する

@   (分類表と照合)

キーワードの2進探索木と比較し、異なる 烽フだけを別の単語の2進探索木に朗録

辞書式順序に整列されている単語 潟Xトと、その個数・行数を出力する

図1 処理の流れ

(6)

3.相互参照表による分析

 クロスリファレンスを取るプログラムを利用して、本節ではJohn Stuart Millの4っの作品にっいて分析をする。その4つの文章は、『On Liberty』、

『Utilitarianism』、『The Subjection of Women』、 rNature』[3]である。

本節では、これらの文章中の語彙による類似性もしくはそれらの特徴を、単 語の出現回数、出現頻度等により抽出することを試みる。記号や数字を除い た単語数は、『On Liberty』が約48000語、『Utilitarianism』が約27000語、

『The Subjection of Women』が約45000語、『Nature』が約15000語で構 成されている。ここでは、シンボルファイルに省くべき単語(予約語)は、

入力しないで分析した。C言語で書かれている我々のプログラムは、コマン ドラインで動作する。小さい文章を分析する場合は、Microsoft社の Visual C++でコンパイルし、 Windowsのコマンドプロンプトで実行した。

しかし、巨大な文章に対しては、Solaris 9のコンピュータ上でそれに対応 した64bitsのCコンパイラにより実行ファイルを作成した。それはより大 きなスタック領域やヒープ領域を確保できるからで、非常に大きな文章の場 合に用いる。

 上記の4つの文章は、それぞれ別のファイルに格納しそれをコマンドライ ンから1っずっ処理をする。表2から表5は、その結果を単語の出現頻度順 に45番目までを整列した結果を表示している。クロスリファレンスは、そ の単語すべての出現を調べるものであるが、紙面の関係でここではその出現 の割合が高いものだけを示す。

 これらの結果からは、Zipの法則[4]は、成立していないように見える。

Zipの法則とは英文中の単語の出現頻度にっいての法則で、そのN番目の単 語が1番目の単語の1/Nの出現頻度ということを主張するものである。す

なわち、

        ん

      9N =jll(h:定数) (N=1,2,__)

という式でN番目の出現頻度9Nが表されるという法則である。 Zipの法則は、

多くの人々により研究が継続され、その改良版も多数存在する[5]。しかし、

(7)

パラメータの少なさ、およびその表現の単純さから本研究では、Zip自身の 主張による上の式のみを議論する。

「On Liberty』では、その頻度の1番目は「the」で、91=O.0629であるので k=o.0629である。従って、2番目の「of」のzipの法則による出現率92は、

92 ・・ O.0629/2=0.0315、同様に93=O.0210、9・ == O.0157と予測されるが、実際 は、それぞれ0.0512、0.0367、0.0268となる。この傾向は他の文書も同様で ある。少なくとも我々の扱っているJohn Stuart Millの4っの文書に対し ては成立していない。換言すれば近年の精度のよい言語情報処理の議論とし ては誤差が大きすぎる。もちろん、Zipの法則の改良版を用いて、パラメー タサーチをすれば再現する可能性はあるがその意味付けが難しく、ただのパ ラメータフィットになってしまうと思われる。すべての自然言語の文書をこ のような法則で理解するのではなく、この法則が成り立っ文書とそうでない 文書を分類し、その文書の特徴付けに使うのがよいのではないかということ をここに主張する。

表2出現頻度:「On Liberty』

単語 出現率

単語 出現率

ll

単語 出現率

1 the 6,291% 16 are 0,833% 31

if

0,446%

2 of 5,123% 17 b 0,816% 32 who 0,441%

3 to 3,674% 18 but 0,710% 33 ma 0,398%

4 and 2,679% 19 on 0,679% 34 no 0,398%

5

in

2,046% 20 the 0,662% 35 an 0,360%

6 is

1,938% 21 their α616% 36 those 0,360%

7 a t826% 22 his 0,531% 37 he 0,358%

8 it

1,653% 23 all 0,529% 38 its 0,358%

9 be 1,509% 24 this 0,520% 39 has 0,344%

10 that 1,384% 25 one 0,512% 40 there 0,335%

11

which 1,178% 26 an 0,504% 41 onl 0,323%

12 not 1,064% 27 have 0,485% 42 should 0,316%

13 as 0,993% 28 from 0,481% 43 what α314%

14 or 0,978% 29 with 0,479% 44   o    ・n lnlon 0,312%

15 for α845% 30 them 0,454% 45 more 0,310%

(8)

表3出現頻度:『Utilitarianism』

単語 出現率

単語 出現率

単語 出現率

1 the 6,379% 16 not 0,965% 31 natural 0,412%

2 of 5,427% 17 are 0,727% 32 bein 0,392%

3 to 3,672% 18 all 0,701% 33 human 0,392%

4 and 2,431% 19 but 0,688% 34 them 0,386%

5 is

2,122% 20 have 0,656% 35 we 0,379%

6 in

2,038% 21 for 0,649% 36 SO 0,367%

7 a 2,013% 22 the 0,604% 37 an 0,354%

8 it

1,582% 23 this 0,579% 38 from 0,354%

9 which 1,530% 24 with 0,579% 39 those 0,347%

1011 that 1,447% 25 what 0,463% 40 ood 0,341%

be 1,402% 26 one 0,457% 41 its 0,341%

12 nature 1」51% 27 if 0,450% 42 than 0,322%

13 as 1,106% 28 an 0,437% 43 more 0,315%

14 or 1,055% 29 on 0,437% 44 most 0,309%

15 b 0,984% 30 their α418% 45 other 0,309%

表4出現頻度:rThe Subjection of Women』

単語 出現率

単語 出現率

単語 出現率

1 the 6,328% 16 b 0,829% 31 an 0,435%

2 of 5,591% 17 for 0,818% 32 we 0,424%

3 to 3,658% 18 but 0,696% 33 ustice 0,420%

4 is 2,427% 19 this 0,641% 34 he 0,416%

5 and 2,413% 20 alI 0,593% 35 their 0,401%

6 in

2,059% 21 an 0,567% 36 those 0,390%

7 a 1,934% 22 from 0,560% 37 what 0,383%

8 that 1,827% 23 with 0,553% 38 no 0,365%

9 it 1,775% 24 on 0,512% 39 SO 0,361%

1011 as 1,403% 25 the 0,505% 40 who 0,354%

be 1,374% 26 one 0,501% 41 more 0,350%

12 which 1,311% 27 other 0,494% 42 has 0,346%

13 not 1,053% 28 have 0,460% 43 onI 0,346%

14 ◎r 0,954% 29 ha iness 0,453% 44 its 0,335%

15 are 0,829% 30 if 0,442% 45 there 0,332%

(9)

表5出現頻度:『Nature』

単語 出現率

単語 出現率

単語 出現

1 the 6,485% 16 for 0,854% 31 if

0,434%

2 of 5,274% 17 their 0,843% 32 one 0,407%

3 to 3,344% 18 women 0,781% 33 who 0,405%

4 and 2,766% 19 but 0,726% 34 an 0,398%

5 ln 2,200% 20 the 0,702% 35 other 0,390%

6 lS 1,861% 21 have 0,691% 36 has 0,387%

7 a t802% 22 or 0,684% 37 no 0,378%

8 it

1,507% 23 alI 0,613% 38 those 0,372%

9 that 1,332% 24 them 0,562% 39 her 0,367%

1011 be 1,193% 25 with 0,562% 40 his 0,367%

which 1,065% 26 on 0,547% 41 there 0,365%

12 are 0,978% 27 an 0,542% 42 onl 0,359%

13 not 0,961% 28 men 0,522% 43 been 0,343%

14 as 0,912% 29 this 0,511% 44 most 0,330%

15 b 0,912% 30 from 0,496% 45 than 0,328%

4.言語ノイズとキーワード

 前節での分析により、最も大きな出現頻度の単語は、「the」で、それに続 いて「of」、「to」であることが判る。このことは、すでに多くの研究があり よく知られていることである。4番目に大きな出現頻度は、「and」と「is」

が上の表から認められる。すなわち、4番目以降の厳密な順序は、文書によっ て異なる。しかし、7番目までを取ると、その中にthe, of, to, and, in, is,

aがすべて含まれている。主に冠詞、前置詞、be動詞、より下位には代名 詞などが並ぶ。これらの単語は、多くの文書に共通して出現頻度が高い単語 であると考えることができるが順序が異なるため、著者・執筆時期等の特徴 が現れ始めている。表では上位から45番目までを示しているが、4つの文書 の共通性をこの表から見っけることができる。一方、共通な単語以外に、文 書の特徴を現すキーワード・識別語が、名詞、動詞等として出現している。

ここで、識別語とは、著者の文書から選び出された著者の特徴を表す単語の ことである。これらを抽出するためには、ほとんどの文書中に常に出現頻度 の上位に存在する単語は不要な存在である。したがって、キーワードや識別

(10)

語を得るためにその不要な単語はその研究上のノイズと考えられる。一般に これらの研究では、 ノイズ は取り去った方がよいとの示唆[6]がある。

このノイズを取り除くと、その英文の特徴が際立っことが期待される。ここ でのノイズは、ほとんどすべての英文(散文)に起こるのでバックグランド ノイズと考えることができる。

 上述の4っの文書の上位から57位までの単語が4っの文書に現われている 単語を同定し、それらをノイズとして分析から除き、クロスリファレンスに

より再分析をする。実際には、全部でなく3っの文書に現われているものも カウントした。その結果上位約8割の単語は、4っの文書に含まれているも のであった。また約1割が3っの文書に含まれていた。3っないし4つの文 書に共通にある単語は、57位までの9割を占ある。これらの単語を除外する 単語リスト(予約語)として求あたものが以下の単語である。

aall an and any are as at be being but by can for from has have he his ifin is it its more no not ofoll one only or other so than that the their them they this those to we what when which who with would

これらの単語をシンボルファイルの中の除外すべき単語として登録し、再び クロスリファレンスを取った。最初の表2−5のリストから手で除外リスト の単語を除くことも可能であるが、より省力で行うようにシンボルファイル を作り直して実行した。しかし、その結果の中には、まだ求めるキーワード 以外のバックグランドノイズを含んでいる。しかし、極めて簡単に手作業で キーワードを抽出でき、その結果は次のようになった。

  ①『On Liberty』:opinion, society

 ②rUtilitarianism』:hapPiness, justice, human, person   ③rThe Subjection of Women』:women, men, power   ④rNature』:nature, natural, human, law

(11)

 これらの結果は、各文章の特徴を現す特徴的な単語の使用頻度が高いこと を示している。また同様に、言語ノイズを取り去って分析する方法が極めて 有効な手段であることもわかる。ただしこの分析は、著者の特徴ではなく、

文章毎の特徴が現われていると思われるので、著者の特徴を抽出する場合は、

他の著者との比較および、元の単語の出現頻度でかなり下位までバックグラ ンドノイズを取り去る必要があるかもしれない。

5.バックグランドノイズと議論

 バックグランドノイズの中にも著者の特徴を示す情報が含まれていること は十分考えられる。それは、前述したように、元々の単語の出現頻度(表2−

5)で、ある順位までは4つの文章すべてで共通の単語であったものが、途 中から文章ごとにその順位が異なっていた。これは、その文章や著者の特性 を示すものと考えられるが、普遍的に生じているかどうかは不明である。こ のような疑問から我々はいわゆる言語ノイズの中の最も頻度の高い「the」

について一考する。定冠詞「the」は、古来の指示代名詞から派生したもの であると言われ、その機能は多く、難解な品詞であると言われている[7]。

「the」というのは、その時代に良く知られている常識的なものを指している のか、又は文中の特にその「the」が出現する前の文章を限定する内容を指

していると思われる。我々が文章を書く場合、その既に書いた内容を細かい 点まで把握しているには、短時間に書き上げる。長時間かけて書くと前のこ

とをかなり曖昧な形で記憶してその続きを書くことになる。J.s. Millは語 学にも大変な才能の持ち主であるので、そのようなことはないのかもしれな いが、「the」の分布が執筆時期または期間ごとに分類できるかもしれないと の予想の下に次の事を調べた。

 我々のクロスリファレンスプログラムは、その単語が出現するすべての行 番号を出力してくれる。この行番号リストの度数分布表を作成し、それをグ ラフ化した。rOn Liberty』と『The Subjection of Women』の2っの文 章についての結果が図2、図3である。

(12)

200 150 100 50  0

「THE」の出現回数

110  160   行番号

図2 『On Liberty』

300 250 200 150 100 50

「THE」の出現回数

 160 行番号

図3 rThe Subjection of Women』

(13)

図は、10行ごとに「the」の集計をとった分布である。初めの方は、いずれ も増加しているが、中間部はがたがたと決して一定ではなく、大きく変動し ている。この分布の大きな変動が著者の執筆時間と何らかの相関があるので はないかと考える。もちろん、名詞の分布も考慮する必要があるが、より正 確に理解するためには、執筆時期がよくわかっている作品を調べる必要があ る。また、上の分布をより深く分析するためには、その文章の内容もよく理 解する必要があるのかもしれない。これらは、本研究の今後の課題である。

参考文献

1.斎藤信男・武市正人・石畑清著、米田信夫偏、

 「C言語とプログラミング」(産業図書)

2.石畑清著、「アルゴリズムとデータ構造」、

 岩波講座ソフトウェア科学3(岩波書店)

3.URL:http:〃www.utilitariznism.com/及び

 http://www.la.utexas.edu/research/poltheory/milll/

4.Zipf, G.K.(1949). Humαn behαviorαn,d the principle()f leαst effort.

 Cambridge, Mass.:Addison−Wesley.

5.URL:http:〃www.nslij−genetics.org/wli/zipf/

6.金明哲、村上征勝、「言語と心理の統計」第1部(岩波書店)

7.翻訳の世界(1981)5月号、特集「不思議な分布一冠詞」

参照

関連したドキュメント

実際の言語使用の中に見出される文化を言語学習の「内容」として扱おうとする立場 は、Liddicoat にも共通する。Crozet

 セッション14では,子どもの言語内容においてrおい

がカリフォルニア州議会に提出された。それは、 「提案

「Autobiography」のシラブル数の出現がランダムに出現しているものでは

なのか。大事なのは、言語をどのように決めればよいのか。文字テキストの場合だ

次に、クラスター分析と相互参照の事実を突合させてみる。第Ⅰに属する佐賀県み

  

なお私はドイツ留 学中ハンブルグで開催きれた第5