コーパスとしてのインターネット利用統計を見る

(1)

著者

名倉秀人

著者別名

Hideto Nakura

雑誌名

dialogos

号

9 ページ

109-124

発行年

2009-03

URL

http://id.nii.ac.jp/1060/00004974/

Creative Commons : 表示 - 非営利 - 改変禁止 http://creativecommons.org/licenses/by-nc-nd/3.0/deed.ja

(2)

コーパスとしてのインターネット

名倉秀人

1．はじめに

コンピュータ・コーパスが英語学研究に用いられるようになって半世紀近くになる、1961年に作られたのがBrown Corpus、100万語のアメリカ英語からなる‘．Lancaster−Oslo／Bergen（LOB）Corpusはそれと比較するために同じ100万語のイギリス英語のコーパスとして1970年に開発された現在のようなハードディスクに記録するものではなく、磁気テープが媒体であったために、記録の量も限られており、検索のスピードも遅いものであったc その後、コンピュータの発展によりInternational Corpus of Englig． h（ICE）や British National Corpus（BNC）など、文法タグ付きのコーパスが作り出され、さらに詳しく分析できるようになった一tまた、Helsinki Corpus of English Texts：Diachronic Partのように英語を時代的に振り分けたような特殊コーパスも生まれている、そのようなコンピュータのローカル内で検索を行うコーパスに対し、ネット上で使用できるコーパスが開発された、．BNCのSimple searchは50例

のみのリストになるが、文法タグやワイルドカーFも使えるtt Corpus

Concordance Sampierは40例をKWIC（keyword in context）形式で表示する．日本にもLallguage Craft社のKWIC on WEBなどがある．tいずれも独自のデータベースを構築し検索するシステムである．一方ERekは既存の検索エンジンを利用している．本稿はこのERekの考え方を取り人れ、ネット上のサイトを巨大なデータベースとみなし、そこで語学的情報を検索していくシステムを模索していこうとするものである，．

(3)

2．容認可と非文

語学研究や英作文を行うときに、その英文が正しいか誤っているかの判断をしなければならないことがある．日本語を母語とする我々は英語の直感を持っていないため、ネィティブスピーカーによるチェックが必要となる．しかし、その確実性は保障されたものではない＝ある入が容認できると言っても、別の人は非文だとする場合もある．国によっても地方によっても差が生じる性別、年齢、職業によっても変わってくるだろう，そもそも容認可能な文と非文との境界線はどのように決定すべきなのだろうか．文法に合致しているか否かという括りだけでは済まないのが言語である、、文法からとれほど離れているかが美しい表現であったりすることさえあるttどうしても論を展開していく上で境界線を引かなければならない場合が多いのだが、ここでは「傾向」までで抑えておき、正しいか正しくないかの二元論ではない分析を行うシステムを提案していく。

3．ローカルコーパスとネットコーパス

先にも述べたように、コーパスは各々のコンピュータのハードディスクにデータベースと検索ソフトをインストールするタイプと、ネット上にある何らかのデータベースからブラウザやソフトウエアの検索システムで要求したデータを引き出すタイプと二つに分かれる、これらをそれぞれ、ローカルコーパス、ネットコーハスと呼ぶことにする．ネットコーパスの中でも、自分でデータヘースを構築したものと、Yahoo！やGoog｝eのような検索エンジンのデータベースを応用するものに分かれる。これらをデータベース．構築型と検索エンジン応用型と呼ぶことにするt．それぞれ利点と欠点があるが目的に応じて使い分けるz ローカルコーパスは企業が作ったものを購入するタイブと個人でデータベー

スを作るタイプがある。BNCのCD−ROM版などは企業が作ったものだ．

自分でデータを追加したり、検索システムを導入したりすることはできな

(4)

い、よってデータが古くなってしまう可能性がある．しかし、購人したコーパスには、データベースにその企業のはっきりとした意図が表れていることが多く、データとして不適切なものが除かれていて、データの元となった素材が良く、その素材の分布度なとが計算されて作られている傾向にあるつまりデータとして信用できるということになる．f固人でコーハスを作る場合には、まずその素材となるテキストを集めなければならないかつてはキーボードで打ち込んだりスキャンしてOCR（Opt’ical Charactei・Reader：光学式文字読取装置）で読み込ませたりしてデータを積み重ねていたが、現在では Project Gutenbergやニュースサイトなどからインターネットを使一、て比較的容易にデータを収集することができる、それでも、個人がデータを集めるために、全般的にバランスよくデータを収集することは難しい。自分の好きなテキストや集めやすいテキストに偏ってしまう，逆に企業が作ったコーパスにはない、自分独自のデータベースを作ることは可能だ。映画や小説、詩、劇、会話、ニュースなど、目的別コーパスは作りやすい、また、検索システムも

無料のAntconcや、有料だが多機能のWordSmithなど、コンコーダーを自

分で選択することができるのも個人作成コーパスの利点である、検索システムを自分で作っている研究者もいる．いずれにせよ、使えるようになるまで時間と手間がかかってしまうことが弱点である／t ネットコーパスのデータベース構築型にも、企業が構築したものと個人で作ったものがあるが、個人のものは少なく、企業からライセンスを購入する形が多い。内容的にはローカルコーパスと変わりはない、ハードディスクの容量を必要としないこと、データベースの更新を企業がやってくれることなどが利点として挙げられる、また、検索用ソフトウエアをインストールせずにブラウザで検索できるタイプのものは、ネット環境さえあればいつでもどこでもコーパスが使える欠点は、ほとんどのものが一年毎の更新で有料

だということだ大学でライセンスを購入して学生に自由にアクセスでき

るようにできれば良いのだが、著作権違反に当たる可能性がある，しかし、

(5)

BNCやCorpus Concordance Samplerの無料試用版は検索結果の例文数に制限はあるものの1一分に使えるものだ．使い方によっては目的のデータを引き 1出せる．まずはここから始め、必要に応じて購入するのが良いだろう、

4．Yahoo！とは

検索エンシン型ネットコーハスはERekなど様々な形で公開されているが、検索エンジンをコーパスとして使うことに問題はないのであろうか．Yahoo！

やGoogleの他にもgooやMSNなど、ネット上には多数の検索エンジンが

ある，ここではYahoo！に絞り分析していく． Yahoo！はJerry YangとDavid Filoが開発した世界有数のポータルサイトである。Yahoo！という名はYet Another Hierarchical Offlcious Oracleの略語とされているが、実際にはSwift作のGti〃ivc）1”s Trave∼sに登場する Hoしlyhnhnmsに仕える野獣に由来する「ならず者」の意昧が元となっている［／ディレクトリ型検索サービスとして出発したが、2000年にGoogleと提携しロボット型検索エンジンを導入した、ディレクトリ型は、個人が登録し、 Yahoo！社員が直接サイトを訪れ、載せるべきかどうかを判断し、適切なカテゴリーに入れるというものである、JこれではYahoo！社員の意図が反映され過ぎて、偏った検索エンジンになってしまう。また、手作業の面が多いため、登録サイト数がなかなか増えない。一方ロポット型は情報収集プログラムがネットビのあらゆる情報を収集し、自動でキーワード毎のデータベースを構築していくシステムだ．Yahoo！はGoogleと提携することにより莫大な情報を手にいれ、ディレクトリ型もそのまま残し、統合型のポータルサイトとして生まれ変わった。

Yahoo！はGoogleのロポット型検索エンジンを元に独自で検索技術を

開発した、だが、その詳細は発表されていない。具体的に調べてみよう。 Houyhnhnmsという辞書にもあまり見られない単語を検索してみる。 Yahoo！ Japanで検索した結果、「約282、000件」と表示された、「約」とf寸いている

(6)

のは、検索エンジンの特性として「似たようなページは無視する」とするものがあり、さらに単位として下位に属する数字はゼロにしてしまうためであ

る．同じ単語をGoogleで検索してみると「約59900件」と約5分の1に

なってしまう（2008年M月現在）．データ数においてGoogleの方が少ないということはない／tでは、この差は何なのであろうか今のところ「検索エンジンの差」としか答えられない．また、Yahoo！USAのアメリカの本家サイトで検索すると、同じ単語を検索しているにもかかわらず「285、000fOr Houyhrihnnis（AbOUV」と僅かながら多い．これらの結果から判断できることは、検索エンジンのヒット件数を100％信じてはいけないということである＝この数字だから容認するとか、非文であるとかを断言することは危険である何万件とあれば容認に近いとは言えよう。数百件では微妙になってくる。一桁以下は、おそらくほとんど使われない表現であろう、だが、あくまで感覚でそう思っているだけであって、容認、否容認の線引きはできないことを忘れてはいけない。また、この「件数」という数字は絶えず変わる。特に流行語は、流行る前はゼロに近く、流行ると数が急に増え、流行が終わると減っては行くが、その言葉を使ったべ一ジが残る確率が高いのでゼロにはならない，あらゆる人が書いたあらゆる英文がネットトには存在するということを忘れてはならない。

5．コーパスとしてのYahoo！の使い方

Yahoo！の検索結果の件数は完全な証拠とはならないが、指針として参考にはなる。またそこで得た例文も使うことができる。そのデータベースの× きさは計り知れない。個人のそれはもちろんのこと、企業のコーパスをはるかに凌ぐ、そしてそのデータソースの多様性も無限大だ，上手く使うことによって語学研究の良いツールとなる、例えばall that glitters is llot goldという例文を調べてみよう一まず、 Yahoo！Japanを使ってみる．／検索窓にそのまま書き込んで「検索」ボタン

(7)

を押す、ヒット数は約14、700，000件あった並んでいる順番は検索されている頻度数だけではなく、検索されたい企業の意図が反映されているのであまり参考にはならない一・番最初に挙げられているのは日本のアニメーションの台詞のようだしかも”All that ghtters iTl not gold’一となっている． Yahoo！Japanは「引越」「引っ越し」といった、日本語表記のゆれを含めて検索するシステムが導入されている，そのためかこのようなものにもヒットしてしまう＝Yahoo！USAではこの「ゆらぎ」を含めた検索は行っていないヒットの順番も上位に日本語のものが来ない、‘よってYahoo！を英語のコーパスとして使うのであれば、Yahoo！USAの方が正確ということになる．／今後Yahoo！USAをYahoo！と表記するc 改めてal】that glitters is llot goldをYahoo1で検索してみる．ヒット件数は役3240．000件Lゆらぎを拾わないせいか、Yahoo！Japanより圧倒的に少ない。なお、大文字・小文字の判別はしない，検索結果を見てみると、最

初にWikipediaが来ている。これは「検索上位SEO対策」で企業の戦略の

ためであると思われる、ランキングに使用頻度の信用性は小さい．ページを進めていくと、all that glitters may not be goldや、 Not All that Glitters is Goldなどがヒットしてくるこれは「ゆらぎ」ではなく、検索時にデフォルトでthe exact phraseではなくall of these wordsを選択しまっているからだ，完全にフレーズに一致させるためには、ダブルクォーテーションマーク Cl・・パで囲む必要がある，「「all that glitters is not geld”で検索してみるとヒット数は約65α000件と約5分の1に絞られる。順番も含め完全に一致させるフレーズ検索とすべて含む全検索を上手く組み合わせることによって英語研究・学習の役に立てることができるtt例えば”All that glitters is not gold”［スペースlshakespeareで検索すれば、 All that glitters is not goldという文字列とshakespeareという単語を含むページがヒットする件数は約25，400件まで絞れる。はやり最初にWikipediaが来る，ここを見てみると、以下のように記されている＝

(8)

All that glitters is not gold is a welLknown sayin9． The expression， in variou！forms． date：from at least as far as the 12th century．［1］．［t nligl】t even go back as far as Aesop．［2］ The popular fornl of the expression is a corruptioll of a line in William Shake： peare’s pjay， The Merchant of Venice． The line comes from the secondary Plot， the puzzle of Poitia’s boxes： ”AII that gllsters is not gold； Often have you heard that told： Many a nlan his life hath sold But Iny outside to behold： Gilded tombs do worms enfold， Had you beeil as wise as bold、 Young in limbs、 in judgenlellt old Your answer had not been inscroli’d Fare you well， your suit is cold．「’ Note that Shakespeare used glisters rather than glitters．

この句が12世紀くらいのもので、ShakespeareのThe Mercham of

Venice（「ヴェニスの商人』）からのものであることがわかるttその引用も記されており、さらにShakespeareがglittersよりもglistersの方を使っていたことまでわかる．，もちろんWikipediaだけでは完全に信用するわけにはいかないので他のサイトを調べてみたり、実際の本や研究書を手にして調べることで正確性を高める作業は行わなければ’ならないtコ

(9)

6．限定検索

ディズニーにLi／o and Stitchというアニメ映画がある・この中でLibのライバルであるMyrtleがStitchを見て言った台詞に’‘Thal is the ugliest thillg Ihave ever saw．1’というものがある「現在完了形なのであれば、 I have ever seenでなくてはならない．ディズニーという大きな会社が子供に見せるアニメの中で非文のチェックを怠ることは想像し難いそうであるなら、I have ever saw，は容認可なのであろうか．アメリカ人の友人3人に尋ねてみたところ、実際に使われているが使うことはあまりないとのことであった、これは筆者の友人の見解であって客観性に乏しい。そこでYahoo！を使って調べてみた。副詞を除き、”have saw”の文字列で検索をかける。ヒット数は約617．000 件。”had saw”や”h．as saw”、さらにhaveとsawの間に副詞が入る例にはヒットしない、代表として”have saw”を選択した。最初にヒットしたのがwe have saw training…で「のこぎりの訓練」である，これは目的の例文ではない．また、SAWという映画がヒットする．、それでもかなりの数の完了形の ”have g． aw”がヒットしている，では、この数字を信じ、容認可能と判断してよいものなのだろうかネット上では様々な国の人々がテキストを書き込んでいる．アメリカ・イギリス・オーストラリアなどの英語を母語とする人々もいれば、フィリピンのように英語が公用語になっている国の人々、そして日本人のように独自の母語を持った上で英語を学んだ人々もいる，そのレベルも様々だ。正しい英語を書いているとは限らない、．617．000件のうちのどのくらいの数が容認可能の英語を書いているかわからないのだ、ネット⊥の混沌さはときに不正確な情報を撒き散らすこともあるtt よって、そのソースをフィルターにかけて限定する必要がある．Yahoo！にはいくつかのフィルターが用意されているので、使い方によってはより正確に近いデータが引き出せる。Yahoo！のSearch boxに何も書かずに［Web Search］のボタンを押す．再びSearch boxが表れるが、右隣にOptionと書

(10)

かれたボタンが出るそこを押すと選択肢が出るので、Advanced Searchを選ぶttすると検索条件を限定できるページが表示されるまず、文字列検索なのでthe exact phraseのボックスにhave sawと入れる．次に限定するカテゴリーだが、ドメインを限定することによって、非文法であったり慣用的に使われない文を載せることはないだろうと推測できるものだけに制限することができる、例えばOnly edu domainsにチェックを人れれば教育機関のウェブページに限定できるし、Only gov domaillsにチェックを入れれば検索結果は政府関係のものだけになる．また、only search ill this domain／g． ite：のボックスにbbc．co．ukと入れればBBC製作のウェブページだけがヒ・ソトする。ヒット数こそ減るが、そこに書かれている英語の正確性は高くなるだろうtt加えて、国を指定できるので、アメリカやイギリスに限定すれば、その国の傾向がわかる．例えばprogranlmeというイギリス式のスペルを検索するとイギリス限定では245、000．000件なのに対し、アメリカ限定では 171、000，000件と約30c／，滅るだけだ。逆にprogramで検索すると、イギリス限定では143，000．OOO件なのに対し、4．140．000．000件と桁が増え約40倍だ．つまり、programmeというイギリス式スペルはアメリカでもイギリスでもそれほど差はないが、programというアメリカ式スペルをイギリスで使う率は低いということがわかる、正確な数字ではないが、おおまかな傾向を感じ取ることは可能だ＝このように、検索条件を限定することによって、Yahoo！はコーパスとしての威力を発揮していく．

7．EReK

「英語例文検索EReK」というサイトがある（以降EReKと呼ぶ）。たつを氏という自然言語を専門とする工学博士が作ったものだが、製作者の詳細はわからなかった‘，このサイトはネット上のテキストをコーパスとみなして検索するシステムである、Yahoo！のWeb API（Application Program Interface）を使っているとのことなので、Yahoo！を使っていることには変わりはない

(11)

が、検索結果はKWIC形式で100件表示され、その左右の文字列をアノレファベ・ソト順にソートできる点が非常に優れている検索窓にhave sawと入れて結果を出し、ソートするとsawがのこぎりや映画のタイトノレとして使われているものが一一目でわかる．また、限定検索もある程度可能で、Onlv news sltesにチェックをして検索すればCNN、 ABC、 USA Todavのサイトのみに限定される一tすると、のこぎりや映画のタイトルのsawはほとんどヒソトせず、完J’形のhave sawがほとんどとなる、119件という件数の少なさは、マスコミなどの公の場ではあまり使われないことを表す検索結果のサイトを確認してみると、インタビューや視聴者の意見などが多く、記事自体には含まれていないことがわかる，ローカルコーパスと組み合わせれば、研究・学習に非常に役立つものである、しかし、残念なことにEReKはワイルドカードには対応していない。 have ＊sawなどの検索はできないのである。検索エンジン型ネットコーバスのデータベースとしてGoogleを選択せずにYahoo！を選んだ理由としてワイルドカードが使えるということがある。Googleもワイルドカードに対応しているとは記されているのだが、検索結果を見るとまだ不完全なようだ．have＊ sawで調べても＊の箇所に入る単語が一単語ではないケースが多く見られる．一方Yahoo！では一単語に限定される。そのような機能があるYahoo！をベースにしているにもかかわらず、EReKではワイルドカード検索ができない。これはAPIでプログラムを組んでいるため｛士方のないことなのだろう＝また、

限定検索もeduドメインとアメリカニュース3社に限られる一イギリスや

オーストラリアのサイトを限定することはできない．今後の改良が待たれるが、現状でも十分役に立つことは間違いない。

8．Yahoo！を用いた限定検索システムの開発

EReKの弱点を補うために、自分でYahoo！の限定フォームを作ってみた。

筆者はプロクラマーではないのでAPIでプログラムを組むことはできな

(12)

いよ一）てKWICやソートが可能なプログラムではなく、HTMLフォーム

からのURLパラメータを使って限定していく形を取る．機能はAdvallced

Searchと変わらないが、それをチェックで行えるのが便利である、．検索サイトはhttp：〃search．yahoo．com／searchを使う．理由は1一ゆらぎ」の防tl二と検索結果の順位の上位に日本のサイトが来ないようにするためである，．検索結果は別窓で出た方が、．条件を変えやすく比較もできるのでblank を使った〈fol”lll methodニ”№?sI action＝”httP：／／search．yahoo．colll／search”target＝”＿blank”〉

最初はニュースサイトの限定 BBCのサイトとBBCのニュースサイトを

分けた理由は、BBCには多くのコンテンツが含まれ、ドラマなどからも検索してしまう可能性があるからである，イギリスのニュースサイトはBBC、

アメリカはCNNとVOA、オーストラリアはABCを選択肢とした，パラメー

タはvsである．〈input mme＝”vs” type＝’「radio’1 value＝’’” checked＝”checked”〉ウェブ全体を検索＜input name＝”vs「「type＝「’radio’‘value＝1「bbc．co，uk”＞bbc．co．uk 〈input nameニi，vs’l type＝”radio’l value＝”news．bbc．co．uk「「＞11ews．bbc、co．uk ＜illput 11ame＝”vs”type＝Tlradio”value＝”Cnn．coml‘＞cnn．com ＜i叩ut name＝’lvs’1 type＝”radio‘i vaiue＝”voanews．com’1＞voanews．com ＜input i1・．allle＝”Vsll type＝1‘radio”value＝「’abc．net．au1「＞abc．net．au

次に、Gutenbergの限定を設定した．＝これはまだ実験段階である

Gutenbergは著作権の切れた書物を電子化し提供しているサイトであるその配信は主にテキストファイルであることから、htmlファイルを除外し、拡張子をtxtのみに限定するチェックボックスを付けた、句からその作家や

(13)

作品を調べるものとして作ってみた．ファイル限定のパラメータはvfである、＜input name＝”vs”type＝”radio”value＝†「www．gutellberg．org’1＞Gutenberg ＜input type＝”checkbox” name＝”vt”” value＝”txt「1＞txtのみの場合 AII that glisters is noi goldで検索をかけたところ、結果は21件、その中で Sllakespeareのτ／∼〔・Mピ；て・ノiam‘qf’1’le〃i（・eは7番目であった、有名な作品はその研究書までがヒットしてしまう。まだまだ改良の余地がある最後に国の限定．国によっての英語の使い方を調べるために作成した。イギリス、アメリカ、オーストラリアに加え、比較対象のためにU本を付け加えた。この欄はニュース限定の欄と混ぜてしまうと検索結果がおかしくなるので「ウェブ全体を検索」にチェックが入ったまま行うcパラメータはvc．〈input name＝’lvc” type＝”radio‘I valueニ1「「’checkedニ”checked”〉全ての国を検索＜input llame＝”vc”’type＝’「radio”vatue＝”countryしIK”＞UK ＜illput nameニ”vc’T type＝”radio”value＝”counrryUS”＞USA ＜illput name＝「ivC’I type＝，1radio”value＝「‘countryAU「「＞Australia 〈input llame＝”vc’‘type＝「「radiO”value＝”countryJP’，〉日本プログを排除するチェックボックスを追加，パラメータはblf。しかし、これはYahoo！Japanでは機能しているが、 Yahoo！USAではまだ機能していない．一近いうちに追加されるようなので、一応加えておく，．〈input type＝”checkbox’1 name＝”blf，， value＝1「1”〉プログを含めないニュースのソースや国の限定は増やすことが可能t／tさらに表示件数を100 件にし、使用言語を英語に限定する、件数のパラメータは11、言語のハラメー

(14)

タはvl，〈input type＝”hidden”name＝1’nr， value＝’，100”〉＜input type＝’lhidden’「ntlllle＝‘「vl’d value＝1’1ang＿e11 ’t＞ Googleでもパラメータが違うだけで同様なものを作ることができる，しかし、何と言ってもワイルドカード検索ができるという要素は大きい一では、作った限定検索でhave sawを検索して比較してみよう。まず、各国のニュースサイトに限定してみる、しかし、そのサイトの×きさによって違うので、have seenに対して何パーセントであるかという確率を出してみるc．なお、以前に検索したものと違うのは、英語のサイトに限定しているためである．

BBC news（UK｝ CNN（USA） VOA（USA） ABC（Aus）

have saw 5 ll玉 0 14 have seen

73300

7L900

6，640 30，800 percent 0．00689乞 0．1543％ 0％． _0．0454％いずれも低い率だ．マスコミなどの公式の場では使われることがほとんどないということになる。CNNが多いが、これはインタビューや読者のレポー

トなどを多く載せているからだろう．逆にVOAにhave sawの例がないの

は文法チェックが徹底しているということだ．次にprogramとprogmmme

の単語の比較をしてみる．ここでの割合はprogramme／（programme＋program） ×100で計算している，：

BBC news（UK） CNN（USA） VOA（USA） ABC（Aus） P「09「amme 347，000 9，130 446

19500

P「og「anl 15β00 315，000 162，000 868，000

(15)

BBCではprogrammeの率が95％を超えているが、他は3％にも満たない一

それほど差があることがわかる．

9．GugleFormatter2

Yahoo！がコーパスとしての機能を持っていることを述べてきたが、や

はりKWIC形式で表示して分析ができればさらに有効なものとなるだろうそれを可能にしたのが専修×学の佐藤弘明氏が開発したGugieFormatter2．4

である．GoogleやYahoo！の検索結果をKWIC形式で表し、その頻度も

ある程度出せる．100件表示にすれば5ページ分で500例の分析が可能だt、 Yahoo！Japanではなく、Yahoo！USAの方でのみ対応している，多少作業が必要になるが、検索エンジンの結果を直感で判断するよりは数字として残せた方がいい

ここで、USA限定でhave sawについて検索してみる。ヒット件数は

528，000，，結果を「hmmlのみ」で5ページ500件保存する＝GugleFormatter

を開き、typeをgoogleからyahooに変更z，参照から5つのhtmファイルを

選んでgoを押す，結果が下の欄にKWIC形式で500例表示される．t Yahoo！で検索したときに、キーワードが検索結果のページに出ないことがある．これはプログや常に更新されているものに多く見られるそれが最初に13件見られた．have sawの右側に来るものを調べるために［Ll」というボタンを押すと、アルファベット順にソートされる SAWという映画のものは後ろにローマ数字が来ている場合が多い、完了形のものは由eや代名詞が多いのがわかる・不定冠詞は少ない完了という特質上、未知情報が目的語に来難いのは当然であろう，頻度も表示される．theが43件と最も多く、その後がit（22）， this（19）． iv（18）…と続く＝palmettoという単語が8件あるが、これはsaw palnnettoという植物の「ノコギリパルメッ1・」であったこのような箇所を確実に見極める英語力は必要となる、次に［L1］を押すと左側がソートされる、頻度としてはiが一番で112件tt／次はtoの37件だが、これは完

(16)

了不定詞よりも映画のSAWが多くヒソトしている目に付いたのが助動詞 would． nav mUSt． shouldなどである Iwish l would have saw…のような仮定法が日立った．このように、その句や語の前後で使われ方の傾向を調べるには良いッールとなる．

9．まとめ

今回は語学研究のツールとして検索エンジンをどのように使っていくかということを考えていった．今後は、実際の語学研究にしようしてみて、どのようなことがわかるかを検証していきたいと思うaコーパスの形としての理想は、国、報道機関、プログなどのカテゴリー別に限定でき、さらに科学系、

政治系、語学系などに制限でき、KWICで表示され、屈折を含めたワイル

ドカードが可能で、キーワードの左右の単語でソートができ、その頻度も表示してくれるものだろう。プログラマーと研究者が一緒になって開発していけば、それも不可能なことではない世界最×のデータベースをうまく生かして、生きた英語の分析を行っていける方向に向かうことを願う．

Reference

×鹿広憲．2004．『検索エンシンを使った英作文支援システムの構築』、早稲田大学佐久嶋ひろみ．2006． Ajaxハッカーズ・プログラミング．メディアテック出版．

参考サイト（2008年11月現在）

The British Nationai Corpus（BNC）． http：／／www．natcolp．ox．ac．uk／ ERek． http：／／erek．ta20．net／ Yahoo！Japan． http：／／www．yahoo．co．jp／ Google Japan， http：／／www．google．co．jp／

(17)

Amconc、 http：／／www．antlab．sci．waseda．ac．jP／ Wordsmith． http：／／www．wordsmith．org／ Corpus Concordance Sampler， http：〃www，collins．co．uk／Coi’pus／CorpusSearch． aspx Yahoo！、http：〃www．yahoo．com／ GugleFormatter2コ1t｛p：／／sato．fm．senshu−u．acJp／＿web／gugleFormatter2／index． html 作成した限定検索システム http：／／www2．toyo．ac．jp／∼eicom／yahoo．html 注：サイトは移行する可能性がある。また、ある，．プログラムは改良されることも

コーパスとしてのインターネット 利用統計を見る

著者

名倉 秀人

著者別名

Hideto Nakura

雑誌名

dialogos

号

9

ページ

109-124

発行年

2009-03

URL

http://id.nii.ac.jp/1060/00004974/

コーパスとしてのインターネット

名倉秀人

1．はじめに

のみのリストになるが、文法タグやワイルドカーFも使えるtt Corpus

2．容認可と非文

3．ローカルコーパスとネットコーパス

スを作るタイプがある。BNCのCD−ROM版などは企業が作ったものだ．

無料のAntconcや、有料だが多機能のWordSmithなど、コンコーダーを自

だということだ大学でライセンスを購入して学生に自由にアクセスでき

4．Yahoo！とは

やGoogleの他にもgooやMSNなど、ネット上には多数の検索エンジンが

Yahoo！はGoogleのロポット型検索エンジンを元に独自で検索技術を

る．同じ単語をGoogleで検索してみると「約59900件」と約5分の1に

5．コーパスとしてのYahoo！の使い方

初にWikipediaが来ている。これは「検索上位SEO対策」で企業の戦略の

この句が12世紀くらいのもので、ShakespeareのThe Mercham of

6．限定検索

7．EReK

限定検索もeduドメインとアメリカニュース3社に限られる一イギリスや

8．Yahoo！を用いた限定検索システムの開発

筆者はプロクラマーではないのでAPIでプログラムを組むことはできな

い よ一）てKWICやソートが可能なプログラムではなく、HTMLフォーム

からのURLパラメータを使って限定していく形を取る．機能はAdvallced

最初はニュースサイトの限定 BBCのサイトとBBCのニュースサイトを

アメリカはCNNとVOA、オーストラリアはABCを選択肢とした，パラメー

次に、Gutenbergの限定を設定した．＝これはまだ実験段階である

73300

7L900

トなどを多く載せているからだろう．逆にVOAにhave sawの例がないの

は文法チェックが徹底しているということだ．次にprogramとprogmmme

19500

BBCではprogrammeの率が95％を超えているが、他は3％にも満たない一

9．GugleFormatter2

Yahoo！がコーパスとしての機能を持っていることを述べてきたが、や

である．GoogleやYahoo！の検索結果をKWIC形式で表し、その頻度も

ここで、USA限定でhave sawについて検索してみる。ヒット件数は

を開き、typeをgoogleからyahooに変更z，参照から5つのhtmファイルを

9．まとめ

政治系、語学系などに制限でき、KWICで表示され、屈折を含めたワイル

Reference

参考サイト（2008年11月現在）

コーパスとしてのインターネット利用統計を見る

名倉秀人

いよ一）てKWICやソートが可能なプログラムではなく、HTMLフォーム