• 検索結果がありません。

コーパスとしてのインターネット 利用統計を見る

N/A
N/A
Protected

Academic year: 2021

シェア "コーパスとしてのインターネット 利用統計を見る"

Copied!
17
0
0

読み込み中.... (全文を見る)

全文

(1)

著者

名倉 秀人

著者別名

Hideto Nakura

雑誌名

dialogos

9

ページ

109-124

発行年

2009-03

URL

http://id.nii.ac.jp/1060/00004974/

Creative Commons : 表示 - 非営利 - 改変禁止 http://creativecommons.org/licenses/by-nc-nd/3.0/deed.ja

(2)

コーパスとしてのインターネット

名倉秀人

1.はじめに

 コンピュータ・コーパスが英語学研究に用いられるようになって半世紀近 くになる、1961年に作られたのがBrown Corpus、100万語のアメリカ英語 からなる‘.Lancaster−Oslo/Bergen(LOB)Corpusはそれと比較するために同 じ100万語のイギリス英語のコーパスとして1970年に開発された 現在の ようなハードディスクに記録するものではなく、磁気テープが媒体であっ たために、記録の量も限られており、検索のスピードも遅いものであったc その後、コンピュータの発展によりInternational Corpus of Englig. h(ICE)や British National Corpus(BNC)など、文法タグ付きのコーパスが作り出され、 さらに詳しく分析できるようになった一tまた、Helsinki Corpus of English Texts:Diachronic Partのように英語を時代的に振り分けたような特殊コーパ スも生まれている、  そのようなコンピュータのローカル内で検索を行うコーパスに対し、ネッ ト上で使用できるコーパスが開発された、.BNCのSimple searchは50例

のみのリストになるが、文法タグやワイルドカーFも使えるtt Corpus

Concordance Sampierは40例をKWIC(keyword in context)形式で表示する. 日本にもLallguage Craft社のKWIC on WEBなどがある.tいずれも独自の データベースを構築し検索するシステムである.一方ERekは既存の検索エ ンジンを利用している.本稿はこのERekの考え方を取り人れ、ネット上の サイトを巨大なデータベースとみなし、そこで語学的情報を検索していくシ ステムを模索していこうとするものである,.

(3)

2.容認可と非文

 語学研究や英作文を行うときに、その英文が正しいか誤っているかの判断 をしなければならないことがある.日本語を母語とする我々は英語の直感を 持っていないため、ネィティブスピーカーによるチェックが必要となる.し かし、その確実性は保障されたものではない=ある入が容認できると言って も、別の人は非文だとする場合もある.国によっても地方によっても差が生 じる 性別、年齢、職業によっても変わってくるだろう,そもそも容認可能 な文と非文との境界線はどのように決定すべきなのだろうか.文法に合致し ているか否かという括りだけでは済まないのが言語である、、文法からとれほ ど離れているかが美しい表現であったりすることさえあるttどうしても論を 展開していく上で境界線を引かなければならない場合が多いのだが、ここで は「傾向」までで抑えておき、正しいか正しくないかの二元論ではない分析 を行うシステムを提案していく。

3.ローカルコーパスとネットコーパス

 先にも述べたように、コーパスは各々のコンピュータのハードディスクに データベースと検索ソフトをインストールするタイプと、ネット上にある何 らかのデータベースからブラウザやソフトウエアの検索システムで要求した データを引き出すタイプと二つに分かれる、これらをそれぞれ、ローカルコー パス、ネットコーハスと呼ぶことにする.ネットコーパスの中でも、自分で データヘースを構築したものと、Yahoo!やGoog}eのような検索エンジンの データベースを応用するものに分かれる。これらをデータベース.構築型と検 索エンジン応用型と呼ぶことにするt.それぞれ利点と欠点があるが目的に応 じて使い分けるz ローカルコーパスは企業が作ったものを購入するタイブと個人でデータベー

スを作るタイプがある。BNCのCD−ROM版などは企業が作ったものだ.

自分でデータを追加したり、検索システムを導入したりすることはできな

(4)

い、よってデータが古くなってしまう可能性がある.しかし、購人したコー パスには、データベースにその企業のはっきりとした意図が表れていること が多く、データとして不適切なものが除かれていて、データの元となった素 材が良く、その素材の分布度なとが計算されて作られている傾向にある つ まりデータとして信用できるということになる.f固人でコーハスを作る場合 には、まずその素材となるテキストを集めなければならない かつてはキー ボードで打ち込んだりスキャンしてOCR(Opt’ical Charactei・Reader:光学式 文字読取装置)で読み込ませたりしてデータを積み重ねていたが、現在では Project Gutenbergやニュースサイトなどからインターネットを使一、て比較的 容易にデータを収集することができる、それでも、個人がデータを集めるた めに、全般的にバランスよくデータを収集することは難しい。自分の好きな テキストや集めやすいテキストに偏ってしまう,逆に企業が作ったコーパス にはない、自分独自のデータベースを作ることは可能だ。映画や小説、詩、劇、 会話、ニュースなど、目的別コーパスは作りやすい、また、検索システムも

無料のAntconcや、有料だが多機能のWordSmithなど、コンコーダーを自

分で選択することができるのも個人作成コーパスの利点である、検索システ ムを自分で作っている研究者もいる.いずれにせよ、使えるようになるまで 時間と手間がかかってしまうことが弱点である/t  ネットコーパスのデータベース構築型にも、企業が構築したものと個人で 作ったものがあるが、個人のものは少なく、企業からライセンスを購入する 形が多い。内容的にはローカルコーパスと変わりはない、ハードディスクの 容量を必要としないこと、データベースの更新を企業がやってくれることな どが利点として挙げられる、また、検索用ソフトウエアをインストールせず にブラウザで検索できるタイプのものは、ネット環境さえあればいつでもど こでもコーパスが使える 欠点は、ほとんどのものが一年毎の更新で有料

だということだ大学でライセンスを購入して学生に自由にアクセスでき

るようにできれば良いのだが、著作権違反に当たる可能性がある,しかし、

(5)

BNCやCorpus Concordance Samplerの無料試用版は検索結果の例文数に制 限はあるものの1一分に使えるものだ.使い方によっては目的のデータを引き 1出せる.まずはここから始め、必要に応じて購入するのが良いだろう、

4.Yahoo!とは

 検索エンシン型ネットコーハスはERekなど様々な形で公開されているが、 検索エンジンをコーパスとして使うことに問題はないのであろうか.Yahoo!

やGoogleの他にもgooやMSNなど、ネット上には多数の検索エンジンが

ある,ここではYahoo!に絞り分析していく.  Yahoo!はJerry YangとDavid Filoが開発した世界有数のポータルサイ トである。Yahoo!という名はYet Another Hierarchical Offlcious Oracleの 略語とされているが、実際にはSwift作のGti〃ivc)1”s Trave∼sに登場する Hoしlyhnhnmsに仕える野獣に由来する「ならず者」の意昧が元となってい る[/ディレクトリ型検索サービスとして出発したが、2000年にGoogleと提 携しロボット型検索エンジンを導入した、ディレクトリ型は、個人が登録し、 Yahoo!社員が直接サイトを訪れ、載せるべきかどうかを判断し、適切なカ テゴリーに入れるというものである、JこれではYahoo!社員の意図が反映さ れ過ぎて、偏った検索エンジンになってしまう。また、手作業の面が多いた め、登録サイト数がなかなか増えない。一方ロポット型は情報収集プログラ ムがネットビのあらゆる情報を収集し、自動でキーワード毎のデータベース を構築していくシステムだ.Yahoo!はGoogleと提携することにより莫大な 情報を手にいれ、ディレクトリ型もそのまま残し、統合型のポータルサイト として生まれ変わった。

 Yahoo!はGoogleのロポット型検索エンジンを元に独自で検索技術を

開発した、だが、その詳細は発表されていない。具体的に調べてみよう。 Houyhnhnmsという辞書にもあまり見られない単語を検索してみる。 Yahoo! Japanで検索した結果、「約282、000件」と表示された、「約」とf寸いている

(6)

のは、検索エンジンの特性として「似たようなページは無視する」とするも のがあり、さらに単位として下位に属する数字はゼロにしてしまうためであ

る.同じ単語をGoogleで検索してみると「約59900件」と約5分の1に

なってしまう(2008年M月現在).データ数においてGoogleの方が少ない ということはない/tでは、この差は何なのであろうか 今のところ「検索 エンジンの差」としか答えられない.また、Yahoo!USAのアメリカの本家 サイトで検索すると、同じ単語を検索しているにもかかわらず「285、000fOr Houyhrihnnis(AbOUV」と僅かながら多い.これらの結果から判断できるこ とは、検索エンジンのヒット件数を100%信じてはいけないということであ る=この数字だから容認するとか、非文であるとかを断言することは危険で ある 何万件とあれば容認に近いとは言えよう。数百件では微妙になってく る。一桁以下は、おそらくほとんど使われない表現であろう、だが、あくま で感覚でそう思っているだけであって、容認、否容認の線引きはできないこ とを忘れてはいけない。また、この「件数」という数字は絶えず変わる。特 に流行語は、流行る前はゼロに近く、流行ると数が急に増え、流行が終わる と減っては行くが、その言葉を使ったべ一ジが残る確率が高いのでゼロには ならない,あらゆる人が書いたあらゆる英文がネットトには存在するという ことを忘れてはならない。

5.コーパスとしてのYahoo!の使い方

 Yahoo!の検索結果の件数は完全な証拠とはならないが、指針として参考 にはなる。またそこで得た例文も使うことができる。そのデータベースの× きさは計り知れない。個人のそれはもちろんのこと、企業のコーパスをはる かに凌ぐ、そしてそのデータソースの多様性も無限大だ,上手く使うことに よって語学研究の良いツールとなる、  例えばall that glitters is llot goldという例文を調べてみよう一まず、 Yahoo!Japanを使ってみる./検索窓にそのまま書き込んで「検索」ボタン

(7)

を押す、ヒット数は約14、700,000件あった 並んでいる順番は検索されて いる頻度数だけではなく、検索されたい企業の意図が反映されているので あまり参考にはならない一 ・番最初に挙げられているのは日本のアニメー ションの台詞のようだ しかも”All that ghtters iTl not gold’一となっている. Yahoo!Japanは「引越」「引っ越し」といった、日本語表記のゆれを含めて 検索するシステムが導入されている,そのためかこのようなものにもヒット してしまう=Yahoo!USAではこの「ゆらぎ」を含めた検索は行っていない ヒットの順番も上位に日本語のものが来ない、‘よってYahoo!を英語のコー パスとして使うのであれば、Yahoo!USAの方が正確ということになる./今 後Yahoo!USAをYahoo!と表記するc  改めてal】that glitters is llot goldをYahoo1で検索してみる.ヒット件数 は役3240.000件Lゆらぎを拾わないせいか、Yahoo!Japanより圧倒的に少 ない。なお、大文字・小文字の判別はしない,検索結果を見てみると、最

初にWikipediaが来ている。これは「検索上位SEO対策」で企業の戦略の

ためであると思われる、ランキングに使用頻度の信用性は小さい.ページ を進めていくと、all that glitters may not be goldや、 Not All that Glitters is Goldなどがヒットしてくる これは「ゆらぎ」ではなく、検索時にデフォ ルトでthe exact phraseではなくall of these wordsを選択しまっているから だ,完全にフレーズに一致させるためには、ダブルクォーテーションマーク Cl・・パで囲む必要がある,「「all that glitters is not geld”で検索してみるとヒッ ト数は約65α000件と約5分の1に絞られる。順番も含め完全に一致させる フレーズ検索とすべて含む全検索を上手く組み合わせることによって英語研 究・学習の役に立てることができるtt例えば”All that glitters is not gold”[ス ペースlshakespeareで検索すれば、 All that glitters is not goldという文字列 とshakespeareという単語を含むページがヒットする 件数は約25,400件ま で絞れる。はやり最初にWikipediaが来る,ここを見てみると、以下のよう に記されている=

(8)

All that glitters is not gold is a welLknown sayin9. The expression, in variou!forms. date:from at least as far as the 12th century.[1].[t nligl】t even go back as far as Aesop.[2] The popular fornl of the expression is a corruptioll of a line in William Shake: peare’s pjay, The Merchant of Venice. The line comes from the secondary Plot, the puzzle of Poitia’s boxes: ”AII that gllsters is not gold; Often have you heard that told: Many a nlan his life hath sold But Iny outside to behold: Gilded tombs do worms enfold, Had you beeil as wise as bold、 Young in limbs、 in judgenlellt old Your answer had not been inscroli’d Fare you well, your suit is cold.「’ Note that Shakespeare used glisters rather than glitters.

この句が12世紀くらいのもので、ShakespeareのThe Mercham of

Venice(「ヴェニスの商人』)からのものであることがわかるttその引用も記 されており、さらにShakespeareがglittersよりもglistersの方を使っていた ことまでわかる.,もちろんWikipediaだけでは完全に信用するわけにはいか ないので他のサイトを調べてみたり、実際の本や研究書を手にして調べるこ とで正確性を高める作業は行わなければ’ならないtコ

(9)

6.限定検索

ディズニーにLi/o and Stitchというアニメ映画がある・この中でLibのラ イバルであるMyrtleがStitchを見て言った台詞に’‘Thal is the ugliest thillg Ihave ever saw.1’というものがある「現在完了形なのであれば、 I have ever seenでなくてはならない.ディズニーという大きな会社が子供に見せるア ニメの中で非文のチェックを怠ることは想像し難い そうであるなら、I have ever saw,は容認可なのであろうか.アメリカ人の友人3人に尋ねてみ たところ、実際に使われているが使うことはあまりないとのことであった、 これは筆者の友人の見解であって客観性に乏しい。そこでYahoo!を使って 調べてみた。  副詞を除き、”have saw”の文字列で検索をかける。ヒット数は約617.000 件。”had saw”や”h.as saw”、さらにhaveとsawの間に副詞が入る例にはヒッ トしない、代表として”have saw”を選択した。最初にヒットしたのがwe have saw training…で「のこぎりの訓練」である,これは目的の例文ではな い.また、SAWという映画がヒットする.、それでもかなりの数の完了形の ”have g. aw”がヒットしている,では、この数字を信じ、容認可能と判断して よいものなのだろうか ネット上では様々な国の人々がテキストを書き込ん でいる.アメリカ・イギリス・オーストラリアなどの英語を母語とする人々 もいれば、フィリピンのように英語が公用語になっている国の人々、そして 日本人のように独自の母語を持った上で英語を学んだ人々もいる,そのレベ ルも様々だ。正しい英語を書いているとは限らない、.617.000件のうちのど のくらいの数が容認可能の英語を書いているかわからないのだ、ネット⊥の 混沌さはときに不正確な情報を撒き散らすこともあるtt  よって、そのソースをフィルターにかけて限定する必要がある.Yahoo! にはいくつかのフィルターが用意されているので、使い方によってはより正 確に近いデータが引き出せる。Yahoo!のSearch boxに何も書かずに[Web Search]のボタンを押す.再びSearch boxが表れるが、右隣にOptionと書

(10)

かれたボタンが出る そこを押すと選択肢が出るので、Advanced Searchを 選ぶttすると検索条件を限定できるページが表示される まず、文字列検 索なのでthe exact phraseのボックスにhave sawと入れる.次に限定するカ テゴリーだが、ドメインを限定することによって、非文法であったり慣用的 に使われない文を載せることはないだろうと推測できるものだけに制限する ことができる、例えばOnly edu domainsにチェックを人れれば教育機関の ウェブページに限定できるし、Only gov domaillsにチェックを入れれば検 索結果は政府関係のものだけになる.また、only search ill this domain/g. ite: のボックスにbbc.co.ukと入れればBBC製作のウェブページだけがヒ・ソト する。ヒット数こそ減るが、そこに書かれている英語の正確性は高くなる だろうtt加えて、国を指定できるので、アメリカやイギリスに限定すれば、 その国の傾向がわかる.例えばprogranlmeというイギリス式のスペルを検 索するとイギリス限定では245、000.000件なのに対し、アメリカ限定では 171、000,000件と約30c/,滅るだけだ。逆にprogramで検索すると、イギリス 限定では143,000.OOO件なのに対し、4.140.000.000件と桁が増え約40倍だ. つまり、programmeというイギリス式スペルはアメリカでもイギリスでも それほど差はないが、programというアメリカ式スペルをイギリスで使う率 は低いということがわかる、正確な数字ではないが、おおまかな傾向を感じ 取ることは可能だ=このように、検索条件を限定することによって、Yahoo! はコーパスとしての威力を発揮していく.

7.EReK

 「英語例文検索EReK」というサイトがある(以降EReKと呼ぶ)。たつを 氏という自然言語を専門とする工学博士が作ったものだが、製作者の詳細は わからなかった‘,このサイトはネット上のテキストをコーパスとみなして検 索するシステムである、Yahoo!のWeb API(Application Program Interface) を使っているとのことなので、Yahoo!を使っていることには変わりはない

(11)

が、検索結果はKWIC形式で100件表示され、その左右の文字列をアノレファ ベ・ソト順にソートできる点が非常に優れている 検索窓にhave sawと入 れて結果を出し、ソートするとsawがのこぎりや映画のタイトノレとして使 われているものが一一目でわかる.また、限定検索もある程度可能で、Onlv news sltesにチェックをして検索すればCNN、 ABC、 USA Todavのサイト のみに限定される一tすると、のこぎりや映画のタイトルのsawはほとんどヒソ トせず、完J’形のhave sawがほとんどとなる、119件という件数の少なさは、 マスコミなどの公の場ではあまり使われないことを表す 検索結果のサイト を確認してみると、インタビューや視聴者の意見などが多く、記事自体には 含まれていないことがわかる,ローカルコーパスと組み合わせれば、研究・ 学習に非常に役立つものである、  しかし、残念なことにEReKはワイルドカードには対応していない。 have *sawなどの検索はできないのである。検索エンジン型ネットコーバスのデー タベースとしてGoogleを選択せずにYahoo!を選んだ理由としてワイルド カードが使えるということがある。Googleもワイルドカードに対応してい るとは記されているのだが、検索結果を見るとまだ不完全なようだ.have* sawで調べても*の箇所に入る単語が一単語ではないケースが多く見られる. 一方Yahoo!では一単語に限定される。そのような機能があるYahoo!をベー スにしているにもかかわらず、EReKではワイルドカード検索ができない。 これはAPIでプログラムを組んでいるため{士方のないことなのだろう=また、

限定検索もeduドメインとアメリカニュース3社に限られる一イギリスや

オーストラリアのサイトを限定することはできない.今後の改良が待たれる が、現状でも十分役に立つことは間違いない。

8.Yahoo!を用いた限定検索システムの開発

 EReKの弱点を補うために、自分でYahoo!の限定フォームを作ってみた。

筆者はプロクラマーではないのでAPIでプログラムを組むことはできな

(12)

い よ一)てKWICやソートが可能なプログラムではなく、HTMLフォーム

からのURLパラメータを使って限定していく形を取る.機能はAdvallced

Searchと変わらないが、それをチェックで行えるのが便利である、.  検索サイトはhttp:〃search.yahoo.com/searchを使う.理由は1一ゆらぎ」の 防tl二と検索結果の順位の上位に日本のサイトが来ないようにするためであ る,.検索結果は別窓で出た方が、.条件を変えやすく比較もできるのでblank を使った 〈fol”lll methodニ”№?sI action=”httP://search.yahoo.colll/search”target=”_blank”〉

 最初はニュースサイトの限定 BBCのサイトとBBCのニュースサイトを

分けた理由は、BBCには多くのコンテンツが含まれ、ドラマなどからも検 索してしまう可能性があるからである,イギリスのニュースサイトはBBC、

アメリカはCNNとVOA、オーストラリアはABCを選択肢とした,パラメー

タはvsである. 〈input mme=”vs” type=’「radio’1 value=’’” checked=”checked”〉ウェブ全体を検索 <input name=”vs「「type=「’radio’‘value=1「bbc.co,uk”>bbc.co.uk 〈input nameニi,vs’l type=”radio’l value=”news.bbc.co.uk「「>11ews.bbc、co.uk <illput 11ame=”vs”type=Tlradio”value=”Cnn.coml‘>cnn.com <i叩ut name=’lvs’1 type=”radio‘i vaiue=”voanews.com’1>voanews.com <input i1・.allle=”Vsll type=1‘radio”value=「’abc.net.au1「>abc.net.au

 次に、Gutenbergの限定を設定した.=これはまだ実験段階である

Gutenbergは著作権の切れた書物を電子化し提供しているサイトである そ の配信は主にテキストファイルであることから、htmlファイルを除外し、 拡張子をtxtのみに限定するチェックボックスを付けた、句からその作家や

(13)

作品を調べるものとして作ってみた.ファイル限定のパラメータはvfである、 <input name=”vs”type=”radio”value=†「www.gutellberg.org’1>Gutenberg <input type=”checkbox” name=”vt”” value=”txt「1>txtのみの場合  AII that glisters is noi goldで検索をかけたところ、結果は21件、その中で Sllakespeareのτ/∼〔・Mピ;て・ノiam‘qf’1’le〃i(・eは7番目であった、有名な作品はその 研究書までがヒットしてしまう。まだまだ改良の余地がある  最後に国の限定.国によっての英語の使い方を調べるために作成した。イ ギリス、アメリカ、オーストラリアに加え、比較対象のためにU本を付け加 えた。この欄はニュース限定の欄と混ぜてしまうと検索結果がおかしくなる ので「ウェブ全体を検索」にチェックが入ったまま行うcパラメータはvc. 〈input name=’lvc” type=”radio‘I valueニ1「「’checkedニ”checked”〉全ての国を検索 <input llame=”vc”’type=’「radio”vatue=”countryしIK”>UK <illput nameニ”vc’T type=”radio”value=”counrryUS”>USA <illput name=「ivC’I type=,1radio”value=「‘countryAU「「>Australia 〈input llame=”vc’‘type=「「radiO”value=”countryJP’,〉日本  プログを排除するチェックボックスを追加,パラメータはblf。しかし、 これはYahoo!Japanでは機能しているが、 Yahoo!USAではまだ機能してい ない.一近いうちに追加されるようなので、一応加えておく,. 〈input type=”checkbox’1 name=”blf,, value=1「1”〉プログを含めない  ニュースのソースや国の限定は増やすことが可能t/tさらに表示件数を100 件にし、使用言語を英語に限定する、件数のパラメータは11、言語のハラメー

(14)

タはvl, 〈input type=”hidden”name=1’nr, value=’,100”〉 <input type=’lhidden’「ntlllle=‘「vl’d value=1’1ang_e11 ’t>  Googleでもパラメータが違うだけで同様なものを作ることができる,し かし、何と言ってもワイルドカード検索ができるという要素は大きい一  では、作った限定検索でhave sawを検索して比較してみよう。まず、各 国のニュースサイトに限定してみる、しかし、そのサイトの×きさによって 違うので、have seenに対して何パーセントであるかという確率を出してみ るc.なお、以前に検索したものと違うのは、英語のサイトに限定しているた めである.

BBC news(UK} CNN(USA) VOA(USA) ABC(Aus)

have saw 5 ll玉 0 14 have seen

73300

7L900

6,640 30,800 percent 0.00689乞 0.1543% 0%. 0.0454%  いずれも低い率だ.マスコミなどの公式の場では使われることがほとんど ないということになる。CNNが多いが、これはインタビューや読者のレポー

トなどを多く載せているからだろう.逆にVOAにhave sawの例がないの

は文法チェックが徹底しているということだ.次にprogramとprogmmme

の単語の比較をしてみる.ここでの割合はprogramme/(programme+program) ×100で計算している,:

BBC news(UK) CNN(USA) VOA(USA) ABC(Aus) P「09「amme 347,000 9,130 446

19500

P「og「anl 15β00 315,000 162,000 868,000

(15)

BBCではprogrammeの率が95%を超えているが、他は3%にも満たない一

それほど差があることがわかる.

9.GugleFormatter2

 Yahoo!がコーパスとしての機能を持っていることを述べてきたが、や

はりKWIC形式で表示して分析ができればさらに有効なものとなるだろう それを可能にしたのが専修×学の佐藤弘明氏が開発したGugieFormatter2.4

である.GoogleやYahoo!の検索結果をKWIC形式で表し、その頻度も

ある程度出せる.100件表示にすれば5ページ分で500例の分析が可能だt、 Yahoo!Japanではなく、Yahoo!USAの方でのみ対応している,多少作業が 必要になるが、検索エンジンの結果を直感で判断するよりは数字として残せ た方がいい

 ここで、USA限定でhave sawについて検索してみる。ヒット件数は

528,000,,結果を「hmmlのみ」で5ページ500件保存する=GugleFormatter

を開き、typeをgoogleからyahooに変更z,参照から5つのhtmファイルを

選んでgoを押す,結果が下の欄にKWIC形式で500例表示される.t Yahoo! で検索したときに、キーワードが検索結果のページに出ないことがある.こ れはプログや常に更新されているものに多く見られる それが最初に13件 見られた.have sawの右側に来るものを調べるために[Ll」というボタンを 押すと、アルファベット順にソートされる SAWという映画のものは後ろ にローマ数字が来ている場合が多い、完了形のものは由eや代名詞が多いの がわかる・不定冠詞は少ない 完了という特質上、未知情報が目的語に来難 いのは当然であろう,頻度も表示される.theが43件と最も多く、その後 がit(22), this(19). iv(18)…と続く=palmettoという単語が8件あるが、これ はsaw palnnettoという植物の「ノコギリパルメッ1・」であった このよう な箇所を確実に見極める英語力は必要となる、次に[L1]を押すと左側がソー トされる、頻度としてはiが一番で112件tt/次はtoの37件だが、これは完

(16)

了不定詞よりも映画のSAWが多くヒソトしている 目に付いたのが助動詞 would. nav mUSt. shouldなどである Iwish l would have saw…のような仮 定法が日立った.このように、その句や語の前後で使われ方の傾向を調べる には良いッールとなる.

9.まとめ

 今回は語学研究のツールとして検索エンジンをどのように使っていくかと いうことを考えていった.今後は、実際の語学研究にしようしてみて、どの ようなことがわかるかを検証していきたいと思うaコーパスの形としての理 想は、国、報道機関、プログなどのカテゴリー別に限定でき、さらに科学系、

政治系、語学系などに制限でき、KWICで表示され、屈折を含めたワイル

ドカードが可能で、キーワードの左右の単語でソートができ、その頻度も表 示してくれるものだろう。プログラマーと研究者が一緒になって開発してい けば、それも不可能なことではない 世界最×のデータベースをうまく生か して、生きた英語の分析を行っていける方向に向かうことを願う.

Reference

×鹿広憲.2004.『検索エンシンを使った英作文支援システムの構築』、早稲      田大学 佐久嶋ひろみ.2006. Ajaxハッカーズ・プログラミング.メディアテック出版.

参考サイト(2008年11月現在)

The British Nationai Corpus(BNC). http://www.natcolp.ox.ac.uk/ ERek. http://erek.ta20.net/ Yahoo!Japan. http://www.yahoo.co.jp/ Google Japan, http://www.google.co.jp/

(17)

Amconc、 http://www.antlab.sci.waseda.ac.jP/ Wordsmith. http://www.wordsmith.org/ Corpus Concordance Sampler, http:〃www,collins.co.uk/Coi’pus/CorpusSearch. aspx Yahoo!、http:〃www.yahoo.com/ GugleFormatter2コ1t{p://sato.fm.senshu−u.acJp/_web/gugleFormatter2/index. html 作成した限定検索システム http://www2.toyo.ac.jp/∼eicom/yahoo.html 注:サイトは移行する可能性がある。また、 ある,. プログラムは改良されることも

参照

関連したドキュメント

その後、時計の MODE ボタン(C)を約 2 秒間 押し続けて時刻モードにしてから、時計の CONNECT ボタン(D)を約 2 秒間押し続けて

(採択) 」と「先生が励ましの声をかけてくれなかった(削除) 」 )と判断した項目を削除すること で計 83

自閉症の人達は、「~かもしれ ない 」という予測を立てて行動 することが難しく、これから起 こる事も予測出来ず 不安で混乱

こうした状況を踏まえ、厚生労働省は、今後利用の増大が見込まれる配食の選択・活用を通じて、地域高

手動のレバーを押して津波がどのようにして起きるかを観察 することができます。シミュレーターの前には、 「地図で見る日本

2001 年(平成 13 年)9月に発生したアメリカ 同時多発テロや、同年 12

モノづくり,特に機械を設計して製作するためには時