インターネットからコーパスへ
匹 田 剛
0.はじめに
インターネットの利用が一般に広く浸透して、我々が日常行う情報収集は大きく変わった。か つて図書館に入り込み丸一日かけて調べだしたこと、あるいはどれだけ長時間調べても見つから なかった情報が、今ではインターネット上で検索をかけるだけで瞬時に見つかることもまれでは
ない。
このような情報検索が可能になった要因として、世界中に散らばる膨大なウェッブサイトの存 在がある。これらはしばしば、一般にはなぜこの様な内容に関して興味を持つのかすらわからな
いような特殊なテーマの情報をも発信し、また非常に微細な問題にまで及ぶこともある。
例えば、ロシアの現在の首相がわからなかったとしよう。これを試みに今私がインターネット の検索エンジンを用いて調べてみると、漁xa直心xa伽OB困KaCb飛員OBであることがわかる。さ らにこの人物の生年月日が1957年!2月8日であり、出生地はモスクワ州のCo照双e80市で、2000 年5月17日に下院により承認され正式に首相に就任していること、などがわずか5分程度で明ら かになるわけである。このような情報を従来のように図書館などにおいて新聞・雑誌、その他の 文献を用いて調べたらどれくらいの時間がかかるか想像してみれぼ、情報検索ツールとしてのイ
ンターネットの有用性がどの程度のものかはわかるであろう。
このように、情報ソースとして高い有用性が期待できるインターネットであるが、莫大な数の ウェブサイトを包含するインターネットは、見方を変えると巨大な電子テキストの集合体である。
この膨大な電子テキストをコーパスとして利用することができればインターネットは一般的な情 報の他に言語そのものに関する様々な情報を入手するためにも利用できることになる。
もちろん、ただそこに膨大な電子テキストがあるだけではそれはコーパスとしての価値がある わけではない。言語資料として用いるためにはテキストに必要な検索をかけるための何らかの ツールが必要である。コーパスはそれ自体の規模・内容と同様、それに対してどのように検索が かけられるかがきわめて重要である。以下本稿では、インターネットをコーパスとして利用する ための方法とツールについて考えていく。
第1節では既存の検索エンジンを用いることにより言語そのものに関する情報を収集すること がある程度可能であることを示し、第2節では既存の検索エンジンの足りない点を補うために、
現在、新たなロシア語コーパス構築の計画があることを紹介する。
肇.検索エンジンの利用
インターネット上の膨大な情報の中から必要なものを探し出すために現在、無数の検索エンジ ンがあるが、本節ではそれらが使い方によってはインターネットをコーパスとしてみなした、言 語そのものに関する情報を入手するツールとなることを示す。
1.1.ディレクトリ型検索エンジンと日ポット型検索エンジン
検索エンジンは大きく分けて2つのタイプがある。一つはディレクトリ型検索エンジンで、も
匹 田 鰯
う一つはロボット型検索エンジンである。ディレクトリ型検索エンジンは様々なサイトへのリン クを主題毎に大分類から小分類へと階層的に構成されたディレクトリに分類して提供するもの で、登録すべきサイトの審査を人間が行い、登録すべきであると判断したものを適当な主題のディ
レクトリに登録するとともにそれにそのサイトの記述・説明を付するものである。ディレクトリ をたどって関連するサイトを探したり、ユーザがキーワードの入力を行い、そのキーワードに当 てはまるサイト得ることも可能である。
ロボット型検索エンジンはロボット(または、クローラー、スパイダー)と呼ばれるソフトウェ アをネット上に放ち、自動的にウェブサイトの内容を収集・蓄積することにより巨大なデータベー スを構築する。そして、そのデータベースに対してキーワードによる検索をかけ、そのキーワー
ドをテキスト中に含むサイトをアドレスとともに返すものである。ロボット型検索エンジンの概 念図は概略以下の通り:
インターネット
テキストの登録
①ロボット
検索結果の取得
テキストの収集
②データベース
結果の出力
③検索部
キーワード入力
ユーザ
図1.葭ポット型検索エンジンの概念図
両者はそれぞれ一長一短であり、最近では多くの検索エンジンがこれら2つの特徴を同時に持 ち合わせている。例えば、ディレクトリ型は人的作業で登録キーワードを決めているため、キー ワードに対して無駄なものを返してくる可能性は少ないが、人間が登録作業を行うため情報量が 全体として少なくなる。それに対して、ロボット型はロボットが自動的・機械的にひたすら収集 したテキストの中から検索キーワードを含むサイトを返してくるのが基本原理であるので、無駄 な情報がかなりの割合で含まれてしまうが1、情報量は多くなる。
ここで関係があるのはロボット型検索エンジンである。ロボット型検索エンジンは図1.にあ るように①ロボット、②データベース、③検索部の3者から成立するが、この内②はネット上に 存在する電子テキストを①のロボットをネット上に放つことによって手当たり次第に集めた大規 模な電子テキストの集合体である。従って、②のデータベース部は、「大規模な電子テキストでコ ンピュータによる検索が可能なもの」という、しばしば用いられるコーパス(より正確な名称を 用いれば、電子コーパス、コンピュータ・コーパス)のとらえ方に従えば、コーパスとみなすご
1例えば、「馬」について調べようとしてド馬」をキーワードにして検索したとき、「尻馬に乗る」とか、「馬乗り になる」などというフレーズが含まれるだけで実際には馬に何ら関係のないサイトも示されることになる。
とができると言えよう2。
以下、本節ではロボット型検索エンジンをコーパスとして利用することによって、ロシア語の 学習・教育・研究にどのような応用が可能かをいくつかの例を示すことによって論じていく。
2.2.目求ット型検索エンジンのコーパスとしての利用
ここで例として用いるロボット型検索エンジンは男ndex(http://www.yandex,ru/)とGoogle
(http://www.google。com.ru/advanced searchPh1瓢ru)の2つである。伽dexはロシアの検索エ ンジンで、Googleはアメリカのものである。また、日本で一般に広く知られているGoogleは http://www.google.Rejp/であるが、ここではロシア語で書かれていてなおかっ様々なオプショ
ンを指定して検索できる上記のサイトを例として用いる。
2● 2● 1● 5弓nclex
伽dexはロシアの検索エンジンであり、ロシア語に特化した、ロシア語で検索をするための 様々な工夫がなされている。例えば、働dexは語の形態変化を無視することができる。つまり、
nyT盟「プーチン」について調べようと思って検索キーワードをHyT器として検索した場合、その
昏
ファ{琵蔓) 藏卿夏}褻テ鯵 お魏訊り響 ツ鴫6臣 ^ルプ⑭
醗
馨騰・馨・墜露輪ρ糠☆概鱒叢叢チ・ア難露・魏魏・口
ア幽幽鍾晦ノ∫騨め紬・・u/ 藪謹鞠・麟瞭
が め ド ツら へ ゆ
薦蟹簾拳織 ゐへあヂ
壁Kρ)脇三XHaBO珊鰹磁ββe防㎜獄e
6ヲ戴鰐
鯉慧e頃肪C駐 n罫ec職Aocn{m謎Φρa職鰯 聯畦蕪ana P湘C翻卿月3L搬㎝K脚y 1塑丁経6鍵臓・leK。顯酬m6eπ㎜Bcy鵬
ユ茎∠≧旦正潤pe盟He r套】OTK8 apa601玉
18=09A涯¢KGK引縄no3双paHをロ玉pocc殿H
無難慧脳灘藻灘(議葺2鱒㌶
麓塑,Y鋤dc齢。凱,麹
畠一轍一,
姦
Beeπ認HO理㎜OT, a鶏も鷺照0撫脚TepOMウ
Jlb㎜, KO}丑・KK, CHoy60Pμ・H3y・{a負Te臓録 KO£oro e擁 疎くcel
璽鷺eKC ¢醗》r薮
3撚3誌
K三三曝丁,鵬
3喝丁1珊a班る羅酵。τ冠
鷹騰鷹灘霧鍛爆
簸鎌 飾欝
鞍
㌦/
船
電罵灘簸
騨
脅撫
・B菱{3難eC K 3KO疑。船脚嬢 Φ職a峯{cも1 αZGBLIe
り , ,P謎6鰐a 麺,Mo6㎜・臓CB兄3L,£皇血,
Hard耀a驚
8 0ヤ蓋獲{ce昏覧黛
灘蜘窯職丁誕 π。罵。===]
R賜㎝b
曲,一,鯉,
A二Bτ0/蟹【OTO
團
・06 ¢c脇0翼聾OJヨ駁丁照K霞 ま
} ___鮮}一弾一_r樋へ 一 _摩
羅・議論潔屡婆
翫acムCMK,一, P㎝r棚 ・P御難諏e囎貰蓬窺舅窺OT L獣
麹,聰,卿,塑
一,£cτ¢c冊聯Σe,睡 ・一
三轟
・C貰認。竃{董田KH K CCb競K厳
一,一,
一,PaC瓜{caH}規,麺
墨,麺,K㎜o,Φoτo,畷
〇緊a㎜9涯ε o}㎜(a,K㎜驚,α〉,
c服3b
擁oc紐a, C−r,一,顯aCHO籔,一,蜘}盤.遡,
婚魏
蝿塑
巻Ω魍
鞭πec朋・200Z(qac乃1・刃)(㎎ 鯵Moc紐践,王麗霞P簸
{ め
騎幽 霧一
夢勲騰蟹 懇趨
舞戸 繕イン参鴫鋳
図2.只ndexの検索画面
2これは、一定量の精選されたテキストからなるサンプル・コーパスではなく、艶語の変化する状況を監視し、古 いものを捨てつつ新しいものを絶えず収集するモニター・コーパスであると考えられる。
匹 田 剛
まま何ら手を加えずに機械的に検索が行われると、ヒットするのは主格のnyT朋が含まれるサイ トのみである。ところが、実際にはロシア語の場合このrlyT鰭という語は主格以外にも生格の RyT照aになって現れたり与格のnyT雌yになって現れたりしているはずである。主格形だけを
ヒットしてそれ以外の語形を無視するというのは検索エンジンとしては合理性に欠けていると言 えよう。そこで、恥dexは語形変化を無視し、それらの変化形が全て同一の語とみなすように作 られている。
具体的に検索を行って言語そのものに付いての情報を得る例を見てみよう。例えば、「ヘリコプ ターを表すロシア語としてある露霜辞典にはBePTO誼eTとre潴KO訂Tepという2つの語が登録さ れている。それぞれを舞ndexで検索してみると、BepTo聡Tの方がページ数で331377件、 pe甜Koほ一
↑epが3222件のヒットがあったと表示される。もちろん、ヒットした例はロシア語名詞の12変化 形全てが含まれている。
この数字の違いから、100倍以上の差でBePTG護eTの方が使用頻度が高いことがわかり、通常は re朋KO賑TepよりもBePTO護eTを用いるべきであることが予想が付くのである。ただし、これらは比 較的古くからなじみのある語であり、ある程度のロ、シア語力のある者であれば、直感的にBePTO一 託Tを選ぶべきであることを察知できるのも事実である。しかし、この様になじみのある語ではな く、辞書に掲載すらされていない新語の類であれぼどうであろう。複数のうちどれが最も有力な ものであるかを客観的に調べるのは検索エンジンを用いなければかなりの手間を必要とすること は言うまでもない。例えば、インターネット閲覧ソフト「ブラウザ」をロシア語でしぼしば6pay3ep あるいは6poy3epと言うが、これらをそれぞれ検索してみると、6pay3epが51285!件、6poy3epが 226398件で、6pay3epがほぼ二倍の頻度で多く用いられていることがわかる。ただし気をつけなけ れぼいけないことは、先ほどのヘリコプターの場合と違い、両者にはそれほど大きな数字的差は 認められない。少なくとも現時点で6pay3epがより多く用いられているのは事実であろうが、まだ 規範が成立しているとは言い難いこのような新語にあって、この数字は今後どうなるか、どちら
に結果として収束していくかは全くわからないということを念頭に置いて注意すべきであろう。
ひょっとすると1年後にはこの頻度が激変していることも十分考えられる。また、検索エンジン はコーパスとしてみた場合、新しいものを常時収集しつつ古いものを捨て去っていくモニター コーパスとしての性質を持っているが、それ故、言語の変化に伴ってコーパスの中身も随時変化 していると考えられる。それ故、しばらく時間が経過してから再度検索することにも大きな意味 があると考えられるのである。
また、「プラズマ」がロシア語でH謎a3Maであり、その形容詞がHみa3Me聞麟であることは辞書で 容易に調べがっく。しかし、近年話題になっている「プラズマ・テレビ」はどうかということは 既存の辞書で調べのつくことではない。が、ある程度のロシア語聾がある者であれば、「プラズマ」
の形容詞賑顕a3醗HHbl益と「テレビ」Te護eB月30pを組み合わせて翻a3Me冠Rbl勘e諏e闘30pと言うのでは ないかという予想は可能であろう。しかし、それだけでは本当にロシア語でそういうかどうかの 確認はできない。そこで検:索エンジンで朋a謝eH腿勘e』e闘30pを検索すると、膨大な数のヒット が見られ、その内容も所謂「プラズマ・テレビ」を指し示していることがわかる。この類の新し い外来語を調べ出すとき、検索エンジンは非常に強力である。「プライベート・ビーチ」という書 葉があるが、ロシア語で「プライベート」は騒aCTH謡あるいは韻qHbl首であるが、これと「ビーチ」
を意味するα朋>Kを組み合わせて可aCT疑謡(涯困Kb面戸∬>Kと謡うのではないかと予想して、それ ぞれを検索してみると、どちらも多数のヒットがあり、かついずれも「このホテルにはqaCTR謡
(醸噸b醐顯肱があります」というようなコンテキストで用いられていることから日本語の「プラ イベート・ビーチ」と同じ意味で用いていることがわかる。
. r , 7 . 一 画 1 匹
》イル燈 縣勢 藝活塾ジ お麹;納塾》Ψ一∫瞳〉へ蒔プ鯵
5 ■ 囁
響
撚礁。籔勲鷲鞍・鮭盤慰鯉鰻:髪i鰍讐難鰻窪製箋灘雛……狸蟹鰹E灘F。_一________ __鍵鷺懲.
鞍
。墜σ塑 Ho蹴。脇
翻e翼
H蹴訂。珊。壱,
懸醗欝欝論難講灘難点難鞭
Pε3y価丁田縦〇三田蝋a;一,騨Bεpo這・Ke耀櫛e 2S6
Cr2T騒6τ匪欝C∬0鷺:還磁3超翻あ撹:2322σ7/72謝6鍵3(1菱1208785玉 3 0c鳴3霞麗¢c =声磁3鰯羅謬轟:6830,腱駕灘oρ:5夢366
王,_門川e綴30魏(}RUN王)王G. T盟e闘30舷L◎ew¢鵜漁蹴eK誉蓄b腰鷲魏溶塑3G b翼 oa烈a
一」恥漁3脇蘭繊1渕1・B鼠
T亙3魏達3}藍30Pも1 DVD HJ砥達M瓦㎜】眠丁㎜13H30PLI FDξE ARTS双OMA膿㎜聡K三儀OT狂ATPbI _篇pe照蹴鮒幽PG舳accOP磁擁籔100・r駅G醐X Te」藁認鵬。即B G熈(㎏KL◎ewe,㎜a蹴e澱綴 7e∬e甜30ρo瓶澱。酬㎜㎜OTC鐙POR, R}颯e曜a㎜⑲⑪賊08 K DVD_
_Kapτa ca益τa。.丁戴JI£欝蔓鶏OP王》王(}玖UNDK}丁丑J王E8}王30PゐI LOEW耳B鷲琿O DVI)霊鑑3窺EHH磁
丁£πE8総OPbl F玉NE ARTSπ0㎜鳳磁KI田OTEAT%!・HO呂OCT阻1理即0)㎜撹 薮cTOP凹型_
瞬}:〜趣戯蓼・融榔。蹴癬一轍d。聡一B5レ。。熟R繰醗{⑳P脇1
ジ頭ρ㈱一i−i一珊驚}{eε3題OK
2.職胡D80.ru 豆 H¢r撚raヨ1{H T㎝c一刀co一瓢一FI−H王GH一㎜... i 11㈱3a鶏 即y㎜Ke降激㎜a照㎜盛he」e駆珊・P
l輝:撫w響.c繊鵬ぎd賦謡ゆro磁Ic錦,御?C1震5纐D篇8&三やe圭D峨V雌dor叢)訴34&呂。鶴野V縦1dor..・輌1蜘粥・
125レな6蘭即照瞳P課・I
P画燃謎A 畳0献呈eo一叢0τOTex烈風i−1一吟…棚駅e 1鋤OK
3, ..,n翻卜{細…{一 b1. C箱丁も経.㎞3瀦e蓋{Kb三燈Teらコle8類30鯉DS臼4241,..
1鷺・聯脇H識臨韮¢㎝。B2
数ゆ:/細糊,μ襯獺脚麟.nゾ禰Lh憶玉黙一14一鰍dQ臨一1z5レ。。易賑a照霧1⑳麺a3玉議
砂行P照鍵0πex懸盤韻 e3e葺{r瓢Σ◎欄。¢o彰。了OB灘蓬配1−lI馨CCBa驚
忍縦鷹7三護◎武.
4, P重o1}鰍 Pi)P−433PE:工1詞【翁3撫肇eKKb翼e TeJ翼e難縦30 b夏=}〈aTaπor: 蟹a鯉2(}OO. I I一 ㎝OBa
£餌。c鶏肥鰍。c乃昭。6P甑㎝聞・鯉晦謝。猫e繊oe即c丁o}田。蒲。珊Boro照鍵酩e}田oroγ購eε鵬。緯 王1CK㎜r}π㎝』㎜噸森OCTO}田CBO観研嘱望e冊5rO T賦語聾葦30P窓pi。ne〔疑PDP崎33P覧冠聞照醗Bhlc。蟹曲Hec
噸鐡パ
鶏膿簿驚購le$錨§鯵一3撒{脚灘冠 珊魯OT⑪・翻3.田 勘霞3襯鰯防償丁瓠鰍沼5 p諭ユ鰹PI)P・503薮D鷺
$12鱒ひ諏脚1)鵬親雪 琶嬢OTの一鞭◎鷺貰To罫 KZ・42TS夏蔦
$7鱒奪一勲賦r即}獄繊 蜘■ひ抽・$h囎 恥a3躍磁!㊧
π罎x飯鰹了飯{懸口。あ正
離舜三樋・蝕騨。田澱 三1蜘TO畷輝駕鱒!燃
難山3紐eΣ灘鰯1…翁Ha礁、
pion巳eぎPDF鱒3甑E き国乱鞠ヂ 舳醐麟!礁翻駆蜘憩・
霧v竸窪rk醜樵 8ce ,ε o嵐e懸盤107}
凌
面諭難論無蓋
がが ゆぶ 1憩=ど嵐戴憾繍
鐘
図3.翻a3緊e闇繍マe月e闘3◎pの検索結果
伽dexは語形変化を無視するのみならず、前置詞や接続詞、代名詞類などの「機能語」も無視 する3。これは例えば、動詞や形容詞がどの様な名詞句・前置詞句を支配するのか調べるのに便利 である。例えば、「不人気な」という形容詞に貝eHony」1聯b償という語があるが、手持ちの和露辞 典で見ると、「〜に不人気な」と言うときロシア語では「〜に」の部分にcpe朋という前置詞を用 いるという記述があるのみである。そこでヂアメリカ人に人気のある」という言い回しを想定し てHeHoHy朋p8謡とaMephKaHeu「アメリカ人」の2語をキーワードとして検索してみると確かに cpe琿を用いて廼e琵oHy醸p珪b償cpe五爵aMep甑agueBという言い方も多々見られるが、それと同時に yという前置詞を用いたHe猛OHy朋PH謡y脳e闘Ka照eBという言い方も多々見られる。この場合は 前置詞の選択の問題であるが、名詞句に何格を要求するのか、あるいは格変化を要求するのか前置 詞句を要求するのかを調べる場合にも有効であるのは言うまでもない。動詞・形容詞の格支配と前
3但し、全てを一律に無視するわけではない。例えば、B、 Ha、 oなどの所謂「本来的な」前置講はほぼ全て無視す るが、noc託、聡pe3などの「非本来的」前置詞は無視しないし、本来的なものの内でも一問性に欠く例が見られ る。oは06や060に交代することがあるが、06は前置詞として無視したが、060は無視せずにヒットした。また、
所有代名詞のM磁「私の」は機能語として無視するがHa田「我々の」は何故か無視しない。
匹 田 剛
置詞句支配がしぼしば微妙な問題であることを考えると非常に有用な調べ方であると考えられよう。
これらほど明確にわかる例ではないが、検索エンジンが大量の例を一度に示してくれることを 考えると、語の意味の微妙な差違を読みとるのにも有効である。例えば、「太っている」という形 容詞にTO護CTbl益とHO調Hbl熱があるが、これらに例えば若い女性を意味する配By廻Kaを加えて検索
してみる。すると、HO翻a瑚eBy田Kaの方は大量の所謂「出会い系サイト」がヒットして、「n鷹aH 双e8y廻Kaとの出会いを求む」などの表現が多数見つかったのに対してTO護CTaH双eBy盟Kaではその 様なものはほとんど見られなかった。また中には「私はno誼H細な女性が好きだがTO誼CT朋な女性
は好みではない」などの表現すら見られる。これらのことからTO誕CT繍は比較的否定的な意味で 用いられることが多く、rlo朋麟は日本語の「ぼっちゃりした、ふくよかな」などと同様に腕曲な 表現で、場合によっては肯定的な意味でも用いられることが見て取れよう4。
2.2.2.Google
以上のようにロシアの検索エンジンである働dexはロシア語を扱うための様々な工夫がなさ れているが、アメリカのものであるGoOgleには当然のことながら、その様な工夫や機能はない。
8 . 曜 ,
♪アイ縄,賜短赫緻嗣⑳響ツーノゆへ・レフ曹 鍵
M騰逡晦鰍・麟・・撫・融翻鋼酬勒 . 麟藍難
沸
嘔 事 膨
ツ蜘_讐
嬢◎◎琴1¢ 欝 い\側ワへ .甲剛_,,艦_騨四㌔_^♂、叩執ぽ_叩掃
q唾壷壽き総讐驚一.贈照〜一一難謡1 誌傘虻二二蒸一一一・…妻i認蜘 嬬懸無二鷺1:ll轡 …瀦膿∴ 灘 …霧i一一 一一・一一一 1廼・騨際 繍 黍 鐸撫」_一孫;鰍鮒・一 __ 烹欝欝蜘礁_繋鱗。___ §
讐1:::; 鑛甑∴∴1照}…一三;譲彊ll二∬一 一隙 謹
図尋.Googleの検索画面
つまり、上述の伽dexの機能、即ち、語の形態変化を無視して全ての変化形を同じものとする 機能や、前置詞などの一連の機能語を無視する機能などはGoog圭eにはないのである。これらはロ シア語の検索にとくに重点を置く恥dexならではのもので、一定の辞書や文法規則を検索エンジ ンに搭載しているからこそ可能なことである5。しかし、このGoogleの「不備」は使用目的によっ ては便利な点にもなり得る。例えば、前置詞句や代名詞を検索することは到ndexには不可能だが、
Googleならそれも可能である。検索キーワードを醐Me朋「私のために」として検索した場合、
%dexは前置詞の灘鍔も代名詞のMeHHも無視してしまい、結果としてヒット件数はゼロとなる
4当然のことながら、雷語学的にこれらの語の意味的違いを断定するには、ここでの作業はあくまでも最初の一歩 にすぎない。
5ただし、辞書や文法規則の詳細は全く不明である。ここでの説明は繰り返し利用することから導き出された解釈 にすぎない。
が、GQogleなら燗Me朋という前置詞句を含む全ての例が表示される。また、 B延OCKBeヂモス クワで」をキーワードとすると、只ndexは前置詞Bを無視して漁CKBeの全ての変化形をヒットす るので、結果として赫OCKBa「モスクワ」を含む膨大な例を全て表示してしまい実用的な結果を与 えてくれるとは言い難いが、Googleであれば前置詞句B巫OCKBeのみを列挙してくれる。
ロシア語学習の初歩の段階でやっかいな問題として学習者を悩ますものに、場所を表す前置詞 のBと照の使い分けがある。基本的にはBが英語の11ユ同様あるものの内部に位置することを意 味し、Raがonと同じようにあるものの表面に接触していることを意心するが、英語におけるin とon(そしてat)の使い分け同様、それが支配する名詞によってしばしば恣意的とも言える使い 分けが要求される。この使い分けの問題は学習のかなり初期の段階で学ぶ事項であり、初級の教 科書などでも主要な名詞がどちらの前置詞を選択するか列挙して示されていることもしばしばあ る。しかし、BとHaの選択の学習を困難たらしめているのは、全ての名詞に関してBと照の使い 分けを包括的に示すことはできない、と言うことである。また、少なくとも現在のところ日本で 出版されている辞書にもBとHaの選択に関する情報は体系的には示されておらず、たまたまこれ らの前置詞を用いた例文があれば幸運である、と言う程度であり、学習者はたまたま行き当たっ た例に基づいて一つ一つ憶えていくしか方法がない。検索エンジンは現在考えられる最も手軽な これら前置詞の選択に関して調べる有効な手段であろう。
例えば、ca首丁「サイト」という語はどうであろうか。この語は現在日本で出版されているいずれ の露和辞典にも登録されていない比較的新しい語である。従って、参考書や教科書においてもこ の語を用いた例文に行き当たる可能性が極めて少ないと考えられる。Googleを用いてBca益Teは 約4520件、Ha ca鳶Teは約2260000件のヒットがあった6。これだけ大きな差があることからca齢
はBではなく獺を場所を示す前置詞として選択するべきである、と言うことが結論づけられる。
また、場合によってはGoogleによる検索によって言語の変化や揺れの実態を概観することが できる。通常国名はB蜘0猛翻「日本で」、8Pocc闇「ロシアで」のようにBを選択するが、 yKpa隙a
「ウクライナ」は規範的にHaを選択するとされてきた。しかし、 B yKp翻eと田yKpa照eをそれ ぞれ検索してみると、ByKpa朋eが約432000件、 Ha yKpa朋eが297000件となっており、むしろ Bを選択する例が多く見られることがわかる。
ここでそれぞれの検索でヒットしたサイトのアドレスに含まれる国別ドメインコードを一つ一 つ見てみるとある傾向があることが明らかになる。ByKpa畷{eでヒットしたサイトー覧中最初の 100件のアドレスに国別ドメインコードがロシアを示すruになっているものは全部で11件、ウ
クライナを示すuaを含むものは59件であるのに対し、駐a yKpa照eではruが53件、 uaが29件 である。この、Bがウクライナにより多く、照がロシアにより多く見られるという、明らかな偏り は、おそらくは、かつて規範であったHaの使用がウクライナを中心に変化し始め、国名としては 特殊な田からより一般的なBへと移行しつつあると書うことを示していると解釈できるのでは なかろうか。また、この変化はウクライナのみならずロシアにも広まっているものであると考え
られる7。
6Googleはヒット件数を概数のみで示すので正確な数字はわからない。
7もちろん、これだけのことを検索エンジンで調べただけで断定できないのは事実である。そもそもアドレスを菟 ただけでそのサイトに含まれるテキストをどこに暮らす何人が書いたものであるか断蓄はできないし、ロシア語 のネイティブ・スピーカーでない可能性すら否定できない。
匹 田 羅彗 2.2.3.画像の検索
只ndexもGoogleもネットに存在する画像を検索することができる。少なくとも%dexでは IMGタグのALT属性で指定されている代替え文字列に一致した結果を返しているものらしい
ので望む画像を!00%正しく返してくるとは限らないがそれなりに実用性がある。以下は只ndex でHyT闘「プーチン」を検索した結果の画面である。
酢 舜
コァ日£}熱蘂蝉 羅灘善 纐こ鱒蝉 淋畷 鰯ブ響
〜雛 翻晦〃隅耀蜘・・u!ソ翻鮒・為鰍亀・織目3逐F2矯斑〔峨醐脚謁細禰 ・ 輻陣
鍵
視c騨
論争磁曝晦∵}_
響η 執 い Ψ 岬 ㎎ へ脚@ r〆
@ ・阿㌧=μ
̲、 / 犀、濯
@び@ 哩
@ 瀕
轟・鎚 贈
@ 一 へ
蜻ハ難繊撫難離灘灘一 ㌦ド
臨 灘 [鯉蜘 羅鐸m π即撫撫_山肌痔L鋲f,惑5ア拶環獄。、撒 4一角癒吐露瀞アx捻3磁難.踊K p曲1S.5?G,150・臆O瓢烈。,〜5K周匝蠣声明由製 1…tt繋糎響禦聡戴彊Σ繍㈱瓢盤蜘鯉 鳩30/43集鞭ゆ◎¢畠Aし塞醐.韮舳1独巳cc温露52 一
瓶10ce }駐 臼5
ウ謬e仁。)B 】a$7 漣鎧〜撫.。正臨黙嘘血呈 藷蛯R露撫蝦鷹顯1巳盤騨墨,撤註
¥戴 礁》鴨戦旗駁燃匿響Q燃$灘
壽
゚ 燐 ∵ 繋 灘
図5.キーワードnyτ剛による画像の検索結果
これを利用することによって例えば、学習者が恥T照がどの様な顔をした人物なのか知らな かった場合、画像検索によってnyT照の画像を見ることができるし、また、マトリョーシカの実 物を見たことがなくても繊Tpe田Kaで検索すれば実物の写真を多数見ることができる。これは語 学学習の中で言語島現実について学ぶための貴重なツールであろう。また、手持ちの辞書で「分 度器」を調べてみるとyMoMepとTpaEC飛OPTHPの両者が示されている。三和辞典を見ても両者とも
「分度器」との記述がある。我々が通常ヂ分度器」と言われると想像するプラスチック製の半円形 の文房具はどちらなのであろうか? そこでこれらをキーワードとして画像検索を行ってみる と、Tpa醐OP聯では我々になじみの分度器が多数示されるが、 yr識OMepでは一般にはなじみの少 ない「測角器」が多数表示された。このことから我々になじみのある半円形の文房具は少なくと
も多くの場合TpaHC員OPT即と表現されるであろうことがわかる。
以上、検索エンジンはロシア語の学習、教育、研究にコーパスとして活用ができることを実例 とともに示した。ここで断っておくが、検索エンジンが利用方法によってはコーパスとして利用 できるというアイディアを発案したのは匹田が最初ではない。例えば、宮平他(2000)には検索 エンジンがちょっとしたコーパス代わりに利用できることが触れられている。
2.コーパス構築計画
前節では既存のロボット型検索エンジンが使い方によっては言語に関する知識・情報を得るた めに有益なコーパスとなり得ることを示した。しかし、それらはインターネット上における言語 そのものについて情報収集するために作られたものではないため、言語の学習や研究などを目的
として利用する者にとっては当然多くの不満が残る。
例えば、例文の示し方がコーパスとしては不満な点が多い。%dexもGoogleも検索キーワード を含むサイトを示す際にキーワードの前後の文脈を示してくれ、ある語の用いられる用例を知る 上で非常に貴重である。しかし、只ndexは最大で一画面に30件までしか表示できず、それ以上の 例を見ようとすると次の画面に進む必要があり、もっぱら多数の用例を見ることを目的としてい る者にとって使いづらい面が否定できない。Googleは一画面に三〇〇件まで表示することが可能だ が、その代わり、表示されるコンテキストの範囲が狭く、文の前後が省略され全て示されないこ
とが非常に多く不満が残る。
また、検索方法に様々なバリエーションが欲しいところである。例えば、語の一部、即ち形態 素による検索や、語と語の位置関係を指定して検索できるなど、考えられるものは多々ある。さ らに、頻度など統計データの提示も重要な機能であろう。但し、これを行うためには既存の検索 エンジンのデータベースには問題がある。ロボット型検索エンジンを利用したことがある人には 経験があると思われるが、検索エンジンは一回の検索で同じサイトの同じ文書を何度も返してく
ることがしばしばある。これはおそらく、検索エンジンのデータベース部に同じサイトがロボッ トによって複数囲登録されてしまったために起こることと思われる。正しい統計データを出すた めには、詠じサイトの同じ内容は必ず一度しかデータベースに登録されず、複数回登録されるこ
とは避けなければならない。
以上のように、既存のロボット型検索エンジンはコーパスとしてある程度の利用が可能である ものの本格的な利用には不十分な点が多い。そして、現時点で存在するロシア語のコーパスは、
その内容には定評があるものの、残念ながら規模が小さすぎる。そのような状況を打開するため に、東京外国語大学の中澤英彦教授を中心に全国のロシア語学者とロシア文学者が大規模なロシ ア語コーパスの構築の計画を立ち上げている。以下、本節ではその計画の概要を紹介する。
2.1.基本構成
本計画はインターネットを通じて誰もが自由にオンライン検索できるコーパスの構築を目的と する。システムの基本構成は以下の通り:
ま
テ
①ロボット
インタ⁝ネット
テキスト登霞.
検索と結果の敵得
②手動入力によ るコーパス
③タグ付きコー パス
結果嵐力
④ロボットが収 集したコーパス
図6.基本構成
⑤検索部
キーワード入力
剥
匹 田 剛
コーパスは中央の②、③、④の3種類に分類される。②は現代ロシア語の実態を極力反映でき るように精選されたテキストをOCRまたはキーボードから入力したサンプル・コーパスである。
③はサンプル・コーパスであることは同様であるが、ロシア語の既存のサンプル・コーパスとし て定評のあるウプサラ・コーパスに文法タグを付したタグ付きコーパスである。④はネットに放っ た①のロボットが自動的に収集し、インターネット上で使われているロシア語をリアルタイムに 反映するモニター・コーパスである。そしてこれら3種類のコーパスに同時、あるいは個別に⑤ の検索部を通じてユーザはオンラインで検索を行う。ちなみに、これらの内①、④、⑤の部分の みを取り出すと、前節で触れたロボット型検索エンジンと基本的に同じ構成となる。
2.2.手動入力によるコーパスとロボットが収集するコーパス
3種類のコーパスの内③は他と異なる特徴を持つのでまず②と④であるが、上でも触れたよう に②は現代ロシア語の状況をよりょく反映するよう精選したテキストからなる、基本的に量が不 変のサンプル・コーパスであり、④はロボットが常に収集を続けることにより変化するロシア語 を監視し続け、必然的に量も変化し続けるモニター・コーパスである。本計画で両者を組み合わ せることにしたのは、それぞれが一長一短であり、それ故組み合わせることによって互いの長所
を生かしつつ欠点を補い合い、より有効なコーパスになると考えられるからである。以下、いく つかの点に関して両者を比較する。
(a)ロボットが収集する④のモニター・コーパスは入力に必要な人的な手間が全く不要なので、
ハード的・ソフト的な限界までコーパスの規模を大きくできるのに対して、②の手動入力による サンプル・コーパスは時間的・人的制約から規模がどうしても限られてしまう。更新についても、
④は自動的に無限に更新・追加可能だが、②は極めて困難である。なお、本計画における②のサ ンプル・コーパスの規模は、ロシア語としては現在最大規模の100万語からなるサンプル・コー パスであるウプサラ・コーパスの10倍、即ち1000万語を目指す。
(b②は人間が慎重に吟味し、精選したテキストのみを登録するので、信頼のおける「正しい」
ロシア語のみを登録することができ、これはそのまま資料としての信頼性の高さに繋がる。それ に対して④はロボットが自動登録するのでテキストを吟味・精選することは不可能であるのに加 え、そもそもインターネット上の言語はロシア語に限らず、かなりいい加減なものが多い。出版 物などでは通常行われる慎重な校正作業なども行っていないと思われるようなものが多々含まれ
るからである。このことは④が資料として信頼性の点で劣っていることに繋がる。さらに、④は 母語話者の書いたものかどうか疑わしいものが含まれる可能性すら排除できない。ただし、英語
に比べれば非母語話者によるテキストが含まれる可能性は圧倒的に少ないと考えられることに加 え、アドレスの国別ドメイン・コードがロシア、即ちruになっているサイトからのもののみを登,
録するようにロボットを作ればかなりの非母語話者によるものは排除できると思われる。が、完 全に排除することは絶対に不可能である。
(c②は作者やジャンルなどを選択してテキストを登録することが可能で、⑤の検索部の工夫に よっては作家別・ジャンル別などの検索を行うことも可能になる。これは文体論、あるいは文学 研究にとっても有効なツールとなるだろう。ここにどのようなテキストを選ぶかが言語学的・文 学的に最も大きな問題となり、慎重な吟味が求められる。その一方、④はロボットが自動的・機 械的にテキストを収集するので作者やジャンルを区別して登録することは全く不可能である。
(d②は出版年によって別個に検索が可能なようにすれば通時的な研究にもある程度利用が可能 かも知れない。但し、必然的に年毎の資料は少ないものになってしまい、どこまで実効的な意味
があるかはわからない。それに対して④は、もし長期的にロボットを走らせ続けることができる なら非常に興味深い資料となる可能性がある。④はその量がハード的・ソフト的に限界に達した 時点で古いものから順に削除して新しいものを随時加えていくことになるが、そのサイクルにあ わせてコーパスのバックアップを保存する。この作業をある程度の年数継続していくと今までに 見られなかった短いタイムスパン毎の巨大な言語資料が蓄積されていくことになる。仮にバック アップ保存のサイクルが1年に1回だったとすると、1年単位の言語資料が毎年作られていくわ けである。しかも、インターネットは通常の出版物に較べて口語的なものが多く含まれると考え られるので、新語の初出などはより早い時点で特定が可能になるかも知れない。かつてOEDが英 語に関して膨大な労力と時間を費やして行った作業が簡単にできるようになるのもあながち夢で
はなかろう。もちろん、そのためには超長期にわたってこのプロジェクトを継続し、ロボットを 稼働させ続ける必要があるのは言うまでもない。
以上のように、両者は一長一短である。それ故に両者を組み合わせることによって互いの長所 を生かしつつ、欠点を補い合うことが可能になり、少なくともロシア語としては今までにない強 力なコーパスになると思われる。
2.3.タグ付きコーパス
②と④のコーパスには文法タグというコーパスにとっては極めて重要な要素が含まれていな い。文法タグとはテキスト中に含まれる全ての語に付され、それぞれの語が持つ文法特微に関す る情報と辞書形特定のための情報が含まれるタグである。
文法タグを付すことによってコーパスの機能と有効性は格段に増す。例えば、肱Tが行く」は不 定形であるが、その一人称単数現在形は瓢yで、男性過去形は撮e謎である。これらを同一の語と みなすためにはタグが必要不可欠である。前節で触れた検索エンジン只ndexは、詳しい実態は不 明であるが、これらを同じ語とみなすことができるので、少なくともそのテキストになんらかの タグが付されていると推測される。また、文法タグの存在により文法特徴による検索が可能にな る。例えば、動詞脳TaTb「読む」が対格名詞を伴って現れているもの、動詞が与格名詞を伴って 現れているもの、などの検索が可能になり、文法論の研究にとって非常に有益なツールとなるこ
とは言うまでもない。
文法タグはこれ自体が非常に重大な研究対象で、本計画ではその基礎研究を行い、あくまでも 今後の発展の足がかりを作ることに限定して研究を進める。そのため、3種類のコーパス全てに タグを付けることは目標とせず、既存のロシア語サンプル・コーパスの中でも定評のあるウプサ ラ・コーパスにタグを付け、それを③のタグ付きコーパスとすることにした。
考えなければいけないことは多い。まず第一に、「どの様なタグが必要か」を慎重に議論しなけ ればならないだろう。ロシア語は英語と較べて一つの語に形態的に表示される文法情報が遙かに 多い。例えば名詞に形態的に表示される文法情報に限っても性・数・格の3つのカテゴリーがあ
り、さらには活動体・不活動体の対立や可算・不可算の対立などもある。これらのうち、どれだ けが必要で、それらをどの様にタグに盛り込むか、様々な観点から考えなければならない。
また、コーパスの規模から考えて、タグを手作業で付加するのは事実上不可能と言ってよかろ う。自動的にタグ付けを行うソフトウェアの開発が必要不可欠である。それにはまず大規模な辞 書がなくてはならない。ある程度のことは形態法の規則を組み込むことによって可能かも知れな いが、例えば、肱盟「行く」の男性過去形が出戸になるのは所謂補充法であり、辞書がなければ 全く予想が付かない。そこまで不規則なものでなくても、最低でもある語がどの屈折タイプに属
匹 閉 岡U
するか等の晴報は辞書を参照しなけれぼならないであろう。
英語には既にこのようなタグ付けを行うためのソフトウェアが何種類か存在するが、それらは いずれも辞書モジュールを含んでいるものである。ロシア語は英語より遙かに多くの文法情報が 一つの語に含まれることを考えるとロシア語のタグ付けに必要な辞書は英語のものより遙かに規 模の大きなものとなり、作業がより困難なものになるであろうことが予想される。また、現代の ロシア語が様々な点で大きく変化しつつあることも作業をより困難にする要因となろう。例えば 現在次から次へと出現している新語は辞書の作成を極めて困難なものにすると考えられる。
2.4.検索部
3つのコーパスに対してユーザがインターネットを通じてオンラインで検索するためのモ ジュールである。この部分を構築するためには理工的な技術が要求されるのはもちろんであるが、
実際にどの様な検索方法を組み込む必要があるかを考えるのには人文的なノウハウが必要とな る。具体的には、例えば、②、③、④をそれぞれ別個に検索するか、あるいは同時に検索するか を選択できるようにすることが必要であろうし、ある程度の統計データがとれるようにする必要 もあろう。さらには、検索結果の表示方法についても様々な検討を加えなければならない。また、
複数の語を検索キーワードとする場合のANDとORの区別や、それらが連続しているかそれと も間に何らかの語が入っているかの区別等が必要なこと等を考えると、正規表現(あるいはそれ に類するもの)による検索も可能にしなければならないだろう。そして、これは極めて重要なこ とであるが、③のタグ付きコーパス以外は少なくとも当面、文法タグが当面付されていない。こ の点を補う何らかの手段が必要であり、そのためにも正規表現による検索を可能にする必要があ ると思われる。例えば、CTy聡HT「学生」は、 CT腿eHTa、 CT腿e蟹y_などと変化するが、これらは 文法タグがあるコーパス③であれば同一のものとして検索することができるが、②と④ではそれ
は不可能である。この様な場合、正規表現を用いて「語幹部分Cτ麗e猛T一プラスゼロ個以上の任意 の文字列」というように検索すればある程度タグの不備を補うことも可能である。
3.おわりに
以上本稿では、インターネットを、膨大な電子テキストの集合体であり、巨大なコーパスとし ての性質を持っているものと考え、実用的に利用する手段について考えた。第1節では既存の検 索エンジンを利用することで、言語の研究や学習にとってある程度有効な成果を得られることを 実例とともに示した。第2節ではコーパスとしての利用をそもそも想定せずに作られている既存 の検索エンジンでは言語の研究者・学;習者に必要な機能を全てサポートしているとは言えず、そ の問題を解消するために立ち上げられたロシア語大規模コーパス構築計画の概要を紹介した。こ の計画はまだ始まったばかりで具体的成果を出すまでにはまだ時間が必要である上に、タグ付け の問題など大きな問題も多数存在する。しかし、実用的に稼働すれぼ国内外のロシア語学、ロシ ア語学習にとって大きな意義を持つものとなるであろう。
参考文献
宮平知博、渡辺日出雄、田添英一、神山叔朗、武田浩一(2000)「インターネット機械翻訳の世界」、毎日コミュ ニケーションズ。