システム技術開発調査研究 18‐R‐13
アジアにおける検索エンジンの ニーズに関する調査研究
報告書 - 要旨 -
平成19年3月
財団法人 機械システム振興協会
委託先 財団法人 国際情報化協力センター
この事業は、競輪の補助金を受けて実施したものです。
http://keirin.jp
序
わが国経済の安定成長への推進にあたり、機械情報産業をめぐる経済的、社会的諸条件 は急速な変化を見せており、社会生活における環境、防災、都市、住宅、福祉、教育など、
直面する問題の解決を図るためには、技術開発力の強化に加えて、ますます多様化、高度 化する社会的ニーズに適応する機械情報システムの研究開発が必要であります。
このような社会情勢に対応し、各方面の要請に応えるため、財団法人機械システム振興 協会では、日本自転車振興会から機械工業振興資金の交付を受けて、機械システムの調査 研究等に関する補助事業、新機械システム普及促進補助事業を実施しております。
特に、システム開発に関する事業を効果的に推進するためには、国内外における先端技 術、あるいはシステム統合化技術に関する調査研究を先行して実施する必要がありますの で、当協会に総合システム調査開発委員会(委員長 政策研究院 リサーチフェロー 藤正 巖 氏)を設置し、同委員会のご指導のもとにシステム技術開発に関する調査研究事業を実施 しております。
この「平成 18 年度 アジアにおける検索エンジンのニーズに関する調査研究報告書」
は、上記事業の一環として、当協会が財団法人国際情報化協力センターに委託して実施し た調査研究の成果であります。
今後、機械情報産業に関する諸施策が展開されていくうえで、本調査研究の成果が一つ の礎石として役立てば幸いであります。
平成19年3月
財団法人機械システム振興協会
はじめに
本調査研究は、財団法人 機械システム振興協会からの受託により、財団法人 国際情 報化協力センターが実施した「平成 18 年度 アジアにおける検索エンジンのニーズに関 する調査研究」の成果をまとめたものです。
今や情報を得る、あるいは発信する手段として、インターネットは欠かすことの出来な いインフラとなっています。2006年10月には、こうした情報が置かれている全世界のウ エブサイトの数がついに1億になったと報じられており、まさに「情報の海」ともいうべ き状態になっています。こうしたウエブサイトの中から必要な情報を自分で探し出すこと は不可能であり、Google やYahoo!などに代表される検索エンジンを持つ検索サイトの利 用が必須な手段となっています。
これらのウエブサイトで利用されている言語の多くは英語であり、世界中で 6900 種を 超えるといわれる言語の大半はわずかな情報があるか、全くないのが現状です。又、検索 エンジンはクロールと呼ばれる探査を通じて、ウエブサイトの情報を取得しますが、実態 としてクロールされていない言語も多く、それらは、存在しないのと同じことになってい ます。この様に、溢れかえる情報がある一方、検索されない言語もあり、それらを使って いる人々との間で、新たなデジタルデバイドが起こっていると言って過言ではありません。
日本では、2007年度から「新たな情報検索・解析技術と新たなビジネスモデル・情報シ ステムの展開」を目指して、情報大航海プロジェクトが発足しました。ここでは、こうし た動きを視野に入れつつ、日本と経済的、社会的な関係の深いアジア諸国の検索エンジン の利用の現状と今後のニーズ、及び、次世代検索エンジンの技術的な課題について、調査 を行いました。この報告書が各方面の情報化協力の推進のための資料となれば幸いです。
最後に、本調査研究の実施にあたり、ご指導、ご協力頂きました委員各位、関係者各位 に深く感謝の意を表します。
平成19年3月
財団法人 国際情報化協力センター
目次
1. 調査研究の目的... 1
2. 調査研究の実施体制... 3
3. 調査研究成果の要約... 7
3‐1. アジアにおける検索エンジンの開発動向... 7
3‐1.1 アジアの検索サイトと検索エンジン... 7
3‐1.2 インドにおける検索エンジンの現状及び開発動向...13
3‐1.3 タイにおける検索エンジンの現状及び開発動向...15
3‐1.4 ベトナムにおける検索エンジンの現状及び開発動向...17
3‐1.5 中国における検索エンジンの現状及び開発動向...19
3‐1.6 韓国における検索エンジンの現状及び開発動向...26
3‐2.アジア言語に対応した検索エンジンのニーズ調査...31
3‐2.1 アジアの検索エンジンのニーズ調査...31
3‐2.2 インド言語に対応した検索エンジンのニーズ調査...32
3‐2.3 タイ言語に対応した検索エンジンのニーズ調査...33
3‐2.4 ベトナム言語に対応した検索エンジンのニーズ調査...35
3‐3.検索エンジンの技術的課題の調査...38
3‐3.1 アジアの検索エンジンの技術的課題...38
3‐3.2 インドの検索エンジンの技術的課題...39
3‐3.3 タイの検索エンジンの技術的課題...40
3‐3.4 ベトナムの検索エンジンの技術的課題...42
4.調査研究の今後の課題及び展開...45
1. 調査研究の目的
本調査研究は、わが国で進められている情報大航海プロジェクトとの関連を視野にいれ つつ、アジア、特にインド、タイ、ベトナムにおける検索サイト・検索エンジンの利用の 現状と今後のニーズ、及び、検索エンジンの技術的な課題についての調査を行い、今後の 日本の協力のあり方を提示していくことを目的とするものである。又、これらの対比とし て、中国、韓国における検索エンジンの利用の現状も合せて調査を行った。
近年、ITビジネスにおいて検索エンジンに関する技術の進展は著しい。人々は、欲しい 情報を得る際に、インターネットを利用することが当然となっており、検索エンジンは欠 かすことが出来ないITインフラとなっている。また、ITビジネスにおいて、Google社の 成功をいうまでもなく、最も利益が得られるビジネスモデルを提供するツールともなって いる。こうしたことから、検索エンジン技術を握るものが、ITビジネスを制すると言って も過言ではない。
しかしながら、現在の検索エンジンは、文字情報に基づく検索が中心で、画像、映像に 関する検索技術は、未だ発展途上にある。画像、映像に関する検索技術においては、日本 の培ってきた画像処理技術などを通じて優位性を確保できるという意見もある。したがっ て、日本のIT企業は、欧米の IT産業に互角となって文字、画像、映像を検索できる次世 代の検索エンジン技術の開発に注力する必要がある。こうしたことを踏まえて経済産業省 では、2007年度より、『情報大航海プロジェクト』を開始しようとしている。
その際に無視できないのが、アジア地域での検索エンジンへのニーズ及び技術開発動向 の把握である。アジアは、多様な言語・文化が入り交じり、統一的な検索エンジンは存在 しない。アジアのウエブサイト(英文除く)に使われている情報は少ない。これは、多様 な言語を処理する適当な情報処理技術がまだ十分普及していないからであり、検索技術へ のニーズは大きい。
他方、インドなど、優れたIT技術者を抱えるアジア諸国では、多種多様の検索エンジン の技術開発に取り組んでいるものの、その統一的な開発手法はまだ生み出されていない。
複雑なアジア言語の代表例である日本語に基づく検索エンジンを基に、アジア人のための 検索エンジン開発プロジェクトへのニーズが高まっている。
(1)現状技術の課題
検索エンジンの対象は、従来、文字情報に限られていたが、今後は音声情報及び映像情 報の検索ニーズも大きくなる。この問題は、いかに文字、音声及び映像の情報を組み合わ せるかにかかっている。Google、Yahoo!、MSNなどの米国IT企業は、いずれもメディア
検索と映像検索を一体的に行おうとしている。しかし、その解法は、まだ初期段階にあり、
特にアジアでは、アジア言語、音声、映像、画像、そして何等かの感知機能が必要である。
これらは現時点では、欧米IT企業と日本IT企業との間の差はまだ決定的なものとなって いない。
(2)アジア言語への対応
アジア地域での急速なITの発展の中で、日本語を含めた多様なアジア言語に対応できる 検索エンジンの開発が重要である。例えば英文によるニュース配信など英語による情報発 信・入手のみでは情報が偏り勝ちになり、アジア自身の持つ情報がうまく伝わらない。実 際、米国企業はみなほぼグーグルによりインデックスされるが、タイなど東南アジア諸国 の企業は数%しかならないという調査もある。
アジア言語による検索エンジンの課題は、アジア言語で作られたサイトを効率よく検索 するエンジンの開発とアジア言語そのものをキーワードとして英語サイトを検索するた めの翻訳技術にあるといえる。インド、東南アジアのように、多種多様な文字、表記を有 するアジア諸国では、自国語で利用できる検索エンジンが必須であるとの認識はあるもの の、技術的、コスト的などの問題から、企業だけによる開発は困難な状態となっている。
例えば、インドには20以上の言語がある。ローカルIT企業は、それぞれの言語に対応す る検索エンジンの開発を積極的に取り組んでいるが、標準化の遅れのため、統一的な手法 がまだ確立されていない。こうしたことに対して、日本が従来から培って来た自然言語処 理技術や機械翻訳技術を用いた統一的な手法の利用が望まれる。
本調査研究では、こうした現状を踏まえて、アジアにおける検索エンジンの利用の現状 と今後のニーズ、及び、次世代検索エンジンの技術的な課題についての調査を行い、今後 の日本の協力のあり方を提示していくものである。
2. 調査研究の実施体制
(1)実施体制
本調査研究は、財団法人 機械システム振興協会の委託を受け、財団法人 国際情報化協 力センターが下記の体制で実施した。
又、財団法人 国際情報化協力センターの実施体制として、業界有識者ならびに学識者か らなる検索エンジンニーズ調査委員会を設置し、討議、指導を得て、具体的作業を進める ことにより、成果をまとめ、報告書を作成した。
実施体制図
財団法人 機械システム振興協会 総合システム調査開発委員会
委託
財団法人 国際情報化協力センター 検索エンジンニーズ調査委員会
財団法人 国際情報化協力センター シンガポール事務所
総合システム調査開発委員会委員名簿
(順不同・敬称略)
委員長 政策研究院 藤 正 巖 リサーチフェロー
委 員 埼玉大学 太 田 公 廣 地域共同研究センター
教授
委 員 独立行政法人産業技術総合研究所 金 丸 正 剛 エレクトロニクス研究部門
副研究部門長
委 員 独立行政法人産業技術総合研究所 志 村 洋 文 産学官連携部門
コーディネータ
委 員 東北大学 中 島 一 郎 未来科学技術共同研究センター
センター長
委 員 東京工業大学大学院 廣 田 薫 総合理工学研究科
教授
委 員 東京大学大学院 藤 岡 健 彦 工学系研究科
助教授
委 員 東京大学大学院 大 和 裕 幸 新領域創成科学研究科
教授
検索エンジンニーズ調査委員会委員名簿
委員長 東京大学 中川 裕志 情報基盤センター
教授
委員 早稲田大学 山名 早人 理工学術院
教授
委員 長岡技術科学大学 三上 喜貴 経営情報系
教授
委員 (株)富士通研究所 増本 大器 言語・メディア研究部
主任研究員
委員 (株)日立システムアンドサービス 川下 靖司 ドキュメントソリューション部
主任技師
オブザーバ 経済産業省 八尋 俊英 商務情報政策局
情報経済企画調査官
研究員 国際大学 上村 圭介 グローバル・コミュニケーション・センター
主任研究員
事務局 財団法人 国際情報化協力センター 兼谷 明男(専務理事) 永谷 光行
池田 陽子 梅村 香織 石村 真弓
(2)調査方法
主として、以下の方法により調査を実施した。
本調査研究の対象国であるインド、タイ、ベトナムに関しては、
-インターネットによる情報検索により、基礎資料の収集整理を行った。
-インドについては、当センターのシンガポール事務所と協力して外注先を選定し、再 委託による調査を行った。
-タイ、ベトナムについては、委員などによる現地調査を行った。
又、中国、韓国の対比調査に関しては、
-中国については、インターネットによる調査と共に、委員である(株)富士通研究所の 中国国内の研究所を通じて、現地調査を行った。
-韓国については、主にインターネットによる情報検索により調査を行った。
(3)委員会開催日時及び議題
第1回(平成18年11月10日(金) 10:00~12:00) (1) 委員長、委員の紹介
(2) 本調査研究の目的、内容について (3) 報告書について
第2回(平成19年1月26日(金) 10:00~12:20)
(1) 進捗状況及び今後のスケジュールについて (2) タイ・ベトナム現地調査報告
(3) インド調査報告 (4) 韓国調査報告
(5) 検索関連の著作権改正の動きについて (6) 今後のまとめの方向について
第3回(平成19年2月26日(月) 10:00~12:00) (1) 事前ヒアリングの結果報告
(2) 調査報告書について
3. 調査研究成果の要約
3‐1. アジアにおける検索エンジンの開発動向
・文字、音声及び映像の検索エンジン開発動向
・アジア言語のサイトでの情報検索開発動向
・検索エンジンのインタフェース改善ニーズなど
3‐1.1 アジアの検索サイトと検索エンジン
(1)アジアのインターネット事情
検索エンジンの進歩はインターネットの発展と共にあるといってよい。アジアにおいて は一人当たり所得の大きな日本、中国沿岸部、韓国などはインターネット人口も多い。こ れらの国では、単にインターネッ
トが使えるという状況から、ブロ ードバンドによるマルチメディア を使ったリッチコンテンツをスト レスなく送受信できる環境が出来 ており、生活に無くてはならない ものとなっている。一方、同じア ジアにあっても、ラオスやカンボ ジアなどの様に、農村部では殆ど コンピュータやインターネットを 利用したことがない人々の多い国 もある。例えば、図3‐1‐1は国
際情報化協力センター(CICC)が実施したカンボジアの地方都市にある高校でのインター ネット教室の風景であるが、ここで初めてインターネットに触れたという学生や社会人も 多い。 図3‐1‐2はアジア全体のインターネットユーザ数を100%とした場合の国・地 域毎の比率である。多い順に中国、日本、インド、韓国であるが、中国、インドではイン ターネット普及率はまだ低いものの、人口数が多いため、ユーザ比率としては大きくなる。
図1.1‐2 アジアのユーザ比率(%)
0.05.0 10.015.0 20.025.0 30.035.0 40.0
カン ボジア
ラオ ス ネパー
ル ブルネイ バン
グラデッシュ スリラン
カ モン
ゴル シンガ
ポール 香港 フィ
リピン タイ パキ
スタン マレーシ
ア ベトナ
ム 台湾 イン
ドネ シア
韓国インド 日本 中国
図 3‐1‐1 カンボジアの地方高校におけるイン
ターネット教室の模様 (CICC撮影)
図 3-1-2 アジアのユーザ比率(%)
表3‐1‐1、及び図3‐1‐3は図3‐1‐2の中から、本調査研究の対象国であるインド、
タイ、ベトナム、及び、その対比として、中国、韓国、日本のインターネット人口及び各 国のブロードバンド加入者状況を調査したものである。この表からは、インド、タイ、ベ トナムではインターネット人口はある程度の規模を持っているが、未だブロードバンドが 自由に使える環境にないことがわかる。但し、人口の大きなインドでは、今後ブロードバ ンド人口が急速に普及していくものと思われる。尚、各国ユーザ数率とはアジア地区全体 のインターネットユーザ人口を100%としたときの、対象国の占める同人口の割合である が、全アジアの中で、これら6ヶ国の合計だけで既に82%を越えていることを示している。
表3‐1‐1 インターネット人口及び各国のブロードバンド加入者状況
対象国
人口当たり の利用者率
(%)注1)
全アジアで のユーザ数 率(%)注1)
インターネ ット利用者 数(人)注1)
人口当たりのブ ロードバンド加 入者率(%)注2)
一人当たり GNP/GNI注2)
インド 3.60% 10.60% 40,000,000 0.06% 720ドル
タイ 12.70% 2.20% 8,420,000 0.02% 2750ドル
ベトナム 16.90% 3.60% 14,210,244 0.08% 620ドル
1740ドル 全体
中国 10.10% 34.10% 132,000,000 1.65%
5408ドル 注3)北京
韓国 67.00% 9.00% 33,900,000 24.76% 15830ドル
日本 67.20% 22.80% 86,300,000 14.58% 38980ドル
合計 - 82.30%
注1) (2006年12月30日Internet World Status)より
注2)「2006 World Deployment Indicator」(2006年 World Bank)より 注3)「ポスト中国はどこか」(2007年1月23日みずほ総合研究所)より
図3‐1‐3 インターネット人口
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
インド タイ ベトナム 中国 韓国 日本
人口当たりの利用者率(%) 全アジアでのユーザ数率(%)
(2)検索エンジンの歴史と技術
1969 年に米国で国防用コンピュータネットワークを目的としてARPANET が開発され たのがインターネットの始まりとされるが、その後、1986 年に学術用のネットワーク
NSFNetが作られ、世界の大学、研究機関が結ばれた。1995年にはNSFNetの民間利用が
可能となり、一般ユーザによる本格的なインターネットの利用が始まった。この様なイン ターネットの歴史において、1984 年頃にはインターネットのウエブサイト数がわずか 1000サイト程度であったものが、その8年後の1992年には早くも100万サイトに達した。
こうして、インターネット利用者は爆発的に増え、2006年10月には、全世界のウエブ サイト数はついに1億サイトを越え1、更に毎月200万サイトが増加中と報告されている。
(Netcraft 社の調査) 又、これらサイトにあるウエブページの合計は現在 500 億ページ程
度あると推定されている。この様に、大量の情報がインターネット上に溢れ、まさに「情 報の海」とも言える状態となっており、こうしたウエブサイトの中から必要な情報を自分 の力だけで探し出すことは不可能であり、Yahoo! やGoogleに代表される検索サイトを利 用することが今や必要不可欠なツールとなっている。
インターネットのウエブページの内容を対象にする検索機能をもったウエブサイト(検 索サイト)が登場するのは1990年代中頃のことである。1995年にはアメリカでYahoo!
が創立された。当時のYahoo!はウエブサイトやウエブページを手動で分類するディレクト リサイトであり、検索はディレクリの分類名、登録されたサイトの名称や概要など限定的 な項目に対してのみ行えるにすぎなかった。1995年12月にはDigitalの全文検索サービス
Altavistaがサービスを開始した。Altavistaにより、本格的な全文検索時代の幕開けとなっ
た。1999年9月にGoogleがサービスを開始し、次第にその勢力を増してきた。
(3)検索エンジンの技術
基礎的なインターネットの検索エンジンの技術に関しては、インターネット上から情報 を収集し整理する機能を直接担う基本技術と、検索結果の付加価値を高めるための応用技 術の二つがある。
①基本技術
基本技術としてのインターネット検索エンジンの技術は、主に三つの要素から構成され ている。一つ目は、ウエブサイトの情報収集を行うクロール技術、二つ目は、データを検 索するための索引情報であるインデックス化技術、三つ目は、利用者からの検索(クエリ)
要求をインデックスに問い合わせるクエリ処理技術である。これに加えて、利用者からの 検索要求の事前処理をするプリプロセッサや、検索結果に対して付加的な情報(例えば類 義語や広告)を追加するポストプロセッサ、あるいは利用者が通常使用するフロントエン
1 2006年11月1日付けの米国ニュースメディアCNNインターネット版は、2006年10月現在で、全世 界のウエブサイト数が1億になったと報じた。
ドのインタフェース(ポータルサイト)が必要となるが、ここでは、これらの基本的な三 つの技術の振る舞いについて述べる。
クロール技術は、インターネット上のウエブページを数珠つなぎ的に収集するための技 術である。この技術を実装するソフトウェアエージェントのことを一般的に「クローラ」
と呼ぶ。クローラは、ウエブ上のページの情報を読み取り、インデックスに追加する。ク ローラは、そのページに埋め込まれているリンクをもとに、更にその先のページの情報を 読み取る。この様にして、クローラは網の目をたぐるようにウエブの全体をインデックス の中に取り込んでいく。
インデックス化技術は、検索エンジンの技術の中でももっとも基本的な技術である。ク ローラがウエブ上を「駆け回り」、集めたページの内容をもとにインデックスが構成され、
利用者からの検索要求に備える。クローラが収集した情報のどれをインデックスに反映さ せるかは、検索エンジンの全体的な性能と関わる。
クエリ処理技術は、利用者からの検索要求をもとにインデックスの検索を行う一種のデ ータベースである。クロールとインデックスという検索エンジンのバックエンドと、利用 者のインタフェースを結合する役割をもっている。これら三つの要素の中で、インデック ス化技術は、検索エンジンの基礎技術の中でももっとも中核を占める技術である。
②応用技術
検索エンジンは、インターネット中に500億あると言われるウエブページをクロールし、
インデックス化しなければならない。仮に、100億のウエブページをインデックス化する としても、1秒間に115,740件のウエブページを処理しなければならない。そのために、
どれほど高性能であったとしても、1台のサーバでクロールとインデックスの処理を行う ことはできない。そこで、実用上耐えうる検索エンジンを開発するためには、検索エンジ ンのための基本技術に加えて、同時に複数の処理を行うためのマルチスレッド処理技術や、
複数のサーバを協調して動作させるクラスタリング、並列処理などの技術が必要である。
また、商業的な成功を収めるためには、検索結果をその他の情報と連動させて提示する ための技術も求められる。これらの技術の代表例は、検索連動型広告や、コンテンツ連動 型広告の技術である。P4P(pay for performanceまたはpay for placementの略とされる)
と呼ばれるこの技術は、検索サービスの付加価値を高める役割を果たしている。これらの サービスでは、広告主はキーワードに入札し、落札した広告主の広告が、そのキーワード での検索結果の上位に表示される。このサービスは、日本では 2002 年後半に本格的にス タートした。現在、オーバーチュアのSponsored Search及びグーグルのAdWordsがP4P 市場のシェアのほとんどを占めている。
(4)検索サイトと検索エンジン
ウエブ上にある情報を取得するためには、Yahoo! やGoogleに代表される検索サイト・
検索エンジンの利用は必須のツールとなっている。しかしながら、こうした大量の情報も 6900種2を超えるといわれる世界中の言語に満遍なく存在する訳ではない。
現在、世界65億7000万人を超える人口の内、インターネットを利用している人は、お およそ10億9300万人と推定されている。その使用言語の内訳3は、英語を話す人が3億 2700 万人で全体の 29.9%を占める。又、日本語、中国語、韓国語、スペイン語、フラン ス語、ドイツ語、イタリア語、ポルトガル語、アラビア語の主要な9種類の言語を話す人 の合計が5億6700万人で51.9%あり、その他の言語が1億9800万人で18.2%となって いる。(図3‐1‐4)
図3‐1‐4 世界のインターネットを利用する言語別人口
又、ウエブ上で使われている言語の種類を調査した、早稲田大学の山名教授らの研究4に よると、調査対象としたウエブ上にある 32 億ページで記述されている言語の内、66.4%
が英語5であった。次いで、世界主要言語の合計9カ国語が28.7%であった。これら10種 類の言語だけで、既に 95.3%を占めており、7000 近くある、その他の言語によるウエブ ページは4.8%しかない。つまり、30%弱の英語人口が66%のウエブページを占めている 一方、英語、主要言語以外の18%の人口の言語で書かれたウエブページは5%弱しかない ことになる。この様に、その情報格差は極めて大きく、ウエブ上でのデジタルデバイドと でも呼ぶべき状況が起こっている。(図3‐1‐5)
2 聖書翻訳を行っている組織SIL (元the Summer Institute of Linguistics)は世界の言語数を6,912と数えて いる。http://www.ethnologue.com/
3 Internet World StatesのInternet World Users by Languagesより。2007年1月11日現在1,093,529,692 人と集計している。
4 Fact of the Web -30 億ページのウエブの解析- 加藤真、山名早人
5 AlltheWebを使った推計による英語のサイトは42.72%であった。(表1.4 3「検索エンジンがインデッ クスしえいるアジア言語のページ数推計値」を参照)
フランス語, 5.0%
ドイツ語, 5.4%
韓国朝鮮語, 3.1%
イタリア語, 2.8%
アラビア語, 2.6%
その他, 18.2%
日本語, 7.9% スペイン語, 8.0%
英語, 29.9%
中国語, 14.0%
ポルトガル語,3.1%
図3‐1‐5 (左)言語種別インターネット人口 (右)Webページの言語構成
こうした状況を背景に調査対象各国をみると、表3‐1‐2の様に、それぞれ検索サイト があるが、インド、タイ、ベトナムに関しては、いずれもYahoo!やGoogle、MSNなどが よく使われる検索サイトとなっている。又、これらの国では、よく使われている国産サイ トでも、その検索エンジンはYahoo!やGoogleが使われており、実質的には実用化されて いる国産エンジンは少ない。一方、主要言語を使っている、中国語、韓国語では、検索エ
ンジンにGoogleやYahoo!を使っているサイトもあるが、それぞれの検索サイトを運営す
る企業が独自開発をした検索エンジンや国産の検索エンジンを使っているサイトが多い。
この中で、日本はやや例外に属し、Yahoo!や Google が上位で使われている。これは
Yahoo!やGoogleの日本語対応が優れていることとも関係しているものと思われる。
表3‐1‐2 各国で使われている検索サイトの
ランキング上位10と11~19位にある多国籍検索サイト
順位 インド タイ ベトナム 中国 韓国 日本
1 Yahoo! Google.th Yahoo! Baidu Naver Yahoo! Japan
2 Orkut MSN Google.vn 騰迅網 Nate Google.jp
3 Google.in Yahoo! VnExpress 新浪 Daum Youtube(6位) 4 Google Sanook Dantri Sohu Yahoo! Livedoor(7位) 5 Rediff Google 24h 網易 Netmarble Google(8位) 6 MSN Windows Live Vietnamnet Yahoo! China Tom.com MSN(9位) 7 YouTube Pantip tipotre 陶宝網 Auction.kr Goo(10位) 8 Naukri Youtube Google Google Gmarket Inforseek(13位) 9 Rapidshare Pramool Ngoisao Tom.com Hangame Nifty(14位) 10 Blogger Dek-d Volam MSN MSN Biglobe(17位)
11位 Windows Live MSN Google.cn Google
以下 YouTube Yahoo!
* データはAlexaの集計による。網掛け部分は国際的な検索サイト
* 日本でMixi(3位)やFC2(4位)などが上位にあるが、検索サイトではないので省略した。
英語, 29.9%
主要, 51.9%
他, 18.2%
英語, 66.4%
主要, 28.7%
他, 4.8%
中国、韓国の国産サイトでは、検索以外にも、その国の事情や好みに応じた高付加価値 のサイトを作っており、ブログや EC、動画、音楽、ゲームなどの様々なサービスを提供 している。こうしたことから検索サイトは、ポータルとしての利用がますます多様化して いる。中国・韓国の検索サイトは殆どがポータル型であるのに対し、中国の百度(Baidu)
は Googleと同様にシンプルなデザインを前面に押し出しており、必ずしもポータル型ば
かりが好まれているわけではないことを示しており興味深い。
(5)ウエブ上でのアジア言語
商用検索エンジンの多くは「多言語対応」と銘打ってはいるものの、実際には欧州語を 中心とする多言語対応が基本になっているに過ぎない。Googleの場合もインターフェース 言語としては約120言語が用意されているが、検索対象文書の言語としては36 言語(い ずれも2007年3月1日現在)が列挙されているに過ぎず、アジア言語は、中国語(簡体 字、繁体字)、日本語、韓国語、トルコ語、アラビア語、ペルシャ語、ヘブライ語、インド ネシア語の9言語のみである。
3‐1.2 インドにおける検索エンジンの現状及び開発動向
(1)概要
インドにおける、検索サイトの主なユーザは、全人口11億人の内、6,500万人 (人口の 10%未満)の英語とインドの地方語が使えるバイリンガルのインド人である。インドには ヒンディ語、タミル語など22の公用語がある。その為、国内にあっても、異なる言語(公 用語)を話す人の意思の疎通には英語が必須となっており、結果的に英語サイトは現地の言 語で書かれたサイトよりも多い。実際、急速な工業化および経済における目まぐるしい多 国籍企業の影響により、英語は日々のコミュニケーションにおいてポピュラーで影響力の ある手段であるため、英語を地方語に置き換えようとする動きは事実上見送られている。
しかしながら、こうした状況はインターネット人口が増えるに従い、徐々に変化しており、
ローカルな言語による文化、芸術、音楽、地域などに関する情報への需要が増加している。
又、インドの検索連動広告の市場規模は、5,000万ドルあり、(出典: 2005 study by Internet and Mobile Association of India). 検索エンジン市場は非常に速い速度で成長している。そ の為、現地言語の検索エンジンがあれば莫大な人数がインターネットユーザの数に加えら れる。多くのテクノロジアナリストは、インドは言語に関するテクノロジが改良されれば、
中国すらも上回る大きなインターネット市場が出現すると期待している。
こうした中、現在、多くのソフトウエア企業が、検索サイトの開発、検索エンジンの最 適化、データセンターの運営などに取り組んでいる。検索エンジン技術における R&D 活 動は、国立 R&D センター、インド工科大学(IITs) 、 国立技術研究所(IIITs)といった一流
大学やGoogle, Yahoo! そして Microsoftといった多国籍企業(MNCs)、及び、TCS 、WIPRO といったインド企業により行われている。TCS、WIPRO といったトップのソフトウエア 会社は、自社製品やソフトウエア・ソリューションにおいて検索に関連する技術を使用す るなど、ニーズに特化した特殊用途検索エンジンに注力している。一方、Microsoft、Google、
Yahoo!といった 国際的な巨大企業は、国立 R&D センターやインド工科大学(IITs.)のよう
な一流の大学と連携を取っている。又、webarooやguruji.comといったニッチマーケット の支配権を握ることに焦点をあてたベンチャー企業も多い。最高のソリューションを持つ ベンチャー企業の中には直ぐにも巨大企業に買収されそうなところもある。要約すれば、
インドの検索エンジン市場は、MNCs、巨大企業、R&D組織、そしてベンチャー企業がし のぎを削っている状態といえる。
(2)インドの検索エンジン開発企業
インドでは、優秀なインド人を使って、多国籍企業や国内企業が研究開発を行い、検索 エンジンの開発を進めている。インドは市場としては未だ小さいものの、開発拠点として は、世界最先端にあるといえる。以下に幾つかの開発事例を述べる。
①Google
インド、バンガロールにある研究開発センターは、Mountain View, Santa Monica, New York, Zurich、東京と同様、最新かつ本格的なエンジニアリング設備の一つである。ここで は、情報検索、分散システム、機械の学習能力、データマイニング、理論計算機科学、統 計学、ユーザサイエンスを含むファンダメンタルな部分を網羅している。Googleのインド にある設備の目的は、インド特有のテクノロジーに特化するだけではなく、データマイニ ング、データウェア・ハウジング、 ビジネス・インテリジェンス、ナレッジマネージメン トの方法をリサーチすることにある。
②Microsoft
バンガロールにある同社研究所は、いくつかのリサーチプロジェクトで既にインドの大 学やインド工科大学(IIT) ボンベイやバンガロールにある国立技術研究所(IIIT) といった学 術機関と提携している。また、多言語ウエブ検索、ブラウジング、インデックス作成、イ ンド言語と英語間の機械翻訳、OCRのような多言語ユーザのインターフェイス、手書き、
話し言葉において先進コンピューティング開発センター(C-DAC)と協力している。
③Tata Consultancy Services Limited (TCS)
現地系の同社は、世界的な大手のITコンサルティング、サービス、ビジネスプロセス・ア ウトソーシング、エンジニアリング・サービスを行う企業である。同社のiLABでは、マル チメディア・プロジェクトで、インデックスを持たないコンテンツの検索や広範囲におよ ぶ文書の処理システムを研究している。一般的な検索エンジンはユーザの性格や好みを考
慮するパーソナライズ化がされていないが、ここでは、それを実現しようとしている。
④Arexera Information Technologies
同社は、英語を話さない人に特化した検索エンジンSeekportをヨーロッパ、西アジア市 場及びインドで開発してきた。ここには1億2,600万の索引ページがある。
3‐1.3 タイにおける検索エンジンの現状及び開発動向
(1)検索エンジン開発の概要
タイにおける検索サイトの利用者は90%以上がGoogleのユーザである。タイでは国産 の検索エンジンを使ったサイトとしてSiamguruが2000年にサービスを開始したが、サイ
トのPR 不足と Googleの高い知名度により利用者が伸びず、規模を縮小して継続してい
るに留まっている。同サイトは当初、全世界のサイトから情報を収集することを目指とし たが、タイ語以外の情報も含めて収集すると、全システムのUnicode化が必要となり、シ ステムの大幅改修になる。その為、現在、情報収集(クローリング)はタイ国内の情報に限 っている。こうした背景から、Siamguru は企業向けを中心としたビジネスに軸足を変え ている。タイの検索サイトが Google の独占状態にある状況に対し、ポータルサイト関係 者は「タイにとって、Googleは情報の選別はできるが、検索結果から必要な情報を再度探 さないとならない不十分なものである。しかし、たとえ検索結果に満足していなくても他 に選択肢はなく、使うしかない。」と評価している。
タイの検索エンジン開発は、国内ではNational Electronics and Computer Technology Center (NECTEC)、及びSiamgure.com、外国企業ではGoogle及びyahoo! が行っている。
タイでは2000年以前からNECTECが自然語解析の研究を行っており、2000年頃からタ イのインターネット普及に伴い、タイ語検索エンジン開発の機運が高まりを受け、自然語 解析のノウハウを活用した検索エンジン(sansarn)が開発された。
タイ語は空白などのデリミタによる単語切り出しが出来ない言語である。その為、確率 モデルをベースとした検索キーワードのマッチング技術により、検索結果/ランキング機 能を実現し、高速検索の実現を目指した。その結果は、現在 schoolnet や各研究機関での 研究内容の管理といった小規模システムに適応されている。これは、その後sansarn look の研究に引き継がれ、確率モデルを使用した検索手法から、N-gram インデックス方式を 採用したインデックス検索手法の研究として推進している。この検索手法は、今後3年を めどに実用化に向けて、他の音声や動画などのマルチメディア情報と連携したトータル情 報検索を目指している。
又、翻訳技術に関しては、タイではタイ語を使用したサイトがほとんどであり、英語の サイトは約1割程度であることから、翻訳サービスの要望は現時点ではあまりない。しか しながら、今後、インターネットユーザが増加することを想定すると、翻訳検索/翻訳表
示の必要性は誰も否定しない。タイ国のサイトとしては唯一、英語からタイ語への翻訳サ イト「http://suparsit.com/index1.php」がある。このサイトはCICCとNECTECなどの研 究機関が協力して実施した機械翻訳プロジェクトや NECTEC の自然語解析研究の成果が公 開されたものである。
(2)ウエブサイトの検索エンジン
タイにおける検索サイトでは、sanook.comやTrue Coporation(truecorp.cp.th)などが代 表的なポータルサイトである。sanook.comは、ディレクトリ検索とあわせてGoogleと提 携し情報検索のサービスも始めた。また、系列会社にテレビ局、有線放送、CATV など多 数のコンテンツを保有しているTrue Coporationでは、提供コンテンツからインターネッ ト情報までの検索サービスを更なる付加価値と考えている。
これらのポータルサイトでは下記の 4 項目が検索サービスに必要と考えられているが、
現在のGoogleには見られず、特にタイで不満としてあげられる代表的な項目である。
言語対応 :タイ語に対応すること
リアルタイム性:クローリングスパンが2~3日と長いため、サイトの情報変更に 対応しきれず、必要な情報の取得が出来ない。その結果、検索で ヒットしない。
検索結果ビジュアル化:要約表示や、サムネイル表示など。
ポータルサイト化:コンテンツを充実させ、付加価値を設けること。
タイ語対応の検索エンジンとして商用で使用されているものは、Siamguru.com 社で開 発されたものだけである。タイ語は、英語などのようにデリミタでの区別がつかず、日本 語のような句読点や助詞といった単語を認識するルールがないことから、単語切り出しが 困難な言語の一つである。このため、Googleなど外来エンジンの問題としては、検索ユー ザが意図する検索語による妥当な検索結果が得られないということにある。これを、タイ 語を理解しているタイ国内で開発したSiamguru.com社のエンジンは解決している。これ は、NECTEC の最初の検索エンジンである Sansarn の確立モデル型検索エンジンのノウ ハウを活用して実現していると推定する。現在、NECTECでは、更に進化させてタイ語の 自然語処理を事前に行うことでほぼ完全な単語解析を行いインデックス化することで、高 速検索を実現する研究も進められている。このインデックス化によりディスク容量が増加 し、更にはインデックス作成時間が単調増加するために、運用が複雑になることが問題点 としてあげられるが、研究の主眼が検索時間と検索精度に向いているために、現段階では 問題視されていない。
3‐1.4 ベトナムにおける検索エンジンの現状及び開発動向
(1)検索エンジン開発の概要
インターネットブームがベトナムでも起こったことにより、1990 年代から検索エンジン の研究開発が行われた。1995 年には、科学アカデミーとNetNam(当時は科学アカデミー 内の一組織)が共同でベトナム語の検索エンジンの開発に着手し、1999 年に主に政府機関 のウェブサイト内検索サービスを開始した。当時の最大のニーズは約 40 あると言われる文 字コードの混在を解消することであったが、2002年にGoogleがベトナム語のサービスを 開始して以降、最も利用される検索エンジンはYahoo!やGoogleとなり、国内検索エンジ ン開発は停滞気味となった。しかしGoogleやYahoo!など、グローバルな検索エンジンが 主流になる中で、問題も出てきている。関係者よると「Google検索では、ベトナム語はト ッププライオリティではない為、クローラがベトナム語サイトを収集する頻度が少ない。
又、ローカルの文字コードがサポートされていないため、検索の対象にならないページが 多く取り残されてしまっている。」という。
ベトナム国産の検索エンジンには、NetNam社のNetNam (検索サイトPanVietNam)、 Tinh Van 社のVinaseek (同Vinaseek)、ベトナム国立大学工科大学部ハノイのVinahoo (同
Vinahoo) がある。この内、NetNamのサイトは、ページ検索、イメージ検索が出来るとし
て存在するものの、運用を停止しており、検索結果は出て来ない。又、Vinahoo は大学内 の研究用に使われているのみである。その為、一般ユーザに利用可能なサイトはVinaseek のみである。これは実用には耐えないが、日本語検索もできる。この Vinaseek を運営し
ているTinh Van社のウエブサイトは簡単なベトナム語⇔英語・フランス語の翻訳も出来る。
全体として、現状では、検索サイトの主な対象は文字情報で、音声や映像などの検索の研 究開発は遅れている。
Vinahoo を開発しているベトナム国立大学・情報システム学科の直接の研究・教育テー
マは、データマイニングなどの自然言語処理技術で、これらの研究成果の応用として、ベ トナム語検索エンジンVihahooが運用されている。Vinahooの今後の課題は、テキストマ イニング技術との統合や、クローラ技術の改良、テキスト分類技術、検索言語の開発など である。又、テロ対策や公序良俗維持のためのコンテンツフィルタリングの研究なども行 われている。
日本や中国、韓国などのインターネットの進んでいるアジア諸国では、WEB2.0 関連
(BLOG、SNSなど)が盛んになっている。一方、ベトナムでは未だインターネット人口 が少なく、回線速度も遅い。その為、VnExpressやDan Triなどの検索機能をもつポータ ルサイトはあるが、WEB2.0関連や動画などの良いコンテンツに乏しく、検索などのニー ズも多様化していない状況にある。
(2)ベトナムの検索エンジンの研究及び開発組織
①ベトナム国家大学ハノイ校情報科学部情報システム学科
同学科のデータマイニング及び知識工学研究グループは、大学・教育機関として検索エ ンジン関連の技術を研究・指導を行なっているベトナム国内でも数少ない機関の一つであ る。ここには、博士課程・修士課程・学部学生をあわせて、約 20 名の学生が在籍してい る。学生の中には日本や韓国の海外の大学に留学・在籍している者もおり、日本では東北 大学や北陸先端科学技術大学院大学などに留学している。
同グループの研究・教育テーマは、データマイニング技術とベトナム語処理技術を組み 合わせたベトナム語テキストマイニングである。これまで、二つの検索エンジンの開発と 運用に関わってきた。一つはVietseek、もう一つはVinahooである。Vietseekはオープン
ソースのAspSeekをベースに2002年に開発したもので、郵電省系のISPであるVDC(ベ
トナムデータ通信)のゲートウェイでも試験的に使用され、300万件以上のベトナム語ウ エブページを登録していたが、現在は開発を停止している。又、Vinahooは、2003年から これまでの同研究室の研究成果にもとづき、ベトナム語検索エンジンのVihahooの開発と 運用を進めてきた。Vinahoo の今後の課題は、テキストマイニング技術との統合やクロー ラ技術の改良、テキスト分類技術、検索言語の開発などである。
ベトナム語の検索エンジン開発の際に課題となるもう一つのポイントは単語分割(word segmentation)である。ベトナム語は一つの音節で一つの単語が表される単音節言語であ ると考えられがちだが、ベトナム語の現代の正書法は単語分かち書きでなく、一つの音節 がひと続きに綴られる「音節分かち書き」である。そのため、実際には複数の音節で一つ の単語が表される複音節言語であるという性格を強く持つ6。分かち書きされたどの音節と どの音節が単語を構成するかを判定するための単語分割、あるいは単語同定の技術が今後 重要な研究テーマとなっている。
②科学技術省IT室
科学技術省は、以前は情報通信技術に関する政策全般を所掌していたが、政府機構の再 編により、現在はこの分野の研究開発や専門家人材育成を所掌している。科学技術省とし ては、インターネットが世界的に普及し始めた 1995 年頃から検索エンジン技術に関心を もっていたという。
当時の問題意識は、混在している文字コードを横断して検索する技術の実現であった。
ベトナムでは8ビット系コードとしてはTCVN 5712: 1999が、またUnicode系コードと
してはTCVN 6909: 2001がそれぞれ制定されていたが、それ以前には全国で統一的に使
用される文字コードがなく、またが制定されたのちも、現実的には既存の文字コードが使 用されつづけていたようである。当時のベトナム語の情報処理においては、8 ビットの文 字コード標準が存在しない状態にあり、フォントベンダがそれぞれ独自のフォント符号化
を決め、その独自符号化に基づいてフォントを開発・販売していた。また、マイクロソフ トとIBMのOSがそれぞれ採用する文字符号化も異なっていた。
そのため、画面表示や印刷上では同じに見えるテキストが、異なるコード体系によって 表現されることになった。その結果、検索がうまく行えないという問題が発生した。この ような問題があったため、当時の検索エンジン開発上のもっとも大きな関心は、複数の独 自フォント符号化が混在する状況にあったベトナム語の文字コードに、検索エンジン側で どのように対応するかということだったようである。1995年から約10年間は、ベトナム の国内IT企業も検索技術の開発や、それを応用したアプリケーションの開発に積極的であ ったと述べている。その中で、Tinh VanやNetNamといった企業が少しずつ力を蓄え、Tinh Vanは科学技術省との共同研究も進めていたが、GoogleやYahoo!など、グローバルな検 索エンジンがベトナム語に対応するようになると、IT企業による検索エンジンへの意欲は 急速に減退する。サービスとしては継続しているが、検索エンジンのための新技術の開発 は継続されておらず、事実上放棄された状態である。
③ベトナム科学アカデミー情報技術研究所(IOIT)
IOITはベトナム科学アカデミー(VAST)の持つ18研究所の一つであり、ベトナム国内 の IT 系の研究所としてはもっとも大規模である。IOITの研究分野の中で、検索エンジン 技術に近いのはパタン認識・知識工学研究部門である。この部門ではデータマイニング、
文字認識、音声認識、音声合成、データマイニングなどの研究を進めている。
④NetNam
NetNamはベトナム科学アカデミー情報技術研究所(IOIT)からISPとしてスピンオフ
した企業である。同社はその出自もあり、ベトナムの企業としては研究開発を比較的重視 してきた。1997年にベトナム政府がインターネットを公式に認めると、NetNamも検索技 術の開発に本格的に乗り出すようになった。NetNamの検索エンジンは 1999 年にサービ スが開始された。インターネット検索を提供するほか、商務省など政府機関のウエブサイ ト内検索の機能なども提供していた。その後、Googleがベトナム語の検索サービスを開始 したことを契機に2002年に開発を停止して現在に至っている。
3‐1.5 中国における検索エンジンの現状及び開発動向
(1)概要
2007年1月に中国ネットワークインフォメーションセンター(CNNIC)が発表した「第 19回中国インターネットの発展状況に関わる統計、報告書」によると、2006年末現在の インターネット利用者は1億3700万人であった。これは、インターネット利用者が前年 同期に比べ、2600万人増加(23.4%増)したことになる。2010年には、この利用者は2.16 億人となると見込まれている。一日あたりのサーチリクエスト数は2005年12月末で4億
560万回あり、2002年12月の実績の17倍となった。2010年には、これが24億回にな ると予想されている。又、同報告によると、中国のドメイン数が大幅に増加している。特 に中国国内のドメインである「.cn」は180 万を超え、05 年の同期に比べて、64.4%の伸 長を示した。
この様に、インフラ施設やアプリケーション面を含め、中国のインターネット環境は急 速に改善されてきており、更に中国が持つ巨大な人口により、中国インターネット市場は 無限の潜在力を持つようになっているといえる。
(2)代表的な検索サイト
中国における、検索の主な目的は現時点では、ページサーチに集中している。しかしな がら、音楽、地図、ショッピング、動画などへの要求も強く、こうした需要を同時に満足 させるサイトが大きなマーケットシェアを取っている。代表的な中国語の検索サイトは百 度(Baidu)、谷歌(Google)、雅虎中国(Yahoo! China)、捜狐・捜狗(Sohu・Sogou)等 で、2006 年 8 月現在、それぞれ百度62.1%、谷歌 25.3%、雅虎中国4.8%、捜狐・捜狗 3.2%となっており百度が圧倒的な強さ見せている。
①百度
百度は2000年1月に北京の中関村で設立された同名の企業により運営されている。 中 国で最も良く使われていると同時に、Alexa の調査によると、世界で4番目に良く使われ ているサイトともなっている。又、同社は検索エンジンを自社開発しており、その検索サ イトは現在、世界最大の中国語検索エンジンとして、10億以上の中国語ウェブページをデ ータベースに蓄積しており、更に毎日一千万ページ単位で増加している。又、ウェブのペ ージ検索以外にも、音楽のMP3、ドキュメント、感情伝達、画像などがあり、パソコンを 持っていないユーザも携帯電話や PDA などの無線プラットフォームを利用し、百度の検 索サービスを利用することができる。こうして、中国人のライフスタイルに合った検索サ ービスを多様化させていることが、中国で広く使われている理由となっている。2007年に は、百度は日本に進出する予定である。
②谷歌(Google中国)
Googleはいろいろな新しいサービスを次々に提供しているが、谷歌は、提供するサービ
スは英語の検索サイトに比べ極めて少なく、かつ最新の機能は提供されていない。現在谷 歌は、ウエブページと画像検索のほか、情報捜索、ニュース速報、一部の常用捜査(株式、
辞書など)、地図、大学、学術などの検索サービスを提供している。
③Yahoo!中国
Yahoo!は世界で最も有名なディレクトリ検索サイトであるが、全文検索も提供している。
Yahoo!中国のサービスは 1999 年 9 月に始まった。これは Yahoo!のグローバル展開の第
20番目の検索サイトとなっている。Yahoo!中国は国家標準コードとBig5繁体字をサポー トしており、ユーザは繁体字、簡体字の中国語を利用することができる。Yahoo!カテゴリ には100万近くのウエブサイトが登録されている。
④捜狐(Sohu)/捜狗(Sogou)
捜狐はポータルサイト、捜狗は検索サイトの名前として使われている。捜狗のウエブサ イトの紹介によると「2007 年初頭に、中国語検索エンジンで、世界初の 100 億のウエブ ページを集め記録を塗り替えた。又、ウエブページの更新量は毎日5億を超えており、利 用者はニュース検索ではなく、直接にウエブ検索をすれば、最新のニュースも入手可能」
としている。この捜狗検索エンジンはバージョン3.0にアップされた。
捜狗の表示ランキング順位計算法のアルゴリズムは公開されていないが、ウエブサイト で次の様に紹介されている。「捜狗ウエブページ・サーチ3.0の検索結果の順位計算は業 界が認めた最初の中国語ウエブページの評価体系である「捜狗ランキング」を採用してい る。この評価体系は捜狗所有の百億の中国語ウエブページのリソースを基に、中国語サイ トを全面的に分析し、評価の客観性と公平性を確保している。その結果、より精密で正確 な検索結果が出せている。実際、千以上の検索語テストによって、捜狗のレーダ型と事務 型の情報検索結果は、正確度がそれぞれ、94%と67%に達しており、業界のトップレベル になっている。」としている。
以下に大手中国語検索エンジンの技術要点比較を示す。
表3‐1‐3 代表的中国語検索エンジンの検索機能リスト
名称 検索 種類
キーワー ド検索
ブール 検索
単語
切り その他検索機能 単語 検索
中国語のウ エブページ
百度 全文
検索 対応 And
Not 非対応
専門的ファイル捜査、誤字 提示、ピン音提示、地域捜 査、mp3 捜査、特定 Web 捜査
有 8億以上
谷歌 全文
検索 対応
And Or Not
対応 電卓、中英辞書、誤字修正、
文字段落捜査制限 有 約10億
Yahoo!
中国
ディレ
クトリ 対応 Or
Not 対応 ビデオ、諮詢、Web、画像、
音楽捜査 不明 約100万 WebSite 捜狐
捜狗
ディレ
クトリ 対応 Or
Not 非対応 専門テーマ捜査 有 約200万 WebSite 新浪
愛問
ディレ
クトリ 対応 And
Not 非対応 ニュース、画像、音楽、ウ
エブアドレス、地図捜査 不明 不明 3721 全文
検索 対応 Or 対応 中 国 語 ウ エ ブ ア ク セ ス 機
能、株式コードサーチなど 不明 不明 天網
捜索
全文
検索 対応 And
Or 対応 簡単と複雑サーチ、FTP検
索機能 不明 不明
CNNICは2006年に北京、上海と広州の三地域で、ユーザが優先的に選択する検索サイ トの調査を行い、百度が 62.1%であったと発表した。これによると百度は前年比 14.2 増 と高い値を示した一方、谷歌のマーケットシェアは持続的に低下しており 2005 年に比べ
8%ダウンの 25.3%になった。この様に、百度と谷歌とも中国語検索サイトとして圧倒的
なシェアを獲得しているものの、百度と谷歌の2社が明暗を別けた原因としては、以下の ことが考えられる。
①現地化の問題:
谷歌の現地化の遅れがある。google.comとgoogle.cn7のサービスメニューを比較すれば、
google.comの多くのサービスはgoogle.cnのメニューにない。かつてGoogle中国エリア の李開復総裁は3ヶ月以内に現地化問題を解決すると宣言したが、未だその見込みはない。
そのことから、谷歌は中国のユーザに現地化された製品ではなく、中文化された製品の一 部しか提供していないといえる。一方、百度は最初からこうした問題はない。
②意識形態の問題:
谷歌は中国語検索市場に進出したものの、中国の文化と中国インターネット利用者のネ ットワーク・アクセスの習慣を良く理解しているとは言いがたい。ほとんどの場合、谷歌 は自国のやり方をそのまま中国で踏襲している。
③中国語処理技術の問題:
一般に谷歌の技術は百度より優れていると思われているが、中国語処理技術に関しては、
百度はより優れているといえる。その理由として、まず、谷歌は中国語キーワードへの理 解度が百度より浅い。中国語検索のとき、余りにも検索語を分解し過ぎるため、言葉の正 確性の低下を招いている。次に、谷歌は米国企業を使って、単語分け技術を開発し、百度 より成熟度の高い中国語単語分け技術求めているが、百度に比べ、この面の技術には差が ある。
④コア製品の問題:
谷歌が提供する同社のニュースはそのコア製品や、検索技術の向上に関するものではな く、新製品の紹介や谷歌人物に関わるニュースばかりである。これらのニュースは谷歌の 宣伝に過ぎず、効果はあるものの、谷歌の中国語検索エンジンのコアとなるべき部分への 貢献とはなっていない。
(3)検索エンジンの発展方向と展望
1994年に検索エンジン会社が初めて発足して以来、多年の発展を経て、現在の検索エン
7 www.google.com.cnは中国国内からのアクセスに限定しているものと思われる。日本からこのURLを