• 検索結果がありません。

北海道「遊」産業情報におけるWebマイニング

N/A
N/A
Protected

Academic year: 2021

シェア "北海道「遊」産業情報におけるWebマイニング"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

2001年度日本オペレーションズ・リサーチ学会 秋季研究発表会

北海道「遊」産業情報におけるWebマイニング

北海道大学 *金城 伊智子 KINJOIchiko

1−G−9

北海道大学 長尾 光悦

北海道情報大学 斎藤 一

1004631 北海道大学 大内 東

1.はじめに

現在,多様なメディアにおいて北海道「遊」産

業情報が提供されている.代表的なメディアとし

ては,雑誌,TV,WWWなどが挙げられるが,

この中でも特にWWWはその情報量,時間や場

所に依存しないといった利点から他のメディア

と比較して,より有効な情報の提供を行うことが

できると考えられる.しかしながら,有効な情報

の提供を行う為には,第一に,北海道「遊」産業

情報そのものを明確にする必要がある.

本研究では,WWW上のデータをテキストマイ

ニング技術【1】により分析することによって,北海

道「遊」産業情報の明確化を行う.また,WWW

上における多量の北海道「遊」産業情報を収集し,

効果的な情報の提供を行うためのWebマイニン

グシステムを提案する. NAGAO Mitsuyoshihi SAITOHajime OHUCHIAzuma おける意味的構造を獲得し,視覚的構造との関係 を調査,分析することによって,そこに現れる北 海道「遊」産業情報の特徴を抽出することができ, ⅥW上の情報に基づく北海道「遊」産業情報を 明確化することができると考える. 2.2 タグ情報の分析 本研究ではWebサイトにおけるタグ情報を収 集し,それら収集したタグ情報とWebサイトの 示す内容の関係を分析することにより,タグ情報 に基づく Webサイトの内容把握に対する妥当性 の検討を行う.まず,WWWにおける情報収集方 法として一般的であるサーチエンジンを用いて 北海道「遊」産業情報を収集する.検索結果から 得られたWebサイトにおいて,提供者の意図が 反映されやすく,Webサイトの内容と関連が強い と考えられる<TITLE>,<Hl>,<HREF>, <COLOR>という4つのタグ情報の分析を行う. これらのタグ情報に基づくテキストをWebサイ トから抽出し,語句単位に分解する.そして,分 解された各語句の出現頻度を調べることにより データ全体における各語句の出現傾向の分析を 行う. <TITLE>タグに囲まれるテキストは,検索に用 いたキーワードと一致する語句を多く含み,その 他の語句を含むことがほとんどないことからそ のWebサイトの概要的な内容を表していると考 えられる.一方,<Hl>,<HREF>,<COLOR> タグのそれぞれに囲まれるテキストには,検索に 用いたキーワード以外にも観光と関係のある語 句が多く出現するため,そのWebサイトの具体 2.北海道「遊」産業情報の分析 2.1 タグ情報 北海道「遊」産業情報を明確化する為には,情 報を提供しているWebサイトを分析することが 必要である. 現在ⅥW上で公開されているWebサイトの 多くは,HTML言語によって記述されている.こ のHTML言語はタグと呼ばれる記述方式に基づ き,テキストに対して視覚的構造を付与するもの である.ここで,WWW上の北海道「遊」産業情 報を分析するためにはWebサイトが示す内容, すなわち,Webサイトにおいて意味的構造を獲得 する必要がある.したがって,HTML言語におけ るタグ情報を分析することにより Webサイトに −154− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(2)

的な内容を示していると考えられる.このような 分析を行うことにより,タグ情報に基づき多量の ノイズを含むWebサイト情報の全体を調査する ことなくその内容についての把握,すなわち,視 覚的構造に基づき意味的な構造を定義すること が可能であることを明らかにする. Search Engines

3.Webマイニングシステム

現在,WWW上には多種多様な北海道「遊」産

業情報が分散的に存在している.本研究では,こ

の北海道「遊」産業情報を網羅的に収集し,利用

者が必要とする情報を効率的に収集可能となる よう,いくつかのクラスタにWebサイトを分類 し,情報提供を行うことが可能なWebマイニン

グシステムを提案する.

本システムの構成とデータの流れを図1に,イ

ンターフェースを図2に示す.図1に示されるよ うに,本システムはメタサーチエンジンモジュー ルとクラスタリングモジュールから構成されて いる.メタサーチエンジンモジュールでは,現在 のWWW上に存在するサーチエンジン群に対し て検索要求を送信し,検索結果のURLリストを

受け取る.受け取ったURLリストに重複サイト

がある場合には削除する.その後,URLリスト のWebサイトのHTMLテキスト情報をクラスタ リングモジュールへ送信する.クラスタリングモ ジュールでは,メタサーチエンジンモジュールか ら送られたHTMLテキストに基づき的確にWeb サイトが表現する内容を得るためにHTML言語 におけるタグ情報の抽出を行う.このタグ情報に

基づくテキストに対して形態素解析が適用され,

テキスト情報における名詞頻度ベクトルが生成 される.生成されたベクトルに基づきWebサイ

ト間の類似度が算出される,算出された類似度に

基づいてWebサイトのクラスタリングが行われ

る.このクラスタリング結果のための新たなWeb

サイトが生成される.

InformationIntegrationSYStem 図1:システム構成 、ノ▼ゝくや t:ト1、Tヽ▼ 山射闇藩服l¥、 URLLIトtL)tsplayArea tnl亡卵t10nR亡Su】lD】印】ayAr悦 図2:インターフェース 利用者は生成されたクラスタに基づき情報の取 捨選択が可能であり,効率的かつ効果的な北海道 「遊」産業情報の提供が可能となる. 4.おわりに

本研究では,北海道「遊」産業情報の明確化を

目的とし,Webサイトにおけるタグ情報を収集し,

その情報の分析を行った.また,Webサイトを収

集し,いくつかのクラスタに分類することによっ

て効果的な情報提供を行うことが可能なWebマ イニングシステムを提案した. 参考文献

【1】那須川哲哉,河野浩之,有村博紀:テキストマ

イニング基盤技術,人工知能学会誌,Vbl.16, No.2,pp.201・211(2001). ー155− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

参照

関連したドキュメント

テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から

当社は、お客様が本サイトを通じて取得された個人情報(個人情報とは、個人に関する情報

このように、このWの姿を捉えることを通して、「子どもが生き、自ら願いを形成し実現しよう

ヒュームがこのような表現をとるのは当然の ことながら、「人間は理性によって感情を支配

の総体と言える。事例の客観的な情報とは、事例に関わる人の感性によって多様な色付けが行われ

このような情念の側面を取り扱わないことには それなりの理由がある。しかし、リードもまた

「系統情報の公開」に関する留意事項

Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google