• 検索結果がありません。

北海道観光情報の効果的提供に向けたシソーラスの構築

N/A
N/A
Protected

Academic year: 2021

シェア "北海道観光情報の効果的提供に向けたシソーラスの構築"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

2002年日本オペレーションズ・リサーチ学会 春季研究発表会 1−C−11

北海道観光情報の効果的提供に向けたシソーラスの構築

02103721 北海道大学大学院 *金城 伊智子 KINJOIcb舷0

大内 東 OHUCHIAzuma 1004631 北海道大学大学院 1。はじめに 観光がすでに基幹産発となっている北海道で は,これから来訪客数の増大に結びつくような北 海道観光情報の提供を行う必要がある。 現在,雑誌,でⅤ,WWW等多様なメディアに おいて北海道観光情報が提供されている.これら のメディアの中でも特にWWWはその情報盈, 情報の最新性といった利点からより効果的な情 報の提供を行うことができると考えられる.しか しながら,Ⅵ間上で公開されている情報は必 要とされない情報,例えば広告等の鰭報を多く含 む.すなわち,多塩のノイズを含む倍報である。 そこで,奉研究では北海道観光槽報のシソーラ スを構築することにより必喪な情報を効率的に 収集し,その鰭報を効果的に提供するためのシソ ーラスの構築法を漠虞する。 以下では,その詳細を説明する.

2。1 H弧タグに基づくテキスト抽出

W抽ページの内容を用い,効果的な北海道観 光情報の提供を行うためには,WWWのような ノイズを含む情報においてⅥ毎bページが表す内 容を的確に把握する必要がある.したがって,

Webページの内容を的確に把握するために

HでML言語において用いられるHTMI.タグに 基づくⅥ泡bページの内容推定を行う。本研究で は,このHでMルタグに基づくⅦ抽ページ内容 推定において以下の二奄額のタグを凍用する. 。<甘Ⅰ℡むE>タグ 。<HR選評>タグ <耶耶.冤>タグに囲まれるテキストは,その W抽ページの概要的な内容を表していると考え られる.また,<HRE厨ゝタグに囲まれるテキス トには,そのW抽ページの具体的な内容を示し ていると考えられる。 本研究では,この二つのタグに囲まれるテキス ト情報を個別に抽出し,以下の類似度算出およぴ クラスタリングにおいて用いる. 2。北緯道鏡光倍額のシソ薗ラスの繭東 本牽では,捷来するシソーラスの構築法の詳細 について述べる。卒研究では,テキストマイニン グ技術抱】抱】【3】を基に,以下のような手順によっ て北海道観光情報のシソーラスの構築を行う。 【シソーラス構築接】 1。HTMもタグに基づくテキスト抽出 2。形嘘寮解析の適用 3。名詞頻度ベクトルの作成 4。各単静間の類似度の膵出 5。類似度に基づく単帝のクラスタリング 2。2・形態涛頗祈の適用 類似度の算出において,HTMLタグに基づき 抽出されたテキスト情報全てを利用した場合に は計算コストが膨大であると考えられる。また, テキストにはノイズが含まれると考えられるた め,適切な類似度の算出が困難である.したがっ て,本研究ではHTMムタグに基づき抽出したテ キスト情報に対して形態素解析を適用すること −74− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

(2)

によってこれらの問題の解決を行う.本研究では 形態素解析のために「茶芙」を用いる.まず「茶 菟」によって分解されたテキスト情報の中から名 詞句の単籍のみを抽出する. く類似度の算出方法を示す. ある単語㌔とた9め類似度尺p9をそれらの名 詞頻度ベクトル間の内積 (4) 皮〝=Ⅳク・Ⅳ9 により算出する・したがって・尺ク9は単語㌔・た。 間の共起関係を表すものとなる.

2.3 名詞頻度ベクトルの作成

次に,各名詞句の単静の出現頻度を算出し,以

下のような名詞頻度ベクトルを作成する. Webページをdとし,別個のdの集合を β=(dl,d2,…,d′,…,軋) (1) とする.また,βに含まれる名詞句の単綺を単 籍たとし,その集合を g=(た1,た2,…,たノ,…丸〉 (2) とする.ただし,〃は∂に含まれる単辞の総数 である. このとき,あるWbbページd′に含まれる単持

ちの出現頻度をイとすると,単籍りこ対する

名詞頻度ベクトルⅣノは

Ⅳノ=(イ,可,…,イ,…,克)(3)

となる. この名詞頻度ベクトルは出現頻度順にソート し,類似度の算出においては,名詞頻度ベクトル において高頻度の名詞句を用いる.高頻度の名詞 句のみを類似度算出において利用することによ りノイズに対してロバストであり,かつ計算コス

トを抑えた類似度算出が可能となる.

2.5 単語のクラスタリング 続いて,算出された類似度に基づき各単籍のク ラスター」ングを行う.クラスタリング方法として は類似度が最大の単籍を結合する最短距離法を 採用する. このような単帝のクラスタリングを行うこと によって,北海道観光情報のシソーラスを構築す る.利用者は生成された北海道餞光情報のシソー ラスに基づき,WWW上の情報の取捨選択が可 能であり,効率的かつ効果的な北海道観光情報の 提供が可能となる. 3.おわりに 本研究では,北海道観光情報の効果的な提供を

行うことを目的とし,北海道観光情報のシソーラ

スの構築法を提案した.その具体的な結果を当日 発表する. 参考文献 【1】那須川哲哉,河野浩之,有村博紀:テキスト

マイニング基盤技術,人工知能学会誌,Ⅵ)1.16,

No.女,pp.201・211(2001). 【幻河野浩之,川原稔:Web検索におけるテキス トマイニング,人工知能学会誌,Ⅵ)l.16,No.2, pp.212・218(2001).

【3】坂本比呂志,有村博紀:Wbbマイニング,人

工知能学会誌,Vbl.16,No.2,pp.233・238 (2001). 2.4 各単語間の類似度の井出 形態素解析に基づき作成された名詞頻度ベク トルを用いて各単静間の類似度を算出する.この 類似度の算出においては,<℡ITLE>タグおよぴ <HREF>タグ,二つのタグに基づく名詞頻度ベ クトルを用いる.以下に名詞頻度ベクトルに基づ −75− © 日本オペレーションズ・リサーチ学会. 無断複写・複製・転載を禁ず.

参照

関連したドキュメント

敢闘賞 北海道 北海道 砂川錬心舘 中学2年 石坂隆真 僕を支えた数々の言葉 敢闘賞 関東 山梨県 山城剣友会 中学2年 野村将聖 今だからこそ大切なもの 敢闘賞 中部

つの表が報告されているが︑その表題を示すと次のとおりである︒ 森秀雄 ︵北海道大学 ・当時︶によって発表されている ︒そこでは ︑五

24日 札幌市立大学講義 上田会長 26日 打合せ会議 上田会長ほか 28日 総会・学会会場打合せ 事務局 5月9日

センター、アクサ XL 社と共催でサイドイベント「Understanding Climate Security and Ocean Risks: New tools and research for priority action in developing coastal states

出典: ランドブレイン株式会社HP「漁村の元気は日本元気」, http://www.landbrains.co.jp/gyoson/approach/toshigyoson_h21_mie.html,

7.2 第2回委員会 (1)日時 平成 28 年 3 月 11 日金10~11 時 (2)場所 海上保安庁海洋情報部 10 階 中会議室 (3)参加者 委 員: 小松

1 北海道 北海道教育大学岩見沢校  芸術・スポーツ産業化論 2019年5月20日 藤原直幸 2 岩手県 釜石鵜住居復興スタジアム 運営シンポジウム

[r]