• 検索結果がありません。

電子情報通信学会ワードテンプレート (タイトル)

N/A
N/A
Protected

Academic year: 2021

シェア "電子情報通信学会ワードテンプレート (タイトル)"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

クエリログをコーパスとした意味知識獲得法の改善

伊藤 淳

戸田 浩之

廣嶋 伸章

望月 崇由

††

鈴木 智也

††

筧 捷彦

†*

†早稲田大学理工学術院 基幹理工学研究科 情報理工学専攻

〒169-8555 東京都新宿区大久保 3-4-1

‡日本電信電話株式会社 NTT サイバーソリューション研究所

〒239-0847 横須賀市光の丘 1-1

††NTT レゾナント株式会社

〒108-0023 東京都港区芝浦 3-4-1 グランパークタワー

E-mail: †[email protected], ‡{toda.hiroyuki, hiroshima.nobuaki}@lab.ntt.co.jp,

and †* [email protected]

あらまし 本研究では,Web 検索エンジンのクエリログをコーパスとしたブートストラッピングによる意味知識獲

得の改善手法を提案する.意味知識獲得とは,同じカテゴリに属するいくつかのキーワードをシードとして,同じ

カテゴリに属する新たなキーワード群を抽出する手法である.提案手法はブートストラッピングに特有である意味

ドリフトという問題をパターン選択時にフィルタをかけることで回避し,既存手法よりも F 値で 1.26 倍の精度向上

を達成することができた.

キーワード 情報抽出,テキストマイニング,Set Expansion,Query Logs

Improvement of the Knowledge Acquisition Method using Query Logs

Jun Ito

Hiroyuki Toda

Nobuaki Hiroshima

Takayoshi Mochizuki

††

Tomoya Suzuki

††

and Katsuhiko Kakehi

†*

†Department of Computer Science and Engineering, Fundamental Science of Engineering, Waseda University

3-4-1 Okubo, Shinjuku, Tokyo, 169-8555 Japan

‡NTT Cyber Solutions Laboratories, NTT Corporation

1-1 Hikarino-oka, Yokosuka, Kanagawa, 239-0847 Japan

††NTT Rezonant Inc.

4-1-8F Granpark tower, Shibaura 3-chome, Minato-ku, Tokyo, 108-0023 Japan

E-mail: †[email protected], ‡{toda.hiroyuki, hiroshima.nobuaki}@lab.ntt.co.jp,

and †* [email protected]

Abstract In this paper, we propose a improving bootstrapping-based knowledge acquisition method

using query logs. This method is a technique to extract new keywords using some same category keywords as seeds. In order to extract keywords, we have to choose patterns which appear together. But, if we choose too generic patterns, we extract keywords which are not extraction category.

This problem is called Semantic Drift. We avoided Semantic Drift by applying the pattern filtering we proposed. As a result,

we were able to achieve precision of 1.26 times in F-measure than the existing method.

Keyword Information Retrieval, Text Mining, Set Expansion, Query Logs

1. は じ め に

近 年 , 検 索 エ ン ジ ン が 提 示 す る 検 索 結 果 の 精 度 が 向 上 し ,ユ ー ザ は 求 め る 情 報 を 載 せ た Web ペ ージ へ容易 に ア ク セ ス で き る よ う に な っ た . し か し , 従 来 の 検 索 エ ン ジ ン は , 基 本 的 に ユ ー ザ が 入 力 し た ク エ リ が 文 字 列 と し て 含 ま れ て い る Web ペ ー ジ を 検 索 す る も ので あ り ,ク エ リ に 込 め ら れ た ユ ー ザ の 意 図 を 理 解 し た り , ク エ リ そ の も の の 意 味 を 理 解 し た り し て 検 索 を 行 っ て い る わ け で は な い . そ の た め , ク エ リ を 単 な る 文 字 列 と し て 扱 う の で は な く , ク エ リ が 持 つ 意 味 や ク エ リ が 属 す る カ テ ゴ リ な ど を 考 慮 す る こ と で , よ り 適 切 な 検 索 結 果 を ユ ー ザ へ 提 示 す る こ と が で き る と 考 え ら れ て

(2)

お り , 各 検 索 エ ン ジ ン 事 業 者 は 様 々 な 試 み を 始 め て い る .例 え ば ,Google1で は ,住 所 を ク エ リ と し て 入 力 す る と , Google Maps2が 検 索 結 果 の 上 位 に 表 示 さ れ る よ う に な っ て い る .ま た ,Yahoo!3で は ,“ 天 気 東京 ”と 入 力 す る と , 東 京 の 天 気 情 報 が ア イ コ ン つ き で 検 索 結 果 の 上 位 に 表 示 さ れ る よ う に な っ て い る . 各 検 索 エ ン ジ ン 事 業 者 が こ の よ う な サ ー ビ ス を ど の よ う に 実 現 し て い る の か は 明 ら か に さ れ て い な い . し か し , キ ー ワ ー ド と カ テ ゴ リ の 関 係 を 示 し た 辞 書 を 保 持 し て お き , 検 索 時 に キ ー ワ ー ド の カ テ ゴ リ を 特 定 し て 検 索 結 果 を 切 り 替 え る こ と で , こ の よ う な サ ー ビ ス が 実 現 で き る の で は な い か と 考 え ら れ る . 例 え ば , “東 京”は 地 名 カテ ゴ リ ,“浜 崎あ ゆ み ”は ア ーテ ィ スト カ テ ゴ リ で あ る と い う こ と が 分 か る と , 天 気 情 報 を 示 し た り , ア ー テ ィ ス ト 情 報 を 検 索 結 果 の 上 位 に 示 し た り す る こ と が 可 能 に な る . こ の よ う に し て 実 現 す る 場 合 , カ テ ゴ リ に 属 す る キ ー ワ ー ド 群 を あ ら か じ め 用 意 し て お く 必 要 が あ る . 地 名 な ら ば , 地 理 デ ー タ な ど か ら 簡 単 に 用 意 で き る か も し れ な い が , ア ー テ ィ ス ト や 映 画 , 番 組 な ど , 次 々 と 新 し い も の が 生 ま れ る よ う な カ テ ゴ リ で は , キ ー ワ ー ド 群 を 常 に 最 新 の 状 態 に 保 つ こ と は 手 間 が か か る . ま た , カ テ ゴ リ の 数 は 膨 大 で あ り , と て も す べ て の カ テ ゴ リ と キ ー ワ ー ド を 人 手 で 収 集 し , 分 類 す る こ と は で き な い . そ の う え , カ テ ゴ リ の 中 に は 専 門 知 識 を 扱 う よ う な も の も 存 在 す る た め , そ の 分 野 に 精 通 し た エ キ ス パ ー ト の チ ェ ッ ク が 必 要 に な る こ と も 考 え ら れ る . そ の た め , な る べ く 人 の 手 間 を か け ず に , 自 動 的 に , 新 語 に も 対 応 で き る よ う な , カ テ ゴ リ 情 報 つ き キ ー ワ ー ド 群 の 抽 出 手 法 が 重 要 と 考 え ら れ る . そ こ で 本 研 究 で は , ク エ リ ロ グ を コ ー パ ス と し た 意 味 知 識 獲 得 手 法 に 着 目 し た . ク エ リ ロ グ は 新 し い 用 語 が 反 映 さ れ や す い う え , ク エ リ 文 字 列 が 適 切 な キ ー ワ ー ド ご と に 分 割 さ れ て い る . わ か ち 書 き が 必 要 な 日 本 語 に お い て は , ク エ リ ロ グ を コ ー パ ス と し て 利 用 す る こ と は 特 に 有 用 で あ る と 考 え ら れ る .

2. 関 連 研 究

Pantel ら [1]は , Espresso と い う ア ル ゴ リ ズ ム を 提 案 し た .Espresso は,“X is a Y”など ,係 り受 け 関 係に着 目 し て キ ー ワ ー ド を 抽 出 す る . キ ー ワ ー ド 抽 出 に 用 い ら れ る“is a”な ど の パ タ ー ン と , 抽 出 され た “X”や “Y” な ど の キ ー ワ ー ド は , Pointwise Mutual Information (PMI)を 用 い た 信 頼 度 に よ っ て ラ ン キ ン グ さ れ る .パ タ ー ン と キ ー ワ ー ド の 信 頼 度 は , お 互 い の 信 頼 度 を 利 用 1 http://www. google. co.jp/ 2 http://www. google. co.jp/maps 3 http://www. yahoo. co.jp/ し て 計 算 す る よ う に 定 義 さ れ て い る た め , ブ ー ト ス ト ラ ッ ピ ン グ 手 法 に な っ て い る . 小 町 ら [2]は , Espresso を ク エ リ ロ グ コ ー パ ス に 適 用 で き る よ う に 変 更 し た Tchai と い う ア ル ゴ リ ズ ム を 提 案 し た .Espresso に お い て 問 題 で あ っ た 実 行 速 度 の 遅 さ を 改 善 し た ほ か , 後 述 す る 意 味 ド リ フ ト 問 題 を 共 起 パ タ ー ン や 共 起 イ ン ス タ ン ス 数 の 最 大 値 に 着 目 し て 改 善 し て い る . ブ ー ト ス ト ラ ッ ピ ン グ を 用 い な い イ ン ス タ ン ス 抽 出 手 法 と し て は , Cafarella ら [3,4] が 提 案 し た KnowItNow や , Ghahramani ら [5]が 提 案 し た Bayesian Sets,Wang ら [6]の 提 案 し た SEAL が あ る .KnowItNow や SEAL は,Web ペー ジをコ ーパ スと して用 いて いる . ま た , Google の 実 験 的 な 試 み と し て 行 わ れ て い る , Google Sets4も 関 連 研 究 と し て あ げ ら れ る .

2.1. Tchai の概 要

我 々 の 手 法 は Tchai ア ルゴ リズム に基 づい ている の で , Tchai アル ゴリ ズム の詳細 につ いて 述べる . Tchai は ク エ リ ロ グ を コ ー パ ス と し て 意 味 知 識 獲 得 を 行 う ア ル ゴ リ ズ ム で あ る . ク エ リ ロ グ の 中 で も , バ イ ワ ー ド ク エ リ で あ る も の の み を 抽 出 対 象 と し て い る . バ イ ワ ー ド ク エ リ と は ,“東京 天気”のよ うに,半角ス ペ ー ス で 区 切 ら れ た 2 つの 文字 列から なる クエ リのこ と を い う . ユ ー ザ に よ っ て は 複 数 の 半 角 ス ペ ー ス や , 全 角 ス ペ ー ス な ど で 区 切 る こ と も あ る が , そ れ ら は す べ て 1 つの 半角ス ペー スへ 整形 してコ ーパ スに 用いる よ う に す る .ま た ,Tchai に おけ るパタ ーン とイ ンスタ ン ス は 図 1 のよう に定 義さ れる. クエリ 天 気 東 京 パターン 天 気 #, # 東 京 インスタンス 天 気 , 東 京 図 1. Tchai に お け る パ タ ー ン と イ ン ス タ ン ス こ れ を 見 る と わ か る よ う に , 1 つ のバ イワ ードク エ リ か ら , パ タ ー ン と イ ン ス タ ン ス が そ れ ぞ れ 2 つずつ 抽 出 で き る . イ ン ス タ ン ス は , パ タ ー ン に よ っ て 抽 出 さ れ る , あ る カ テ ゴ リ に 属 す る キ ー ワ ー ド と し て 定 義 さ れ る . こ の カ テ ゴ リ は あ ら か じ め 与 え ら れ て い る も の と す る . パ タ ー ン は , バ イ ワ ー ド ク エ リ に お け る 右 ま た は 左 を ワ イ ル ド カ ー ド (“#”)と した ,インス タン スの 抽出パ タ ー ン と し て 定 義 さ れ る . 例 え ば ,“天気 #”とい うパ タ ー ン に 対 し て は ,“神 奈 川”, “千 葉”, “埼 玉”な どの イ ン ス タ ン ス が マ ッ チ す る 可 能 性 が あ る .し た が っ て , 適 切 な パ タ ー ン を 選 択 す る こ と で , 同 じ カ テ ゴ リ に 属 す る イ ン ス タ ン ス が 抽 出 で き る と い う の が ,Tchai アル 4

(3)

ゴ リ ズ ム の 基 本 的 な 考 え 方 と な っ て い る . Tchai は 次 に 示 す 8 ス テ ッ プ で ク エ リ ロ グ か ら イ ン ス タ ン ス の 抽 出 を 行 う . 1. シ ー ド イ ン ス タ ン ス の 入 力 2. 表 層 パ タ ー ン P の抽出 3. P の 信 頼 度 計 算 4. 信 頼 度 上 位 k パタ ーン の選 択 5. イ ン ス タ ン ス I の 抽出 6. I の 信 頼 度 計 算 7. 信 頼 度 上 位 m イ ンス タン スの出 力 8. k の 値 を 1 増 や し , 3 へ 戻 る 図 2 にこ の Tchai の流 れを 概要図 とし て示 す .こ れ を 見 て 分 か る と お り , 表 層 パ タ ー ン の 再 抽 出 は 行 わ れ ず , そ の か わ り に シ ー ド か ら 抽 出 さ れ た パ タ ー ン の 信 頼 度 を 再 計 算 す る よ う に な っ て い る .こ の 変 更 に よ り , Espresso に お い て 問 題 で あ っ た 実 行 速 度 の 遅 さ を Tchai は 改 善 し て い る . 図 2 . Tchai の 概 要 図 イ ン ス タ ン ス i の 信頼 度𝑟𝜄 𝑖 およびパ ターン p の信 頼 度𝑟𝜋 𝑝 は次 の計 算式で 表現 され る . 𝑟𝜄 𝑖 = 𝑝𝑚𝑖 𝑖, 𝑝 𝑙𝑜𝑐𝑎𝑙 𝑚𝑎𝑥 𝑝𝑚𝑖 𝑝∈𝑃 𝑟𝜋 𝑝 𝑃 𝑟𝜋 𝑝 = 𝑝𝑚𝑖 𝑖, 𝑝 𝑙𝑜𝑐𝑎𝑙 𝑚𝑎𝑥 𝑝𝑚𝑖 𝑟𝜄 𝑖 𝑖∈𝐼 𝐼 𝑟𝜄 𝑖 お よ び 𝑟𝜋 𝑝 は 再 帰 的 に 定 義 さ れ て お り , イ ン ス タ ン ス な ら パ タ ー ン の , パ タ ー ン な ら イ ン ス タ ン ス の 前 回 の 信 頼 度 を 利 用 し て 信 頼 度 を 再 計 算 し て い る こ と が わ か る . な お , 初 期 値 は ど ち ら も 1 で定 義され る. ま た ,ど ち ら の 信 頼 度 に お い て も PMI とい う共起 の 強 さ を 測 る 指 標 が 用 い ら れ て い る . こ の 式 は 今 回 の タ ス ク で は 次 の よ う に 表 現 さ れ る . 𝑝𝑚𝑖 𝑖, 𝑝 = 𝑙𝑜𝑔 𝑖,∗ ∗, 𝑝 𝑁 𝑖, 𝑝 こ こ で の ア ス タ リ ス ク は ワ イ ル ド カ ー ド を 示 し , ど ん な イ ン ス タ ン ス (パ タ ー ン)も 入 り う る こ と を 表 し て い る .ま た ,N はバ イワ ード クエ リ総数 を示 して いる. こ の よ う に ,Tchai はパ ター ン と インス タン スに おける 共 起 の 強 さ を 計 算 す る こ と で ,信 頼 度 を 決 定 し て い る .

3. 提 案 手 法

Tchai の よ う な ,ブ ー ト ス ト ラ ッ ピ ン グ を 用 い た 情 報 抽 出 手 法 に は , 意 味 ド リ フ ト (Semantic Drift)とい う問 題 が つ き ま と う . 意 味 ド リ フ ト と は , イ ン ス タ ン ス を 抽 出 す る た め の パ タ ー ン を 選 択 す る さ い に , 誤 っ て 共 起 イ ン ス タ ン ス 数 の 多 い パ タ ー ン (ジ ェ ネ リ ッ ク パ タ ー ン )を 選択 するこ とで ,抽 出さ れるイ ンス タン スが本 来 の カ テ ゴ リ か ら ず れ て し ま う 現 象 の こ と を い う . 意 味 ド リ フ ト の 例 を 図 3 に示 す. 図 3. 意 味 ド リ フ ト の 例 Tchai は ,既 に 抽 出 し た パ タ ー ン の う ち ,最 も 共 起 イ ン ス タ ン ス 数 が 多 い パ タ ー ン の 共 起 イ ン ス タ ン ス 数 の 2 倍 以 上 の イ ン ス タ ン ス を 獲 得 す る パ タ ー ン や , 既 に 抽 出 し た イ ン ス タ ン ス の う ち , 最 も 共 起 パ タ ー ン 数 が 多 い イ ン ス タ ン ス の 共 起 パ タ ー ン 数 の 2 倍 以上 のパタ ー ン を 獲 得 す る イ ン ス タ ン ス を 選 択 し な い こ と で , こ の 問 題 を 回 避 す る 試 み を 行 っ て い る . し か し な が ら , 論 文 で は こ の 閾 値 設 定 の 理 由 に つ い て 触 れ ら れ て い な か っ た . そ こ で , 我 々 は Tchai をベ ースと して ,パ ターン 選 択 方 法 の 変 更 を 行 っ た . こ の 変 更 に よ り , イ ン ス タ ン ス 抽 出 精 度 の 向 上 を 目 指 し た . 1. シードインスタンスの入力 2. 表層パターンPの抽出 3. Pの信頼度計算 5. インスタンス I の抽出 7. 信頼度上位mインスタンスの出力 4. 信頼度上位kパターンの選択 6. I の信頼度計算 早稲田大学 慶応大学 中央大学 # 偏差値 # 理工学部 # サークル # 偏差値 0.90 # 理工学部 0.85 # サークル 0.81 東京大学 京都大学 電気通信大学 東京大学 0.56 京都大学 0.49 電気通信大学 0.33 パターンフィルタリング インスタンスフィルタリング シードインスタンス(地名カテゴリ) 東京,ニューヨーク,パリ,ローマ,シカゴ,… パターン パターン抽出 インスタンス抽出 インスタンス # 航空券,# 名所,# 観光スポット,# 画像,… 望ましい パターン ジェネリック パターン ハワイ,ソウル,ケアンズ,… 嵐,SMAP,浜崎あゆみ,… 意味ドリフトの結果得られたインスタンス

(4)

3.1. アプローチ

Tchai は 共 起 数 に 着 目 し て 意 味 ド リ フ ト を 防 ぐ 試 み を 行 っ て い た が ,我 々 は“パ ター ンを抽 出す るた めに利 用 し た イ ン ス タ ン ス”と “パ タ ー ン に よ っ て 抽 出 さ れ る イ ン ス タ ン ス”と の 関 係 に 着 目 し て 意 味 ド リ フ ト を 防 ぐ 試 み を 行 っ た . つ ま り , 今 ま で に 抽 出 さ れ た イ ン ス タ ン ス と , こ れ か ら 抽 出 し よ う と し て い る イ ン ス タ ン ス が , あ る 程 度 似 て い る と き だ け パ タ ー ン を 採 用 す る と い う ,パ タ ー ン フ ィ ル タ リ ン グ を 行 っ た の で あ る . こ の フ ィ ル タ リ ン グ に よ っ て , 既 に 抽 出 さ れ た イ ン ス タ ン ス と , 抽 出 し よ う と し て い る イ ン ス タ ン ス の カ テ ゴ リ の 相 違 が 起 こ り に く い こ と が 期 待 で き , 意 味 ド リ フ ト を 防 ぐ こ と が で き る と 考 え ら れ る . 本 研 究 で は , フ ィ ル タ リ ン グ に お い て 2 つ の提案 手 法 を 提 示 す る . な お , 以 下 で は 既 に 獲 得 し た イ ン ス タ ン ス 集 合 を X,パ ター ン選 択に よって 得ら れる インス タ ン ス 集 合 を Y として いる .

3.2. Simpson 係 数 によるフィルタリング

Simpson 係 数 は ,Jaccard 係 数 や コ サ イ ン 距 離 と 並 び , 共 起 の 強 さ を 測 る 尺 度 と し て よ く 用 い ら れ る . 今 回 Simpson 係 数 を 選 択 し た の は , X と Y の 大 き さ を 比 較 し た と き に , X の 大き さの 方が ほとん どの 場合 大きく な る か ら で あ る .Simpson 係 数は 分母 に 𝑋 と 𝑌 の最小 値 を と る の で ,反 復 を 繰 り 返 し て X が 大き くな って も 指 標 の 値 を 一 定 に 保 つ こ と が で き る . こ の Simpson 係 数 を 用 い た 手 法 を , 以 降 , 提 案 手 法 ① と 呼 ぶ こ と に す る . な お , 今 回 用 い た Simpson 係数は 共起 頻度 でフィ ル タ リ ン グ を か け た も の を 用 い て い る .以 下 に 式 を 示 す . 𝑆𝑖𝑚𝑝𝑠𝑜𝑛 𝑋 , 𝑌 = 𝑋 ∩ 𝑌 𝑀𝑖𝑛 𝑋 , 𝑌 if 𝑋 ∩ 𝑌 < 𝑛 then 0

3.3. パターン安 定 度 SOP (Stability Of Pattern)に

よるフィルタリング

今 回 の タ ス ク に お い て は , 可 能 な 限 り イ ン ス タ ン ス を 抽 出 す る こ と が 求 め ら れ て お り , X と Y の共 起が高 け れ ば 良 い わ け で は な い . X と Y の共 起が 高い だけで は , 既 に 抽 出 し た イ ン ス タ ン ス と ほ と ん ど 同 じ よ う な 集 合 を 選 択 す る こ と に な り , 新 た な イ ン ス タ ン ス を 獲 得 で き る 可 能 性 が 少 な く な っ て し ま う . し た が っ て , 意 味 ド リ フ ト が 起 き な い 範 囲 で , な る べ く 既 出 で な い イ ン ス タ ン ス が 獲 得 で き る よ う な 集 合 を 選 択 す る 必 要 が あ る . そ こ で , X と Y の 重な りが 調度半 分と なる ときに 最 も 値 が 高 く な る よ う な 指 標 , SOP (Stability Of Pattern)

を 用 い る こ と を 考 え た . こ の 指 標 に よ り , 意 味 ド リ フ ト を 防 ぎ つ つ 新 た な イ ン ス タ ン ス も 数 多 く 獲 得 さ れ る こ と が 期 待 で き る . こ の SOP を 用い た手法 を, 以降, 提 案 手 法 ② と 呼 ぶ こ と に す る . な お , SOP は次 のよう に 定 式 化 さ れ る . 𝑆𝑂𝑃 𝑋 , 𝑌 = 𝑋 ∩ 𝑌 𝑌 ∙ 𝑌 ∖ 𝑋 𝑌 𝑜𝑟 𝑆𝑂𝑃 𝑋 , 𝑌 = 𝑋 ∩ 𝑌 𝑋 ∙ 𝑋 ∖ 𝑌 𝑋 if 𝑋 ∩ 𝑌 < 𝑛 then 0

4. 評 価 実 験

4.1. 実 験 設 定

評 価 実 験 は 次 の よ う な 設 定 の も と で 行 っ た .  コ ー パ ス : 日 本 語 向 け Web 検索 エンジ ン 2008 年 6 月 か ら 2009 年 6 月 ま で 約 一 年 分 の ク エ リ ロ グ の う ち , バ イ ワ ー ド ク エ リ の 頻 度 上 位 1 万件  正 解 デ ー タ:日 本 語 向 け モ バ イ ル Web 検 索エン ジ ン ク エ リ ロ グ 2008 年 度分 のう ち, 頻 度上 位 3 万 件 を 人 手 で カ テ ゴ リ 分 類 し た も の  カ テ ゴ リ : 企 業 , 健 康 ・ 医 療 ,番 組 名 , 芸 能 人 の 4 カ テ ゴ リ 実 行 に あ た っ て は 反 復 を 10 回繰 り返 し , 反復毎 に 最 大 200 イ ンスタ ンス を獲 得する よう にし た .そ して , 正 解 デ ー タ を 用 い て 4 カテ ゴリ での実 行結 果の 適合率 (Precision) , 再 現 率 (Recall) , F 値 (F-measure) の 平 均 値 を 算 出 し , 既 存 手 法 Tchai と比 較を行 った .適 合率, 再 現 率 , F 値 はそれ ぞれ 次の ような 式で 求め ている . 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =𝑅 𝑀 𝑅𝑒𝑐𝑎𝑙𝑙 =𝑅 𝐶 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =2 ⋅ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∙ 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 M は 抽 出 さ れ た イ ン ス タ ン ス の 総 数 で あ り , R は そ の う ち 正 解 で あ っ た も の の 数 で あ る . ま た , C は正解 カ テ ゴ リ に 含 ま れ る イ ン ス タ ン ス の 総 数 で あ る . F 値 は 上 式 の 通 り , 適 合 率 と 再 現 率 の 調 和 平 均 で 定 義 さ れ る .な お ,Simpson 係 数は 0.5,SOP は 0.23,共 起頻度 n は 10 で フ ィ ル タ リ ン グ を 行 っ た .こ れ ら の 数 値 を 高 い 値 に 設 定 す る と フ ィ ル タ リ ン グ を 通 過 で き な い パ タ ー ン が 増 え て し ま う . ま た , 低 い 値 に 設 定 す る と フ ィ ル タ リ ン グ の 意 味 を な さ な く な る . 今 回 の 実 験 で は , 予 備 実 験 の 結 果 , そ れ ぞ れ の 手 法 で 良 好 な 結 果 を 得 た 上 記 の 値 を 利 用 し た .

(5)

4.2. 結 果 と考 察

4.2.1. カ テ ゴ リ ご と の 結 果 と 考 察

企 業 カ テ ゴ リ (図 4)で は, Tchai に 比べ て提 案手法 が 適 合 率 で ど ち ら も 大 き な 値 を 示 し て い る . 企 業 カ テ ゴ リ に お け る シ ー ド は , { 楽 天 , ア マ ゾ ン , ANA, JAL, NHK}で あ っ た .ANA や JAL は 企 業 名 で は あ る が ,旅 行 の イ メ ー ジ も 大 き い .そ の た め ,Tchai で は旅 行カテ ゴ リ へ の 意 味 ド リ フ ト が 発 生 し , 適 合 率 を 大 き く 下 げ る 結 果 と な っ た . 健 康・医 療 カ テ ゴ リ (図 5)では ,提 案手 法が 優位で あ る こ と が 分 か る も の の 目 立 っ て 大 き な 差 と は な ら な か っ た . こ れ は , 健 康 ・ 医 療 カ テ ゴ リ が , あ る 意 味 で 閉 じ た カ テ ゴ リ と な っ て お り , 他 の カ テ ゴ リ へ 意 味 ド リ フ ト が 起 き に く い か ら だ と 考 え ら れ る . 番 組 名 カ テ ゴ リ (図 6)では,提案手 法② が適 合率は 下 げ た も の の , 再 現 率 で 高 い 値 を 示 し た . こ れ は , 提 案 手 法 ② が 正 解 イ ン ス タ ン ス も 不 正 解 イ ン ス タ ン ス も 数 多 く 取 得 し た こ と を 示 し て い る . 正 解 イ ン ス タ ン ス を 多 く 獲 得 し た こ と で 再 現 率 を 上 げ , 不 正 解 イ ン ス タ ン ス を 多 く 獲 得 し た こ と で 適 合 率 を 下 げ た と 考 え ら れ る . SOP で は , 意 味 ド リ フ ト を 防 ぐ と と も に , 数 多 く の イ ン ス タ ン ス を 獲 得 し よ う と す る よ う な 指 標 と な っ て い る た め , こ の よ う な 結 果 に な っ た と 考 え ら れ る . 芸 能 人 カ テ ゴ リ (図 7)も,健康・医 療カ テゴ リと同 様 に , 提 案 手 法 の 優 位 性 は 示 さ れ て い る も の の , そ れ ほ ど 大 き な 差 は 見 ら れ な か っ た . こ れ は , 芸 能 人 カ テ ゴ リ の イ ン ス タ ン ス が , 画 像 や 動 画 , ブ ロ グ な ど の ジ ェ ネ リ ッ ク パ タ ー ン と 非 常 に 共 起 し や す い た め で あ る . つ ま り , 他 の カ テ ゴ リ か ら す れ ば ジ ェ ネ リ ッ ク パ タ ー ン で あ る こ れ ら の パ タ ー ン が , 芸 能 人 カ テ ゴ リ に と っ て は ジ ェ ネ リ ッ ク パ タ ー ン と は な ら な い の で あ る . し た が っ て , パ タ ー ン フ ィ ル タ リ ン グ が そ れ ほ ど 意 味 を な さ な く な り ,こ の よ う な 結 果 と な っ た と 考 え ら れ る .

4 カ テ ゴ リ 平 均 で の 結 果 と 考 察

表 1 と図 8 を見る と分 かる とおり ,提 案手 法①が 最 も 高 い 適 合 率 を 示 す 手 法 と な っ た . 既 存 手 法 の Tchai よ り も 約 1.17 倍 の 精度 向 上 を あ げ る こと が で き てい る . 一 方 , 再 現 率 に お い て は Tchai より約 1.19 倍高い も の の , 提 案 手 法 ② に 比 べ る と 低 い 値 と な っ て し ま っ た . こ れ は , 稀 な パ タ ー ン が 選 択 さ れ て し ま っ た 場 合 に 指 標 値 が 高 く な る と い う Simpson 係数 の特 徴 が 影響し て い る と 考 え ら れ る . 稀 な パ タ ー ン を 選 択 し た こ と で Y が 小 さ く な る と , Simpson 係 数 に お け る 分 母 が 小 さ く な っ て し ま い , 共 起 し て い る も の の 数 が 少 な い に も 関 わ ら ず , 指 標 値 は 大 き く な っ て し ま う の で あ る . 結 果 と し て , 反 復 す る ご と に , 選 択 さ れ る パ タ ー ン が 表 1. 提 案 手 法 と 既 存 手 法 の 比 較 図 4. 企 業 カ テ ゴ リ の 結 果 図 5. 健 康 ・ 医 療 カ テ ゴ リ の 結 果 図 6. 番 組 名 カ テ ゴ リ の 結 果 Tchai 提案手法① Simpson 提案手法② SOP 適合率(%) 17.19 46.60 35.36 企業 再現率(%) 12.84 13.36 19.56 F値(%) 14.70 20.77 25.19 適合率(%) 63.53 67.61 66.76 健康・医療 再現率(%) 36.10 39.75 49.07 F値(%) 46.04 50.07 56.56 適合率(%) 41.90 41.77 36.52 番組名 再現率(%) 34.65 50.00 63.64 F値(%) 37.93 45.52 46.41 適合率(%) 79.15 79.15 82.78 芸能人 再現率(%) 21.62 21.99 25.59 F値(%) 33.96 34.42 39.09 適合率(%) 50.44 5 8 .7 8 55.36 再現率(%) 26.30 31.28 3 9 .4 6 F値(%) 33.16 37.69 4 1 .8 1 適合率(比) 1.00 1 .1 7 1.10 再現率(比) 1.00 1.19 1 .5 0 F値(比) 1.00 1.14 1 .2 6 合計 0.00 5.00 10.00 15.00 20.00 25.00 30.00 35.00 40.00 45.00 50.00 適合率(%) 再現率(%) F値(%) Tchai 提案手法① Simpson 提案手法② SOP 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 適合率(%) 再現率(%) F値(%) Tchai 提案手法① Simpson 提案手法② SOP 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 適合率(%) 再現率(%) F値(%) Tchai 提案手法① Simpson 提案手法② SOP

(6)

し だ い に 稀 な も の へ と 遷 移 し て し ま い , 抽 出 で き た イ ン ス タ ン ス の 総 数 が 減 少 し て し ま う . こ れ に よ り , 正 解 イ ン ス タ ン ス を 網 羅 的 に 取 得 で き ず , 再 現 率 が 低 下 し た の で あ る . ま た そ の 一 方 で , 共 起 の 強 い パ タ ー ン の み を 選 択 し 続 け る こ と で 不 正 解 イ ン ス タ ン ス の 抽 出 が 抑 え ら れ , 適 合 率 は 向 上 し た と 考 え ら れ る . 提 案 手 法 ② は , 再 現 率 , F 値が最 も高 い手 法とな っ た . ジ ェ ネ リ ッ ク パ タ ー ン が 選 択 さ れ る と , 𝑋 ∩ 𝑌 が 大 き い 値 と な る の で フ ィ ル タ さ れ る . 逆 に , 稀 な パ タ ー ン が 選 択 さ れ る と , 𝑋 ∩ 𝑌 が 小 さ い 値 と な る の で フ ィ ル タ さ れ る . こ の SOP の 適切 なフ ィ ルタ によ って , ジ ェ ネ リ ッ ク で も 稀 で も な い パ タ ー ン が う ま く 選 択 さ れ た . そ の 結 果 , 意 味 ド リ フ ト を 抑 え つ つ 多 く の イ ン ス タ ン ス が 獲 得 で き た た め , こ の よ う な 結 果 に な っ た と 考 え ら れ る .

5. お わ り に

本 研 究 で は , ク エ リ ロ グ を コ ー パ ス と し た , ブ ー ト ス ト ラ ッ ピ ン グ に よ る 意 味 知 識 獲 得 の 改 善 手 法 を 提 案 し た . パ タ ー ン 選 択 時 に フ ィ ル タ リ ン グ を か け る こ と に よ っ て , 意 味 ド リ フ ト を 抑 え つ つ , 多 く の 正 解 イ ン ス タ ン ス を 抽 出 す る こ と が で き た . 我 々 は , Simpson 係数 を用 いてフ ィル タリ ングを か け る 手 法 と ,SOP によ って フィ ルタリ ング をか ける手 法 を 提 案 し , 既 存 手 法 と の 比 較 実 験 を 行 っ た . Simpson 係 数 を 用 い た 手 法 で は , ベ ー ス シ ス テ ム Tchai よ り も 適 合 率 で 約 1. 17 倍 の 精 度 向 上 を あ げ る こ と が で き た . 不 正 解 イ ン ス タ ン ス の 混 入 を 避 け た い タ ス ク に お い て は ,こ の 手 法 が 有 効 で あ る と 考 え ら れ る . 一 方 , 再 現 率 は SOP を用い た手 法 よ り少し 劣る ので , 正 解 イ ン ス タ ン ス を 数 多 く 取 得 し た い タ ス ク に は 向 か な い と 考 え ら れ る . SOP を 用 い た 手 法 で は , 再 現 率 , F 値 に お い て 最 も 良 い 成 果 を あ げ る こ と が で き た .特 に ,F 値では Tchai よ り 1.26 倍高 い精 度で の抽出 を行 うこ とがで きた . SOP を 適 用 す る こ と で ,ブ ー ト ス ト ラ ッ ピ ン グ に お い て 特 有 の 意 味 ド リ フ ト 問 題 と , 共 起 頻 度 を 測 る 指 標 に お い て 特 有 の 稀 な 共 起 を 過 大 評 価 す る 問 題 を , う ま く 回 避 し た こ と が 精 度 向 上 に つ な が っ た .今 回 は Tchai に お け る 適 用 で あ っ た が , ブ ー ト ス ト ラ ッ ピ ン グ を 用 い る 他 の 手 法 に お い て も SOP が 有 効 で ある の で はな い か と 考 え ら れ る . 今 後 の 課 題 と し て は , バ イ ワ ー ド 以 外 の ク エ リ へ の 適 用 が あ げ ら れ る . ま た , イ ン ス タ ン ス ひ と つ に 対 し て 複 数 の カ テ ゴ リ を 付 与 す る と い っ た こ と も 課 題 と し て あ げ ら れ る . 図 7. 芸 能 人 カ テ ゴ リ の 結 果 図 8. 提 案 手 法 と 既 存 手 法 の 比 較

文 献

[1] Patrick Pantel, Marco Pennacchiotti, “Espresso: Leveraging Generic Patterns for Automaticall y Harvesting Semantic Relations”, Proceedings of the 21s t International Conference on Computational Linguistics and the 44th annual meeting of the ACL, pp. 113-120, 2006

[2] 小 町 守 , 鈴 木 久 美 , “ 検 索 ロ グ か ら の 半 教 師 あ り 意 味 知 識 獲 得 の 改 善 (Improving Semi-supervised Acquisition of Semantic Knowledge from Quer y Logs) ” , 人 工 知 能 学 会 論 文 誌 , 23 巻 3 号 , pp. 217-225, 2008

[3] M. J. Cafarella, D. Downey, S. Soderland, and O.Etzioni, “KnowItNow: Fast, Scalable Information Extraction from the Web”, in EMNLP, 2005.

[4] O. Etzioni, M. Cafarella, D. Downey, A. -M. Popescu, T. Shaked, S. Soderland, D. S. Weld, and A. Yates, “Unsupervised Named-Entity Extraction from the Web: An Experimental Study”, Artificial Intelligence, vol. 165, pp. 91-134, 2005.

[5] Z. Ghahramani and K. A. Heller, “Bayesian Sets” , i n Advances in Neural Information Processing Systems, 2005.

[6] Richard C. Wang and William W. Cohen, “Language -Independent Set Expansion of Named Entities usin g the Web”, In Proceedings of IEEE International Conference on Data Mining (ICDM 2007), Omaha, NE, USA. 2007. 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 適合率(%) 再現率(%) F値(%) Tchai 提案手法① Simpson 提案手法② SOP 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 適合率(%) 再現率(%) F値(%) Tchai 提案手法① Simpson 提案手法② SOP

参照

関連したドキュメント

of Civil Engineering, Kanazawa University, Kodatsuno, Kanazawa, 920, Japan... Schematic

[r]

Department of Chemistry and Chemical Engineering , Faculty of Engineering, Kanazawa University; Kanazawa-shi 920 Japan The SN reactions of t-alkyl alcohols with

Department of Chemistry and Chemical Engineering, Faculty of Engineering, Kanazawa University; Kanazawa-shi 920 Japan Calcium, strontium, and barium alkoxides reacted with primary

Mapping Satoshi KITAYAMA and Hiroshi YAMAKAWA Waseda University,Dept.of Mech.Eng.,59‑314,3‑4‑1,Ohkubo,Shinjuku‑ku Tokyo,169‑8555 Japan This paper presents a method to determine

*2 Kanazawa University, Institute of Science and Engineering, Faculty of Geosciences and civil Engineering, Associate Professor. *3 Kanazawa University, Graduate School of

, Kanazawa University Hospital 13-1 Takara-machi, Kanazawa 920-8641, Japan *2 Clinical Trial Control Center , Kanazawa University Hospital *3 Division of Pharmacy and Health Science

LABORATORIES OF VISITING PROFESSORS: Solid State Chemistry / Fundamental Material Properties / Synthetic Organic Chemistry / International Research Center for Elements Science