• 検索結果がありません。

1 AND TFIDF Web DFIWF Wikipedia Web Web AND 5. Wikipedia AND 6. Wikipedia Web Ma [4] Ma URL AND Tian [8] Tian Tian Web Cimiano [3] [

N/A
N/A
Protected

Academic year: 2021

シェア "1 AND TFIDF Web DFIWF Wikipedia Web Web AND 5. Wikipedia AND 6. Wikipedia Web Ma [4] Ma URL AND Tian [8] Tian Tian Web Cimiano [3] ["

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

DEIM Forum 2015 B1-5

カテゴリごとの偏りを考慮した検索結果からの知名度推定

小紫 弘貴

田島 敬史

††

京都大学大学院情報学研究科 〒 606–8501 京都府京都市左京区吉田本町

††

京都大学大学院情報学研究科

〒 606–8501 京都府京都市左京区吉田本町

E-mail:

komurasaki@dl.kuis.kyoto-u.ac.jp,

††

tajima@i.kyoto-u.ac.jp

あらまし あるトピックについて Web 検索結果数が多ければ,そのトピックが有名あるいは重要であるととらえる共

通認識があり,その結果として検索結果数を情報の重要度などの指標として用いる研究が数多くある.しかし,実際

には検索結果数が多ければ有名あるいは重要であるというのは必ずしも正しくない.そこで本研究では,Web 検索結

果数と有名人の知名度との関係に着目し,検索結果数を用いて知名度を推定する手法を提案する.本稿ではまず,知

名度と検索結果数の相関を向上させる手法として,特徴語との AND 検索による検索結果数の絞り込みが有効である

ことを示した.そして AND 検索による絞り込みが有効であることと,使用した特徴語が知名度推定に適当でないこ

とから,有名人のカテゴリを利用した知名度推定を行った.その結果を受け,有名人の属するカテゴリ情報を用いて

Web 上への情報発信のされやすさを補正するモデルを設計し,知名度推定を行う.

キーワード

人気度,認知度,検索結果数,情報補正

1.

は じ め に

TwitterやFacebookといったSNSやブログなどのソーシャ ルメディアの普及,また,スマートフォンなどの携帯情報機器 が発達,普及したことによってWebが情報発信の場として身 近に利用されるようになってきている.それに伴い,以前は情 報発信をしなかった個人が情報発信を行うようになり,以前に も増してWebには膨大な量の情報が蓄積されている. この膨大な情報を蓄積したWebを,現実社会のセンサーで あると捉えてWeb上の情報から現実社会に関する情報や知識 を推定する研究が盛んに行われている.検索結果数を用いた研 究として,例えば松尾ら[5]は研究者のソーシャルグラフを生 成する手法を提案しており,また,Bollegalaら[2]は単語が持 つ意味の類似度を計算している.その結果,より多くの有用な 情報や知識をWebから自動的に引き出すことが可能となって きている. そういった研究においては,様々な語やトピックについての 現実社会における重要性や知名度を,Web上の情報の量,例え

ば図1に示したGoogleや,Microsoftの提供するBingなどの 検索エンジンから得られる検索結果数を用いて推測しようとし ているものが数多くある.例えばCimianoら[3]は検索結果数 を信頼性の根拠とした言語パターンの解析を行っている.つま り,検索結果数が多ければ,Web上に多くの情報が存在するこ とになり,そのトピックは現実社会でも重要であると考えられ ている. しかし,それらのトピックについての検索結果数が正確に Web上の情報の量を表しているとはいえず,また,Web上に おける情報の量と現実社会での重要性や知名度といったものに は差がある.Webが現実社会を正確に反映していない原因とし て,トピックの性質によってWeb上への発信されやすさは大 きく異なっており,現実社会での重要性や知名度に応じてWeb 上に情報が発信されるわけではないということが考えられる. これによって,現実社会での重要度や知名度と比べて多過ぎる, あるいはは少過ぎる検索結果数しか得られない場合があり,検 索結果数は現実社会での情報の量を近似できるものであるとは いえない. 例えば,ある有名人についての情報をWeb検索エンジンを 用いて収集した時,直感的には検索結果数が多ければ有名な人 物であると推測できるが,その有名人によっては現実社会での 知名度と比較して大きな検索結果数が得られることがある.こ の場合,有名な人とそうでない人の検索結果数が逆転している ということになる.図1の例であれば,検索結果数を比較する と4,730,000件と660,000件であり,「所ジョージ」よりも「篠 田麻里子」の方が検索結果数は多く,知名度が高いように思わ れる.しかし,実際の知名度調査の結果では,「所ジョージ」が 0.993,「篠田麻里子」が0.830となっており,「所ジョージ」の 方が知名度は高い.つまり,検索結果数と知名度が逆転してい るといえる.このことから,現実社会での重要性や知名度を, 単純にWeb検索エンジンによる検索結果数として求めること は出来ないということがわかる. そこで,本研究では有名人の知名度に焦点をあて,検索結果 数を利用した知名度の推定を行った.先に述べた通り,検索結 果数をそのまま利用しても,知名度を推定することは困難であ ると考えられる.その原因として,まず検索結果数は検索エン ジンによる予測値に過ぎず,また,タイミングによって大きく 変動するものであるということが考えられる.そうした問題を 解決する研究をSatohら[7]は行っており,正確な検索結果数 を得る手法を提案している.しかし,得られた正確な検索結果 数であっても,関連のほとんど無いページや同姓同名,広告な どのノイズによって,その検索結果数が現実社会での情報の量 とは一致しない. そこで,知名度と検索結果数の相関を高めるためには,検索

(2)

図 1 検索エンジンから得られる検索結果数の例 結果からノイズを除去することが有効であると考え,クエリ となる人物名と特徴語抽出によって得られた単語とのAND検 索によって検索結果を絞り込むことで,その人物と関連のない ページや広告などのノイズを除去することが出来ると考えた. ここで,特徴語とは有名人の特徴をよく表す語のことを指す. そして,絞り込んで得られた検索結果数から知名度の推定を 行った. 特徴語抽出の手法として,まず有名人それぞれの検索結果か らその有名人特有の特徴語を抽出するTFIDF,次にWeb全体 と比較して有名人特有の単語を抽出するDFIWFを提案し,実 験を行った.また,有名人の性質を端的に表しているといえる カテゴリを指す語を使用して検索結果を絞り込み,知名度を推 定する手法を提案する.さらにカテゴリ情報やWikipediaの 情報を用いて有名人がどの程度Webに登場しやすいかを表す Webとの親和性,及びその人物についての情報が最近どの程度 あるかを表す話題性を推定し,これらと知名度から検索結果数 を算出するモデルを構築する.このモデルを用いた知名度推定 の実験を行い,提案手法の妥当性を検証する. 以下に本稿の構成を示す.本章では研究の背景,およびその 目的を示した.第2.章では関連研究を紹介し,本研究の位置づ けを明確にする.第3.章では単純な検索結果数と知名度の関 係を調査した結果を述べる.次に,第4.章では有名人ごと,あ るいは有名人全体での特徴語抽出を行い,得られた特徴語との AND検索によって得られた検索結果数と知名度との関係を分 析する.第5.章では有名人のカテゴリをWikipediaから取得 し,得られたカテゴリ語とのAND検索結果を用いた知名度推 定を行った.第6.章ではカテゴリとWikipediaの情報を用い て有名人のWeb親和性と話題性および蓄積時間を推定し,こ れらと知名度から検索結果数を算出するモデルを構築する.そ して、第7.章でこのモデルを用いて学習を行い,知名度推定の 実験を行う. 最後に,第8.章では本稿のまとめと,実験結果をもとに問題 解決の発展的な手法への展望を述べる.

2.

関 連 研 究

検索エンジンを利用して人物の知名度スコアを測る研究とし てMaら[4]の研究が挙げられる.Maらの研究では,クエリと して人物名を検索エンジンに与え,得られたメタデータ,例え ば検索結果数やURL,スニペットなどの情報を利用して知名 度スコアを算出することで,検索結果ランキングの改善を目指 した.本研究では検索エンジンから得られるメタデータの中で も,検索結果数に絞って,知名度と結びつけることを目指して いる点で異なる. また,もともとのクエリに単語を足してAND検索を行うこ とで検索結果を絞り込む研究としてTianら[8]の研究がある. Tianらは,一般的な単語で検索を行うと膨大な結果が得られ てしまい,また,それを回避するためにより詳細なクエリで検 索を行うと結果が得られないといったことが問題であるとし, 適切に絞り込むためにもとのクエリと共起度の高い単語を足し ていくことで,必要な情報を失うことなく扱える程度の検索結 果数が得られるようになるとしている.Tianらの研究が情報 を失わないように検索結果を絞り込むことを目的としているの に対し,我々は絞り込みによって現実社会での知名度に見合っ たWeb上の情報の量を正確に見積もることを目的としている. 検索結果数を利用して現実社会における信頼性や正確性を測 る研究は数多く行われている.Cimianoら[3]は検索結果数を 用いて固有名詞の言語パターンを調査し,正しい注釈付けを行 うために利用した.松尾ら[5]は研究者のソーシャルネットワー クを構築するために,研究者の名前でAND検索を行って得ら れた検索結果数が多ければエッジを張るという手法を提案した. Bollegalaら[2]は単語と単語のAND検索によって得られた検 索結果数から共起度を計算し,さらにスニペット内の単語の出 現頻度を求めてSVMの特徴量として,単語と単語の意味の類 似度を計算する研究を行った.これらの研究のように検索結果 数が多いことを重要性,信頼性や正確性の基準としているが, 本研究ではそれが正しいかどうかの検証および考察を行う. また,検索結果数自体の正確性を検証する研究としてSatoh ら[7]やUyarら[9]の研究が挙げられる.Satohらは検索結果 数が検索を実行するタイミングによって結果が大きく異なるこ とを問題点として,収集したWebページ集合に対する検索結 果数と検索エンジンによる検索結果数との関係から検索エンジ ンによる検索結果数の正確性を評価した.UyarらはGoogle, Yahoo,Microsoftが提供する検索エンジンについて検索結果 数の概算アルゴリズムが異なることに着目し,一単語および複 数単語による検索を複数日で行い,検索結果数を観測すること によって各検索エンジンの正確性を評価した.SatohらとUyar らの研究では検索エンジンから得られる検索結果数の正確性を 向上させるための手法であり,本研究では検索結果数から現実 社会における情報の量である知名度を推定することを目的とし ている点で異なる.

3.

知名度と検索結果数の関係

本章では検索結果数と知名度の関係について述べる. 3. 1 知名度の正解データについて 本論文で正解データとして用いた知名度は,男女500人ずつ 計1000人分のデータ(注 1)を使用し,検索結果数は Microsoft が提供するBing Search API(注 2)を利用して取得した.データ

セットとして利用した知名度データのヒストグラムを図2に示

す.この図に示すように知名度は0.7から0.9程度に集中して

いる不均衡なデータセットであるといえる。なお,知名度が0.5

(注1):ビデオリサーチ社より提供

(3)

Histogram of Famousness Famousness F re qu en cy 0.0 0.2 0.4 0.6 0.8 1.0 0 50 100 150 200 2 8 5 8 13 7 12 11 12 15 20 3137 5461 97 115 169 184 139 図 2 知名度データセット 0 2 4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0 Hitcount.logarithm F amo usn ess 図 3 知名度と検索結果数の関係 を下回る有名人は93人しかいない.これは知名度調査が行わ れる対象である有名人は,既にある程度知られているような人 が多いということを表している. 3. 2 検索結果文書集合について 本論文で使用するデータセットは,上で述べた有名人1000

人と,それぞれについてBing Search APIを用いて検索結果を

上位20件取得した計20000文書を用いた.なお,形態素解析 器としてMeCab [1]を使用した. 3. 3 知名度と検索結果数の関係について 図3に知名度と対数をとった検索結果数の散布図を示す.こ の図からは,対数をとった検索結果数は5から7程度,つまり 10万件から1000万件程度の検索結果数が得られるということ がわかるが,知名度と検索結果数の間には強い関係があるとは いえない. そこで,表1に知名度と検索結果数の相関を示す.表に示す ように,ある人物の知名度とその人物の名前による検索結果数 の相関係数は非常に小さく,ここまで述べてきた通り,Web情 報の量は現実社会を正確に反映しておらず,単純に検索結果数 が多ければ有名であるとはいえない.また,検索結果数には大 きくばらつきがあったため対数を取ることでその差を小さくし た結果,相関係数は向上して0.220となったが,まだ小さく相 表 1 検索結果と知名度との相関係数 知名度との相関係数 検索結果数 0.0246 log(検索結果数) 0.220 関が高いとはいえない. そこで,検索結果として得られるページを人手で確認したと ころ,この原因として,本研究では検索結果には本人にあまり 関係のないページや同姓同名の別人に関するページなどのノイ ズが多く含まれているためであると推測した.次章以降ではそ のようなノイズを取り除くための手法を提案する.

4.

有名人についての特徴語抽出

第3.章で述べた通り,単純な検索結果数では知名度を推定す ることが難しいと考えられる.そこで,本章では各有名人につ いて検索を行い,得られたWebページの上位20件から特徴語 を抽出し,その語とAND検索することによって検索結果数を 絞り込んだ結果について述べる. 4. 1 TFIDFによる特徴語抽出 まず,本節では,特徴語抽出の手法として,TFIDF(term

frequency / inverse document frequency) [6]を用い,この有 名人の検索結果集合中に登場する単語についてスコアリングし, 得られた特徴語を用いて有名人の名前とAND検索を行った結 果について述べる. 4. 1. 1 TFIDFについて 本節では,特徴語抽出の手法として用いるTFIDFについて 説明する. 有名人集合をCとし,ある有名人ciについての検索結果文 書集合Diに登場する単語wについて,T Fw,iは,Di中にお ける登場回数とする.また,wが全有名人の検索結果文書集合 D,すなわち∑C i di 中においていくつの検索結果文書集合中 に登場するかをDFw,iとする.これは1000人の有名人につい て,それぞれ検索結果20件を1文書集合とし,計1000文書集 合においてwが何文書集合中に登場するかを表す.

そして,DFw,iを用いてIDFw,iIDFw ,i= log( |Di|

DFw,i

) (1)

として求める.

そして,これらのT Fw,iIDFw,iを用いて,T F IDFw,i

以下のようにして計算する. TFIDFw ,i= TFw ,i· IDFw ,i (2) このT F IDFw,iのスコアによって,他の有名人にはあまり登 場せず,有名人ciに多く登場する単語が上位に来ることとなる ため,有名人集合Cにおいて,ciを特徴付ける単語であると いえる. 4. 1. 2 実 験 結 果 3. 2節で述べたデータセットにおいて,有名人それぞれにつ いてTFIDFを適用してスコアが最大となった語を特徴語とし,

(4)

表 2 特徴語で絞り込んだ検索結果数 知名度との相関係数 検索結果数 0.0255 log(検索結果数) 0.212 特徴語と,有名人の名前とでAND検索結果を行い,得られた 検索結果数と,知名度との関係を表2に示す.この結果から, 特徴語による絞り込みが有効ではないといえる. この原因として,TFIDFによって取得された特徴語の一般 性にばらつきがあり,AND検索によって絞り込みすぎたもの, あるいはあまり絞れていないものが存在したためであると考え られる.例えば,「大島優子」の場合は「ゆうこ」という単語が 抽出され,そのAND検索結果数は13,300,000件であった.そ れに対して「松方弘樹」の場合は「立石警部」という単語とな り,結果は21件であった.このように,人によってはWeb上 において広く使われるような一般的な単語が選ばれたり,あま り知られていない単語が選ばれたりすることによって,検索結 果数が本人の知名度に関係なく,特徴語に強く影響されてしま うことがある.これらのことから,有名人ごとに異なる単語を 選んでしまうと知名度推定において効果的な絞り込みが出来な いことがわかった. 4. 2 DFIWFによる特徴語抽出 4. 1節ではTFIDFを用いて各有名人ごとに特徴語抽出を行 い,AND検索を行った.そこで,本章では有名人全体につい

てのDFIWF(document frequency / inverse web frequency) を用いて特徴語抽出を行う手法について提案する. 4. 2. 1 DFIWFについて 本節では,特徴語抽出の手法として用いるDFIWFについて 説明する.DFIWFはWeb上から有名人特有の単語を取得す るための手法である.有名人集合C中のある有名人ciの検索 結果文書集合をdi,そしてD ={d1, d2, . . . dn}とし,ある単 語wD中のいくつの検索結果文書集合に登場するかをDFw とする.また,wで検索して得られる検索結果数をW Fwとし, IW FwIWFw= log( 1 W Fw ) (3) として求める. そして,DF IW FwDFIWFw = DFw· IWFw (4) とする. このDF IW Fwによって,Dでは頻出であるが,Web上で は比較的出現頻度が少ないwが取得できる.つまり,このw はWeb全体と比較して有名人らしい単語であるといえる. 4. 2. 2 実 験 結 果 3. 2節で述べたデータセットについてDFIWFを適用し,特 徴語抽出を行った.得られた特徴語の上位3件それぞれと,有 名人1000人とでAND検索を行った実験結果を表3に示す. この表における相関係数とは,特徴語と1000人の有名人の 名前でそれぞれAND検索を行い,得られた検索結果数の対数 表 3 DFIWF で得られた特徴語 単語 DF WF DFIWF 相関係数 1 月日 1000 5940000 64.1 0.489 2 年月 1000 11300000 61.6 0.303 3 年月日 1000 12300000 61.3 0.304 をとったものと知名度との相関係数のことを指す.また,上位 5件についてはDFの値が全て1000になっているが,これは 全ての有名人に共通して登場する単語であることを表している. 第4. 1章の実験では各有名人に対して個別の特徴語を使用し たが,その特徴語が一般的な単語かどうかによって得られる検 索結果数が大きく変わってしまっていた.それに対し,DFIWF では全員に同じ単語を使用したことでそのばらつきがなくなり, 比較的適切に検索結果数を絞り込めたことが,TFIDFで抽出 した特徴語での実験結果である表2と比べて,やや良好な結果 が得られた要因であるといえる. し か し ,ま だ 最 良 の 結 果 で も 相 関 係 数 が 0.489 で あ り, DFIWFで得た特徴語を用いても,強い相関があるといえ る検索結果数を得ることは出来ていない.これは,有名人集合 において,含まれる有名人の性質が偏っていることが原因であ ると推測した.すなわち,表3に示した特徴語が,特定の性質 を持つ有名人と多く共起するような単語である可能性があり, そういった有名人の検索結果を絞り込むには適切ではあったが, そうでない有名人の検索結果数を絞り込むためには不適切で あった可能性があると考えた.表3に示した語であれば,「月日」 などはニュース記事が多い有名人ほど共起する単語であると考 えられ,話題の豊富な人や年齢の高い人が「月日」とのAND 検索結果数が多くなった.

5.

カテゴリ名との

AND

検索による知名度推定

第4.章では,TFIDFとDFIWFを用いて特徴語抽出し,検 索結果数を絞り込んだ.しかし,選ぶ単語がTFIDFの場合は 全員に別の単語,DFIWFの場合は全員に同じ単語を与えるこ とになり,単語によって検索結果数が絞り込まれすぎたり,ま た,有名人によっては絞り込むのに適切でない単語であったり するという問題が生じた. そこで,本章では絞り込みに使用する単語によって有利不利 が生じないようするため,全員に同じ単語を与えた絞り込みを 複数個の単語で行い,得られた検索結果数を利用して知名度を 推定する手法について述べる. 5. 1 カテゴリ名の抽出 本手法では,絞り込みに使用する単語としてカテゴリを指す 単語を用いることとした.カテゴリを表す語(以下,カテゴリ 語)はその有名人を端的に言い表す単語であると考えられるた め,絞り込みに有効であると推測した.なお、本研究ではカテ ゴリ語のデータセットを人手で作成した.今回用意したカテゴ リ語は、俳優、声優、映画演劇、歌手、音楽、お笑い、タレン ト、モデル、スポーツ、文筆業、評論家、ジャーナリスト、芸 術家、実業家、政治家の15個である。

(5)

5. 2 知名度推定手法 本節では,5. 1節で用意したカテゴリ語を用いて知名度推定 を行う手法について述べる.ある有名人についてのカテゴリ語 をそのままAND検索を行うと,カテゴリ語自体がWeb上で 一般的でない単語であった場合などに,検索結果数が適切に絞 り切れないという,第4.章で述べたTFIDFでの問題と同様の 問題が生じる. 例えば,あるカテゴリに属する有名人の検索結果文書集合内 には,そのカテゴリ語や関連のある単語が多く登場すると考え られる.しかし,そのカテゴリ語自体がWeb上で一般的でな い場合,つまりそのカテゴリが現実社会と比較してWeb上で はあまり言及されないようなカテゴリであった場合,そのカテ ゴリ語と有名人の名前とのAND検索結果数は必要以上に少な くなる傾向になると予想される.そこで,そういったカテゴリ 語とのAND検索結果数は得られた数値よりも重要であると考 える. また,現実社会よりもWeb上でよく言及されるカテゴリの 場合,そのカテゴリ語とのAND検索結果数は必要以上に多く なってしまう.従って,そのような場合のAND検索結果数は 少く捉えるべきであると考えた. そこで,上記の考えに基づき,本研究では絞り込みに使用す る単語による有利不利が生じないように,以下のようにして知 名度を求めた.カテゴリ語集合をTとし,有名人ciについて, tj∈ Tとの全ての組み合わせについてのAND検索を行い,検索 結果数hi,tj を取得する.そして有名人の知名度f amousnessi は,各カテゴリ語への重みをW ={w1, w2,· · · , wn}として famousnessi = w1 · hi,t1+ w2· hi,t2+· · · + wn· hi,tn

= nj=1 (wj· hi,tj) (5) として求める. (5)式のように全てのカテゴリ語とのAND検索結果数を利 用し,それに重み付けすることによって,絞り込みに使用する 単語によって有利不利が生じないようになると推測した.そし て,正解データである知名度を与え,得られた方程式を解くこ とによってW の値を決定する.得られたWを用いて各カテゴ リごとのAND検索結果数を与えて知名度を算出する. 5. 3 実 験 結 果 有名人1000人から無作為に500人を選択し,それらの用意 したカテゴリ語データセットを用いて,5. 2節で述べた手法に よって知名度推定を行った.なお本論文では,Leave-one-out交 差検定法,すなわち,499人の知名度及びカテゴリ語とのAND 検索結果数を用いてカテゴリ語への重みWを算出し,得られ たW を残った1人のカテゴリ語とのAND検索結果数に適応 し,得られた知名度と正解知名度とを比較する実験を500人全 てに対して行った.実験によって得られた結果を表5. 3に示す. また、比較手法として、有名人が所属するカテゴリとのAND 検索結果数のみを用いた知名度推定を行った。すなわち、第5 式におけるカテゴリ語への重みwiを、所属するカテゴリ以外 は0としたものである。 表 4 知名度推定の実験結果 比較手法 提案手法 平均二乗誤差 0.422 0.0357 正解知名度との相関係数 0.259 0.449 表5. 3に示した通り,推定知名度と正解知名度の平均二乗誤 差は0.0357、相関係数は0.449となっており、比較手法と比べ て良好な結果が得られた。このことから,カテゴリ語によって 絞り込んだ検索結果数を複数使用することが知名度推定におい て有効であるといえる. しかし,誤差がやや大きくなってしまった原因として,一部 の人物について知名度推定の結果が極端に大きかった,あるい は小さかったことが挙げられる.知名度推定の結果が大きく外 れた人物について詳しく見ると,検索結果数がうまく取得でき ておらず,有名人の名前とカテゴリ語でAND検索を行って得 られた検索結果数が0件であるようなケースがあった.検索エ ンジンが返す検索結果数はあくまで概算値あるいは推測値でし かないため,得られた検索結果数が正確なものではなかったこ とが原因と考えられる。また、これは第4.章で行った,特徴語 による検索結果数の絞り込みが有効でなかったことにも影響す ると考えられる.この問題への対策として,Satohら[7]の手 法などを用いて検索結果数自体の正確性を向上させることが有 効であるといえる.

6.

有名人の性質を考慮した知名度推定

5.章で行った実験結果より,有名人のカテゴリの情報は知 名度推定に有効であることがわかった.しかし,クエリ拡張に よって得られる検索結果数のみを用いた知名度推定では,これ 以上の精度向上が難しいと考えた.そこで,本章では検索結果 数と知名度との関係を,有名人の性質を用いて表現し,観測可 能なデータを用いることで知名度の推定を行なうこととした. 提案手法ではまず,カテゴリの情報を用いて有名人のWeb 上への登場しやすさを推定する.次に,検索結果数と関連が強 いと推測される有名人の話題の豊富さや,Web上に検索結果が 蓄積される期間の長さの推定を行なう.そして,これらと検索 結果数から知名度推定を行なうモデルを構築する手法について 述べる. 6. 1 有名人の性質 本節では検索結果数に影響を与える有名人の性質を、Web親 和性、話題性、蓄積時間の3つであると仮定する. 本節以降ではこれら3つの性質について述べ、これらを用い た知名度推定手法を提案する. 6. 2 Web親和性 本節では有名人のWeb親和性を推定する手法について述べ る.まず,有名人と共起する単語のベクトル,つまり有名人の 文書ベクトルを作成する.この文書ベクトルは有名人が所属す るカテゴリおよび,そのカテゴリへの帰属度から求める. そして,得られた文書ベクトルとWeb全体の文書ベクトル との類似度を計算し,得られた類似度が高ければ,Web上に有

(6)

名人の名前が登場する確率が高いといえる.このようにして, Webにおいてその有名人の名前がどの程度登場しやすいか,す なわちWeb親和性を求める.なお,有名人の所属するカテゴ リは5. 3節で使用した,人手で作成したものとする. 6. 2. 1 カテゴリのベクトル あるカテゴリの文書ベクトルは,そのカテゴリ語をクエリと して検索エンジンに与えて得られる検索結果文書集合中に登場 する単語の出現頻度から作成する. カテゴリの文書ベクトルCategoryc は,全てのカテゴリ 語の検索結果内に登場する語をW = {w0, w1, . . . , wn},カ テ ゴ リ 語 c ∈ C で 検 索 し て 得 ら れ る 検 索 結 果 内 に お け る 単 語 wi の 出 現 頻 度fc,i を 値 と す る ベ ク ト ル と し た 時 , Categoryc={fc,0, fc,1, . . . , fc,n}と表される. 6. 2. 2 カテゴリへの帰属度 カテゴリへの帰属度は,有名人だけをクエリとして検索エン ジンに与えて得られる検索結果数,カテゴリ語のみでの検索結 果数,そして,有名人とカテゴリ語のAND検索による検索結 果数からダイス係数を計算して求める.有名人tの検索結果数 を|X|とし,カテゴリ語cの検索結果数を|Y |tcのAND 検索結果数を|X ∩ Y |とすると,帰属度bt,cは, bt,c= |X ∩ Y | |X| + |Y | (6) となる. 6. 2. 3 有名人の文書ベクトル 第6. 2. 1節と第6. 2. 2節では,有名人tが属しているカテゴ リcの文書ベクトルCategorycおよび有名人tのカテゴリcへ の帰属度bt,cを求めた.また,有名人本人と共起する単語を考 慮するため,その人物の検索結果文書から作成した文書ベクト ルを足し合わせる.その文書ベクトルVtは6. 2. 1節と同様に, 単語wiを次元にとり,出現頻度ft,iを出現頻度を値とすると、 Vt={ft,0, ft,1, . . . , ft,n}のように表される. カテゴリcのベクトルCategorycと,有名人tのカテゴリc への帰属度bt,cに加え,有名人の検索結果文書から作成したVt を用いて,有名人tの文書ベクトルCelebritytは,有名人tが 属しているカテゴリ全体をCtとした時,以下の式で求める. Celebrityt= ∑ c∈Ct (bt,c· Categoryc) + Vt (7) 第7式で得られるCelebritytは,有名人が所属するカテゴリ と関連の強い単語にカテゴリへの帰属度を重みとして与え,さ らに有名人の検索結果に登場する単語,つまり有名人と共起す る単語を足し合わせることで得られる.この有名人の文書ベク トルCelebritytは,有名人と共起する語を次元とし,共起する 確率を値とするベクトルとなる. 6. 2. 4 Web親和性推定 本節では第7式で得た有名人の文書ベクトルを用いて,Web 親和性を求める手法について説明する.有名人の名前がWeb上 に登場しやすいということは,有名人と共起しやすい単語が多 く登場していると考えられるため,有名人と共起する確率が高 い単語がWeb上にどの程度登場するかを求めることで,Web 親和性が推定できる.Web上にそれらの単語がどの程度登場す るかを計算するために,第7式で得られる有名人の文書ベクト ルと,Webを構成する各Webページとの類似度を計算する. 有名人の文書ベクトルとWebページの類似度を計算するに あたり,まずWebページの文書ベクトルの作成方法について 述べる.あるWebページpの文書ベクトルP agepは,Vtと 同様に単語wiのWebページp中における出現頻度をfp,iと すると Pagep ={fp,0, fp,1, . . . , fp,n} (8) として表される. そして,第8式で得られたWebページpの文書ベクトル P agepと,第7式で得られた有名人tの文書ベクトルCelebrityt とのcos類似度simt ,pを以下の式で求める. simt ,p = Celebrityt· Pagep |Celebrityt| × |Pagep| (9) これによって得られたWebページpとの類似度simt ,p を Web全体に対して計算し,その平均をOccurrencet とする. Occurrencetは, Occurrencet= ∑P psimt,p |P | (10) として求める.Occurrencetは有名人tの名前がWeb上に登場 する確率を表現するため,これをWebへの出現確率と呼ぶ. そして,Occurrencet を用いて,有名人tのWeb親和性 WebAffinitytを, WebAffinityt= p1× Occurrencet+ p2 (11) のようにして求める.なお,式中のp1およびp2は学習により 決定する.これにより,有名人が所属しているカテゴリの情報 からWeb親和性を求めることが出来る. 6. 3 話 題 性 本節では第6. 1節で説明した有名人の性質である話題性につ いて説明する.ある有名人tについての話題性NewsHooktは, 最近その人物に関する話題がどの程度あったかで表す.その人 物について話題が多ければ,新しくその人について知りたい人 が増加し,Webを使って情報を入手しようとする人が増える. 従って,その人物についてのWikipediaのページに対するア クセスが増加すると推測できる.また,最近の話題が豊富であ れば,新しい情報をWikipediaに反映させる回数,すなわち Wikipediaの編集回数が増加すると考えられる. あ る 有 名 人 t の Wikipedia の 1 年 間 の ア ク セ ス 回 数 WikiAccesstは,Wikimediaが提供しているページビューの 統計情報を利用して取得する.また,編集回数WikiEdittは, 各Wikipediaページの変更履歴から取得できる. これらのWikiAccesstおよびWikiEdittを用いて,有名人t の話題性NewsHooktを以下の式で求める.

NewsHookt= p3×WikiAccesst+ p4×WikiEditt+ p5 (12)

(7)

図 4 Infobox の例 6. 4 蓄 積 時 間 検索結果数とはWeb上にクエリとなる人物についての情報 が多ければ多いほど増加するものであるといえる.従って,活 動期間が長い有名人であるほど,検索結果数は増加し,知名度 も高くなる傾向にあると推測できる. そこで,本節では,有名人の年齢やグループを結成してから の経過時間などによって,検索結果数が変化する点に着目し, その年齢や経過時間,つまりWeb上にその人物についての情 報が蓄積する期間について述べる.なお,その期間のことを蓄 積時間と呼ぶ.蓄積時間は,年齢が高ければ長く,若ければ短 くなるといえる.また,有名人の中にはコンビやグループで活 動しているものもあり,そういった人物達についてはグループ を結成した時からの経過時間が蓄積時間となる. 本研究では,蓄積時間をWikipediaの有名人のページから 取得することとする.図4の黒枠で囲んだ部分で示すような, Wikipediaにはinfoboxと呼ばれる,記事のある側面について の要約情報,あるいは基礎情報を提供する事を目的とした,記 事の右上に配置する形の規定フォーマットの表が存在する.我々 は,infobox内に登場する日時の中から最も古い日時を抽出し た。ほとんどの有名人については最も古い日時として生年月日 が,また,複数人のグループで活動している人たちについては 結成した日時やグループを結成した日時が抽出できる. そして,有名人tについて得られた日時から現在までの経過 日数daystとした時,蓄積時間AccumulateDurationtAccumulateDurationt= p6× dayst+ p7 (13) として求める.式中のp6およびp7は決定すべき変数となって いる. 6. 5 知名度推定モデル 本 節 で は 第 6. 2節 と 第 6. 3 節 ,第6. 4 節 で 説 明 し た 有 名 人 t の Web 親 和 性WebAffinitytNewsHookt お よ び

AccumulateDurationtを用いた知名度推定手法について述べる. まず,ある有名人についての検索結果数がどのようにして求 められるかについて述べる.検索結果数は,Web上に情報発信 がなされることで増加するものである.従って,情報が豊富で あり,かつWeb上にそれが発信されやすいほど検索結果数は 多くなる.また,情報発信を行なう人が多ければ多いほどWeb 上に発信する人も多くなるため,検索結果数は多くなると推測 できる.そのようにWeb上に情報発信がなされることでWeb ページが増加し,検索結果数が大きくなるが,情報発信がなさ れる期間が長ければより検索結果数は大きくなるといえる. 以上のことを踏まえ,Web親和性、話題性、蓄積時間、検 索結果数の4つの要素を用いて知名度を導くモデルについて述 べる. あ る 有 名 人 t の 知 名 度 を Famousnesst,検 索 結 果 数 を HitCountt と し た 時 ,こ れ ら と WebAffinitytNewsHookt

AccumulateDurationtとの関係は

HitCountt=Famousnesst× WebAffinityt

× NewsHookt× AccumulateDurationt (14) と表される.この式は,先ほどの議論を最も単純に表現したモ デルといえる. そして,第14式を変形することで,知名度Famousnesstを 推定する式が得られる. Famousnesst= HitCountt

WebAffinityt× NewsHookt× AccumulateDurationt

(15) このようにして得られた第15式のWebAffinitytNewsHooktAccumulateDurationt をそれぞれ第11式, 第12式, 第13 式で置き換え、実データを与えて学習を行い、p1からp7を決 定する. また,4. 2で述べたように,DFIWFで抽出した特徴語を用 いた検索結果の絞り込みによって,検索結果数と知名度との相 関を向上させることが出来る.そこで,第15式のHitCountt に対して,DFIWFによって得られる特徴語で絞り込んだ検索 結果数を与えることとする.これによってノイズによる影響を 軽減することが出来る.決定したパラメータを第15式に与え ることで知名度の推定を行なう.

7.

実験および考察

本章では第15式を用いた知名度推定実験を行い,提案手法 の有効性を検証し,その結果に対する考察を述べる. 7. 1 実験の概要 まず本稿で行った実験の概要について述べる.実験において 正解データとして利用する知名度は,第3. 1節で述べたもの用 いる.検索結果数については 第3. 2節で述べたものと,第4. 2 節で述べたDFIWFを用いて得られた特徴語である「月日」と のAND検索によって得られた検索結果数の2パターンを用い た.これらをそれぞれ 検索結果数(単純) 検索結果数(DFIWF) として以降表現する. 単純な検索結果数を用いるものと,特徴語による絞り込みを 行って得られる検索結果数を用いるものとで比較を行うことに よって,検索結果の絞り込みが知名度推定において有効である ことを検証する. 本 実 験 で は 話 題 性 の 推 定 に お い て ,第12式 で 利 用 す る Wikipediaのアクセス数および編集回数を収集する期間は, 2013年1月1日から2013年12月31日までの1年間を対象

(8)

表 5 Result of estimation 検索結果数(単純) 検索結果数(DFIWF) 平均二乗誤差 0.0300 0.0243 相関係数 0.470 0.592 0.0 0.5 1.0 1.5 0.0 0.2 0.4 0.6 0.8 1.0 Estimate C orre ct 図 5 検索結果数 (単純) 0.0 0.5 1.0 1.5 0.0 0.2 0.4 0.6 0.8 1.0 Estimate C orre ct 図 6 検索結果数 (DFIWF) とした.また,蓄積時間を第13式で求める際のdaystは,有 名人tについて得られた生年月日,あるいはグループ結成時か ら2013年12月31日までの経過日数として取得する. これらの観測可能なデータを第15式に与えることで変数p1 からp7を決定する.変数の決定方法として,最小二乗法を用 いる.変数に初期値としてランダムな値を与えた後に最小二乗 法を用いて誤差が最小となるように学習を行い,局所解として 変数が得られる.最小二乗法では初期値によって出力が変化す るため,複数回実験を行なうことで最適解を発見することとし た.精度の測定方法として,Leave-one-Out交差検定法を採用 した. 7. 2 実験結果および考察 本節では知名度推定実験の結果について述べる.まず,実験 の結果,単純な検索結果数得られた平均二乗誤差及び相関係数 を表5に示す.また,単純な検索結果数を用いた推定知名度と 正解知名度との散布図を図5に,およびDFIWFで絞り込んだ 検索結果数を用いた結果の散布図を図6に示す. 表5に示すように,平均二乗誤差と正解知名度との相関係数 のどちらも,DFIWFで絞り込んだ検索結果数を用いたものの 方が良好な結果となった.平均二乗誤差は0.0243となり,第 5. 3で行った実験によって得られた0.0357よりも大幅な向上が 見られた.また,正解知名度と推定知名度との相関係数は0.592 となり,同様に第5. 3節で得られた0.499より向上した. 図5および図6を見ると,どちらも知名度が低い有名人に対 する推定において誤差が大きくなっていることがわかる.これ は第3. 1節で述べたように,今回使用したデータセット内には 知名度が低い有名人が少ない不均衡なものであったため,知名 度が低い有名人に対して適切なパラメータを学習することが出 来なかったといえる.

8.

本研究では,Web上で得られる検索結果数が多ければ,現実 社会において知名度が高いという暗黙の共通認識が必ずしも正 しくない点に着目し,検索結果数と知名度との歪みを補正し, Web上の情報を用いて知名度を推定する手法を提案した. 特徴語を用いたクエリ拡張によって、知名度と検索結果数の 相関を向上させることが出来た。そして、有名人の性質と検索 結果数から知名度を導くモデルを提案し、実験の結果、その有 効性を示した。 今後は有名人の知名度以外のトピックに対する知名度推定, さらに一般的な認知度推定における提案手法の有効性を検証 する. 謝辞 本研究はJSPS科研費26280112の助成を受けたもの である. 文 献 [1] Mecab. http://mecab.googlecode.com/svn/trunk/mecab/ doc/index.html.

[2] Danushka Bollegala, Yutaka Matsuo, and Mitsuru Ishizuka. Measuring semantic similarity between words using web search engines. www, 7:757–766, 2007.

[3] Philipp Cimiano, Siegfried Handschuh, and Steffen Staab. Towards the self-annotating web. In Proceedings of the 13th

international conference on World Wide Web, pages 462–

471. ACM, 2004.

[4] Qiang Ma and Masatoshi Yoshikawa. Ranking people based on metadata analysis of search results. In Sven Hartmann, Xiaofang Zhou, and Markus Kirchberg, editors, Web

In-formation Systems Engineering - WISE 2008 Workshops,

volume 5176 of Lecture Notes in Computer Science, pages 48–60. Springer Berlin Heidelberg, 2008.

[5] Yutaka Matsuo, Hironori Tomobe, and Takuichi Nishimura. Robust estimation of google counts for social network ex-traction. In AAAI, volume 7, pages 1395–1401, 2007.

[6] GERARD SALTON. Developments in automatic text

re-trieval. Science, 253(5023):974–980, 1991.

[7] Koh Satoh and Hayato Yamana. Hit count reliability: how much can we trust hit counts? Web Technologies and

Ap-plications, pages 751–758, 2012.

[8] Tian Tian, Soon Ae Chun, and James Geller. A prediction model for web search hit counts using word frequencies.

Journal of Information Science, page 0165551511415183,

2011.

[9] Ahmet Uyar. Investigation of the accuracy of search engine hit counts. Journal of Information Science, 35(4):469–480, 2009.

図 1 検索エンジンから得られる検索結果数の例 結果からノイズを除去することが有効であると考え,クエリ となる人物名と特徴語抽出によって得られた単語との AND 検 索によって検索結果を絞り込むことで,その人物と関連のない ページや広告などのノイズを除去することが出来ると考えた. ここで,特徴語とは有名人の特徴をよく表す語のことを指す. そして,絞り込んで得られた検索結果数から知名度の推定を 行った. 特徴語抽出の手法として,まず有名人それぞれの検索結果か らその有名人特有の特徴語を抽出する TFIDF ,
表 2 特徴語で絞り込んだ検索結果数 知名度との相関係数 検索結果数 0.0255 log( 検索結果数 ) 0.212 特徴語と,有名人の名前とで AND 検索結果を行い,得られた 検索結果数と,知名度との関係を表 2 に示す.この結果から, 特徴語による絞り込みが有効ではないといえる. この原因として, TFIDF によって取得された特徴語の一般 性にばらつきがあり, AND 検索によって絞り込みすぎたもの, あるいはあまり絞れていないものが存在したためであると考え られる.例えば, 「大島優子」の場合
図 4 Infobox の例 6. 4 蓄 積 時 間 検索結果数とは Web 上にクエリとなる人物についての情報 が多ければ多いほど増加するものであるといえる.従って,活 動期間が長い有名人であるほど,検索結果数は増加し,知名度 も高くなる傾向にあると推測できる. そこで,本節では,有名人の年齢やグループを結成してから の経過時間などによって,検索結果数が変化する点に着目し, その年齢や経過時間,つまり Web 上にその人物についての情 報が蓄積する期間について述べる.なお,その期間のことを蓄 積時間と呼
表 5 Result of estimation 検索結果数 ( 単純 ) 検索結果数 (DFIWF) 平均二乗誤差 0.0300 0.0243 相関係数 0.470 0.592 0.0 0.5 1.0 1.50.00.20.40.60.81.0 EstimateCorrect 図 5 検索結果数 (単純) 0.0 0.5 1.0 1.50.00.20.40.60.81.0EstimateCorrect図 6 検索結果数 (DFIWF) とした.また,蓄積時間を第 13 式で求める際の days t は,有

参照

関連したドキュメント

・アカデミーでの絵画の研究とが彼を遠く離れた新しい関心1Fへと連去ってし

東京都は他の道府県とは値が離れているように見える。相関係数はこう

サーバー費用は、Amazon Web Services, Inc.が提供しているAmazon Web Servicesのサーバー利用料とな

経済学研究科は、経済学の高等教育機関として研究者を

) ︑高等研

教職員用 平均点 保護者用 平均点 生徒用 平均点.

災害復興制度を研究しようという、復興を扱う研究所と思われる方も何人かおっしゃ

世界規模でのがん研究支援を行っている。当会は UICC 国内委員会を通じて、その研究支