3. コンテクスト検索エンジンのインタフェース拡張
3.1. 従来システム V2 の構成
3.1.3. 季節変動・傾向変動・バースト的変動のスコア導入
本項では,動向情報の全体的な変動に着目した知見発見の観点から導入した季節変動,傾 向変動,バースト的変動について説明する
時系列データは,時系列解析によって傾向変動・循環変動・季節変動・不規則変動の4つ に分解することで,時間的変化の要因を考察することが容易となることが指摘されている [40].傾向変動は,長期間にわたって直線や曲線で表現できるような規則正しい変動である.
循環変動は,数年という長期間にわたって規則性をもって繰り返される変動である一方,季 節変動は,1年周期で季節と共に規則性をもって繰り返される変動である.また,以上3つ の変動では説明がつかない小規模な偶発的変動が不規則変動である.従来システム V1 で は,短期間の変動に着目した検索を行うことは可能であったが,長期的な変動に着目した検 索はできなかった.そこで,従来システムV2では上記で説明した変動に基づいて新たな特 徴的変動「傾向変動」「季節変動」「バースト的変動」を定義し,それらの変動によるソート を可能にしている.傾向変動は「徐々に話題性が高くなっている」「徐々に話題性が低くな っている」,季節変動は「周期的にある時期に流行している」,不規則変動は「一時的に流行 している」といった特徴を持つ動向情報の検索が可能となる.ここで,動向情報の中には集 計期間が短いものが存在するため,循環変動は除外している.また,不規則変動は具体的な 変動として定義することができないため,一時的に急上昇し,急下降するようなピークを持 つ変動として定義されている.
45
季節変動のスコアには,佐々木ら [41]の提案するピアソンの相関係数を用いた周期判別 得点を採用している.周期判別得点は,ピアソンの相関係数を時系列データに拡張し,ある 周期に対する周期性の強さを定量的に評価する手法である.与えられた時系列データの時 刻を𝑡1, 𝑡2, ⋯ , 𝑡𝑛(𝑛:時系列データのサンプルサイズ)とし,その時点におけるデータの値を 𝑧1, 𝑧2, ⋯ , 𝑧𝑛とする.窓幅𝑁𝑤としたとき,解析期間の開始位置から時間𝑎だけシフトした位置 の固定窓と,同じ窓幅で固定窓から時間𝑏だけシフトした位置の比較窓との相関の強さを,
時系列データに対して求める.すなわち,2組のデータ列{(𝑧𝑖+𝑎, 𝑧𝑖+𝑎+𝑏)}(𝑖 = 1,2, ⋯ , 𝑁𝑤)につ いて,式(1)のピアソンの相関係数を求める.ここで,𝑧,𝑧′はそれぞれ固定窓,比較窓にお けるデータの相加平均である.
(1)
周期判別得点は,窓幅を周期𝑇として比較窓を周期倍ずつシフトし,相関係数の値が連続 して閾値を超えた回数によって求める.式(1)において,𝑗1𝑇(𝑗1:0以上の整数)を固定窓の 位置,𝑗2𝑇(𝑗2:𝑗1+ 1以上の整数)を比較窓の位置とし,𝐶(𝑇, 𝑗1𝑇, 𝑗2𝑇)として考えるとき,周 期𝑇における周期判別得点𝑆𝑐(𝑇)の求め方は以下のようになる.このとき,𝑁𝑇 = ⌊𝑡𝑛
𝑇⌋とし,窓 幅𝑇のときの解析期間𝑡𝑛における窓の数を表す.コンテクスト検索エンジンにおいて,時系 列データは1年周期(𝑇 = 12ヵ月単位)で収集しているとは限らず,𝑡𝑛
𝑇は整数となるとは限 らないため,小数点以下を切り捨てている.
① 𝑗1= 0とし,固定窓を解析期間の開始位置とする.
② 𝑗2= 𝑗1+ 1から𝑗2を 1 ずつ増やし,比較窓を𝑇倍ずつシフトして𝐶(𝑇, 𝑗1𝑇, 𝑗2𝑇)を求める.
③ 𝐶(𝑇, 𝑗1𝑇, 𝑗2𝑇)が閾値𝜆𝑇を連続して超えた回数の最大値を𝑛𝑗1とする.このとき,𝑗2= 1に おいて閾値を超えた場合,1回余分に数える.
④ 𝑗1= 𝑗1+ 1として固定窓を1周期分シフトさせ,手順②,③を繰り返す.
⑤ 𝑗1= 0,1, ⋯ , 𝑁𝑇について𝑛𝑗1を計算し,𝑛𝑗1の最大値を𝑛𝑚𝑎𝑥とする.
⑥ 周期判別得点𝑆𝑐(𝑇)を,以下の式から求める.
⑥において,𝑛𝑚𝑎𝑥を𝑁𝑇で割ることで,周期判別得点を 0~1 に正規化する.𝑆𝑐(𝑇) = 0の とき,周期性が現れないことを示し,値が大きいほど周期𝑇の周期性が現れる範囲が広いこ
46
とを意味する.佐々木らは,周期性を調べる対象とする話題語の抽出に Kleinberg のバー スト解析アルゴリズム [42]を利用し,ある期間における単語のバーストの強さをバースト 度として定量化している.このバースト度の値が特定の時間間隔で 3 回以上類似した変化 を繰り返し示した場合「周期性がある」と定義している.一方で従来システムV2では,あ る期間において動向情報がバーストしているかどうかに関わらず,特定の時間間隔で 3 回 以上類似した変化を繰り返した場合「周期性がある」と定義している.ここで,閾値𝜆𝑇は文 献 [41]を参考にし,𝜆𝑇= 0.8として計算している.この閾値を超えることで,固定窓と比較 窓における時系列データが類似した変化であると言える.すなわち,「周期性がある」とす るには連続で3回以上閾値を超える必要があるため,𝑛𝑚𝑎𝑥< 3のとき𝑆𝑐(𝑇) = 0としている.
このとき,考慮する周期𝑇は3𝑇 ≤ 𝑡𝑛を満たす必要がある.
季節変動のスコアは𝑇 = 12とした時の周期判別得点とし,1年間を通して季節とともに規 則的な変動を示すかどうかの指標としている.例として,「夏」「夏祭」「夏みかん」の Wikipedia Page Viewについてのグラフをそれぞれ図 3.27,図 3.28,図 3.29に示す.「夏」
のように毎年7 月頃にピークを迎えているようなアイテムの季節変動のスコアは 1.0 であ る.一方で「夏祭」のよう基本的に毎年8月頃にピークを迎えているが,一部の期間で不規 則な変化をしているようなアイテムの季節変動のスコアは0.571であり,「夏」よりもスコ アが低くなっている.また,「夏みかん」のように周期性が見られないアイテムの季節変動 スコアは0となる.
図 3.27:「夏」のWikipedia Page Viewについてのグラフ
47
図 3.28:「夏祭」のWikipedia Page Viewについてのグラフ
図 3.29:「夏みかん」のWikipedia Page Viewについてのグラフ
48
傾向変動のスコアには,手塚ら [37]がランキング機能に用いる素性として増加・減少傾 向を判定する際に用いたピアソンの相関係数を採用している.時間と動向情報の値との相 関の強さを求めることで,時間的変化に対して値が増加傾向か減少傾向かを判定する.与え られた時系列データの時刻を𝑡1, 𝑡2, ⋯ , 𝑡𝑛(𝑛:時系列データのサンプルサイズ)とし,その時 点におけるデータの値を𝑧1, 𝑧2, ⋯ , 𝑧𝑛とする.ここで,𝑡,𝑧はそれぞれ時刻,値の相加平均で ある.2つの数値からなるデータ列{(𝑡𝑖, 𝑧𝑖)}(𝑖 = 1,2, ⋯ , 𝑚)についてピアソンの相関係数は 式(2)で定義され,相関の強さ𝑟は-1~1で示される.
(2)
この𝑟を傾向変動のスコアとして定義している.時間的変化による動向情報の値は,1 に 近いほど増加傾向,-1に近いほど減少傾向となり,0に近いほど増減の変化は少なくなる.
以上から,スコアを降順にしてソートすると増加傾向の動向情報を上位に,昇順にしてソー トすると減少傾向の動向情報を上位に表示可能となる.例として,「職務」「携帯電話」の
Wikipedia Page Viewについてのグラフをそれぞれ図 3.30,図 3.31に示す.「職務」のよ
うに徐々に値が大きくなっているアイテムの傾向変動のスコアは0.932である一方,「携帯 電話」のように徐々に値が小さくなっているようなアイテムの傾向変動のスコアは-0.813で ある.
49
図 3.30:「職務」のWikipedia Page Viewについてのグラフ
図 3.31:「携帯電話」のWikipedia Page Viewについてのグラフ
50
バースト的変動のスコアについて説明する.例として,野球の試合で点が入った場合,
Twitter の投稿などで「点が入った」という話題に関するテキストが大量に書き込まれる.
このように,ある話題に関するテキストが急激に増加する現象をバーストと呼ぶ [43].こ のバーストを検知する手法であるKleinbergのバースト検知 [42]は,文書が離散時間で送 られてくる状況において,バースト検知の対象となる単語が含まれる文書だけでなく,送ら れてくる全文書数が必要となる.データベース内のアイテム数が常に変動し,その集計期間 も一定ではないコンテクスト検索エンジンにおいては,ある期間においてバースト検知の 対象となるアイテムが示す値を獲得することは容易であるが,その期間における全てのア イテムが示す値を集計することは困難であるため,Kleinbergのバースト検知を利用するこ とは現実的ではない.また,コンテクスト検索エンジンでは「一時的に流行したアイテム」
といった特徴を持つ動向情報,すなわち瞬間的なピークを一度だけ迎える動向情報を検索 するため,バーストの開始と終了に着目する必要がある.そこで従来システムV2では,コ ンテクスト検索エンジンにおいて定義される「急上昇」「急下降」を利用して「バースト的 変動」を定義している.急上昇したのち,急下昇するような点が1点のみであれば,その点 をピークとする.すなわち,3ヵ月以内に変動幅の20%以上増加したのち,3ヵ月以内に変
動幅の20%以上減少するような点が1点のみであれば,その点の値をピーク𝑧𝑝𝑒𝑎𝑘とする.
また,ピーク以外の期間の値が小さいほど,一時的な流行であると考える.すなわち,動向 情報の全期間における値の平均値𝑧̅が小さいほど,バースト的変動のスコアが高くなると考 える.以上から,バースト的変動のスコアを式(3)のように定義する.ここで,𝑧𝑚𝑎𝑥は対象 となる動向情報の最大値,𝑧𝑚𝑖𝑛は最小値であり,(𝑧𝑚𝑎𝑥− 𝑧𝑚𝑖𝑛)で割ることでスコアを-1~1 に正規化している.
(3)
例として,「地震」「発光スペクトル」のWikipedia Page Viewについてのグラフをそれ ぞれ図 3.32,図 3.33に示す.「地震」のように1回だけ短期間で大きいピークを持つよう なアイテムのバースト的変動のスコアは0.957となる.一方,「発光スペクトル」のように 1回だけ大きいピークを持つが,ピーク後は徐々に減少するような変化をしているアイテム のバースト的変動のスコアは0.764であり,「地震」よりもスコアが低くなっている.
51
図 3.32:「地震」のWikipedia Page Viewについてのグラフ
図 3.33:「発光スペクトル」のWikipedia Page Viewについてのグラフ
52