• 検索結果がありません。

時系列データ次元圧縮方式の評価および業務適用性の考察

N/A
N/A
Protected

Academic year: 2021

シェア "時系列データ次元圧縮方式の評価および業務適用性の考察"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)4E-4. 情報処理学会第66回全国大会. 時系列データ次元圧縮方式の評価および業務適用性の考察 佐藤. 重雄†. 高山. 茂伸†. 東. 辰輔†. 藤森. 敬悟†. 早川 孝之†. 白井 健治†. 三菱電機株式会社 情報技術総合研究所†. 1. はじめに プラントなどの現場においては、センサによ り一定間隔の時間で測定された大量のデータが 存在する。このような時間の経過とともに値の 変化するデータ(時系列データ)に対して、一 定期間での値の推移の類似性に着目することに より、時間による規則性の検出、将来の予測を 行うことが可能となる。時系列データの類似検 索処理では、類似度判定のために膨大な計算が 必要となるため、一般には次元圧縮手法により 計算量を削減することが研究されている[1]。 本稿では、従来の次元圧縮手法及び新たに提 案する手法を、実測データに適用した場合につ いて評価し、特徴、適用可能性について述べる。. 本稿では、PAA と SVD を組み合わせた新たな 手法(以降 PAA+SVD)を提案し、その特性の評 価も行う。PAA+SVD は、次の手順で次元圧縮を 行う。 (1) 時系列データを等間隔に分割し、PAA によ り次元圧縮を行う(第 1 段階の次元圧縮) (2) PAA の結果得られたデータに対して SVD を 実行することにより更に次元圧縮を行う (第 2 段階の次元圧縮). 3. 次元圧縮手法の適用性評価. 3.1 評価内容 蓄積された時系列データベース内から類似し た時系列データを検索する処理において、次元 圧縮の各手法の評価を実施した。 評価を行った次元圧縮アルゴリズムは、SVD、 2. 次元圧縮手法 PAA、PAA+SVD の 3 種類である。上記 3 種類の 時系列データ X = x1 ,..., x n と Y = y1 ,..., y n アルゴリズムについて、以下の二つの側面から の類似度を表す指標として、n 次元空間上でのユ 適用性の評価を行った。 ークリッド距離が用いられる [1] 。ここで、 X と u 次元圧縮性能 Y のユークリッド距離は以下で定義される。 時系列データから各アルゴリズムに従っ n て次元圧縮データを作成する時間の評価。 D( X , Y ) = ( xi - y i ) 2 u 検索性能 i =1 次元圧縮空間で得られる候補解に対する ある時系列データに対して、蓄積されたデー 検索解の割合(ヒット率と定義)の評価。 タから類似度の高いデータを検索するためには、 類似検索の種類は range queries を用い、時 すべてのデータに対するユークリッド距離計算 系列データ間の距離が指定された距離以 が必要となる。この計算量を削減するため、従 [1] 内にあるデータの検索処理を実行した。 来より以下の次元圧縮手法が提案されている 。 評価内容を表 1 に示す。評価対象データはセ l SVD(Singular Value Decomposition) ンサ等で測定された実際の時系列データである。 l PAA(Piecewise Aggregate Approximation) なお、PAA+SVD では、PAA を適用する間隔を 4、 これらの手法は次のような特徴を持つ。 8 の二通りにした測定を実施した(検索時系列長 PAA は SVD と比較して次元圧縮アルゴリズ が 128 の場合は PAA 適用間隔 4 のみ実施)。 ムでの計算負荷が少ないため、次元圧縮処 3.2 次元圧縮性能 理に要する時間が短い。 各データの次元圧縮処理時間を図 1 に示す。 次元圧縮空間で得られる候補解の中で、実 3.3 検索性能 際の検索結果となる割合は SVD の方が良い。 各データでのヒット率を図 2、図 3 に示す。 これは、次元圧縮後に検索解を検出する処 理性能は SVD の方が良いことを意味する。 表 1 評価内容 Evaluation of Dimensionality Reduction in Time Series 項目 内容 Database, and consideration of applicability for Business Data 対象データ規模 データ 1:1 時間毎 20000 時間 † Shigeo Sato † Shigenobu Takayama データ 2:1 時間毎 8760 時間 † Shinsuke Azuma 検索時系列長 3 種類(128/256/512) † Keigo Fujimori 検索対象時系列 2 種類(ID1、ID2) † Takayuki Hayakawa † Kenji Shirai 圧縮後の次元 8 に固定. å. †Mitsubishi Electric Corporation R&D Center. Information Technology. 3−37.

(2) 4. 考察. 1,000,000 100,000 時間(秒). 10,000 1,000 100 10 1 128. 256. 512. 128. データ1 PAA. SVD. 256. 512. データ2. PAA+SVD(4). PAA+SVD(8). 図 1:次元圧縮処理時間の比較. 80 70. ヒット率(%). 60 50 40 30 20 10 0 128. 256. 512. 128. ID1 PAA. SVD. 256. 512. ID2 PAA+SVD(4). PAA+SVD(8). 図 2:ヒット率の比較(データ 1). 80 70 ヒット率(%). 60. 次元圧縮処理時間は、アルゴリズムの特性に より、PAA が最も短い。特に、検索時系列長が 長い場合、SVD は時系列長の自乗に比例して次 元圧縮時間が増加するため差が顕著になる。 一方、検索性能を決める要因となるヒット率 は、PAA が最も悪く、SVD と PAA+SVD はほぼ 同等の結果が得られた。PAA では、区間の平均 値を求めて次元圧縮を行うため、時系列データ の特性が失われる場合があり、類似しないデー タを候補解に含める可能性が高いことが原因と 推測される。特に、検索時系列長が長い場合は、 平均値を計算する区間も長くなり、この傾向が 顕著になると考えられる。 また、従来手法の組み合わせである PAA+SVD では、検索時系列長が長い場合の次元圧縮処理 時間を SVD よりは抑えつつ、かつ、ヒット率を SVD とほぼ同等に保てる可能性があることが得 られた。 本評価で得られた結果より、次元圧縮手法の 適用に関する指針として次のことが考えられる。 u 類似検索期間(検索時系列長)の指針 週単位あるいは月単位のように長期間で の測定データの類似性把握の目的では、 次元圧縮データ作成時間を考慮して PAA 又は PAA+SVD の適用を考える。 u 検索時系列の特性に関する指針 類似パターンが比較的多いと予想される 場合は、ヒット率を重視して、SVD 又は PAA+SVD の適用を考える。通常は安定し て運転されているが、稀に発生する特異 なデータの類似性を検索し異常検知を行 う場合は、類似データの総数は少ないと 考えられるため、ヒット率よりは次元圧 縮時間を考慮した PAA の適用を検討する。. 5. おわりに. 50 40 30 20 10 0 128. 256. 512. 128. ID1 PAA. SVD. 256. 512. ID2 PAA+SVD(4). PAA+SVD(8). 図 3:ヒット率の比較(データ 2) (測定環境) OS:Windows2000 Professional PC:Pentium4 1.6GHz/Memory 640MBytes. 本稿では、3 種類の次元圧縮処理方式について、 次元圧縮性能、検索性能の測定を行い、実デー タへの適用性について評価した。 今後は、対象データを拡張した評価を実施す るとともに、今回の評価で得られた結果から新 たな次元圧縮の方式を提案し、評価を行ってい く予定である。. 参考文献 [1] E.Keogh, K.Chakrabarti, M.Pazzani and S.Mehrotra: Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases, Knowledge and Information Systems Journal(2001). 3−38.

(3)

図 1:次元圧縮処理時間の比較    01020304050607080 128 256 512 128 256 512 ID1 ID2ヒット率(%)

参照

関連したドキュメント

※ 硬化時 間につ いては 使用材 料によ って異 なるの で使用 材料の 特性を 十分熟 知する こと

および皮膚性状の変化がみられる患者においては,コ.. 動性クリーゼ補助診断に利用できると述べている。本 症 例 に お け る ChE/Alb 比 は 入 院 時 に 2.4 と 低 値

性別・子供の有無別の年代別週当たり勤務時間

『国民経済計算年報』から「国内家計最終消費支出」と「家計国民可処分 所得」の 1970 年〜 1996 年の年次データ (

先に述べたように、このような実体の概念の 捉え方、および物体の持つ第一次性質、第二次

現時点の航続距離は、EVと比べると格段に 長く、今後も水素タンクの高圧化等の技術開

○齋藤第一部会長 もう一度確認なのですが、現存の施設は 1 時間当たり 60t の処理能力と いう理解でよろしいですよね。. 〇事業者

スペイン中高年女性の平均時間は 8.4 時間(標準偏差 0.7)、イタリア中高年女性は 8.3 時間(標準偏差