時系列データ次元圧縮方式の評価および業務適用性の考察
2
0
0
全文
(2) 4. 考察. 1,000,000 100,000 時間(秒). 10,000 1,000 100 10 1 128. 256. 512. 128. データ1 PAA. SVD. 256. 512. データ2. PAA+SVD(4). PAA+SVD(8). 図 1:次元圧縮処理時間の比較. 80 70. ヒット率(%). 60 50 40 30 20 10 0 128. 256. 512. 128. ID1 PAA. SVD. 256. 512. ID2 PAA+SVD(4). PAA+SVD(8). 図 2:ヒット率の比較(データ 1). 80 70 ヒット率(%). 60. 次元圧縮処理時間は、アルゴリズムの特性に より、PAA が最も短い。特に、検索時系列長が 長い場合、SVD は時系列長の自乗に比例して次 元圧縮時間が増加するため差が顕著になる。 一方、検索性能を決める要因となるヒット率 は、PAA が最も悪く、SVD と PAA+SVD はほぼ 同等の結果が得られた。PAA では、区間の平均 値を求めて次元圧縮を行うため、時系列データ の特性が失われる場合があり、類似しないデー タを候補解に含める可能性が高いことが原因と 推測される。特に、検索時系列長が長い場合は、 平均値を計算する区間も長くなり、この傾向が 顕著になると考えられる。 また、従来手法の組み合わせである PAA+SVD では、検索時系列長が長い場合の次元圧縮処理 時間を SVD よりは抑えつつ、かつ、ヒット率を SVD とほぼ同等に保てる可能性があることが得 られた。 本評価で得られた結果より、次元圧縮手法の 適用に関する指針として次のことが考えられる。 u 類似検索期間(検索時系列長)の指針 週単位あるいは月単位のように長期間で の測定データの類似性把握の目的では、 次元圧縮データ作成時間を考慮して PAA 又は PAA+SVD の適用を考える。 u 検索時系列の特性に関する指針 類似パターンが比較的多いと予想される 場合は、ヒット率を重視して、SVD 又は PAA+SVD の適用を考える。通常は安定し て運転されているが、稀に発生する特異 なデータの類似性を検索し異常検知を行 う場合は、類似データの総数は少ないと 考えられるため、ヒット率よりは次元圧 縮時間を考慮した PAA の適用を検討する。. 5. おわりに. 50 40 30 20 10 0 128. 256. 512. 128. ID1 PAA. SVD. 256. 512. ID2 PAA+SVD(4). PAA+SVD(8). 図 3:ヒット率の比較(データ 2) (測定環境) OS:Windows2000 Professional PC:Pentium4 1.6GHz/Memory 640MBytes. 本稿では、3 種類の次元圧縮処理方式について、 次元圧縮性能、検索性能の測定を行い、実デー タへの適用性について評価した。 今後は、対象データを拡張した評価を実施す るとともに、今回の評価で得られた結果から新 たな次元圧縮の方式を提案し、評価を行ってい く予定である。. 参考文献 [1] E.Keogh, K.Chakrabarti, M.Pazzani and S.Mehrotra: Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases, Knowledge and Information Systems Journal(2001). 3−38.
(3)
図
関連したドキュメント
※ 硬化時 間につ いては 使用材 料によ って異 なるの で使用 材料の 特性を 十分熟 知する こと
および皮膚性状の変化がみられる患者においては,コ.. 動性クリーゼ補助診断に利用できると述べている。本 症 例 に お け る ChE/Alb 比 は 入 院 時 に 2.4 と 低 値
性別・子供の有無別の年代別週当たり勤務時間
『国民経済計算年報』から「国内家計最終消費支出」と「家計国民可処分 所得」の 1970 年〜 1996 年の年次データ (
先に述べたように、このような実体の概念の 捉え方、および物体の持つ第一次性質、第二次
現時点の航続距離は、EVと比べると格段に 長く、今後も水素タンクの高圧化等の技術開
○齋藤第一部会長 もう一度確認なのですが、現存の施設は 1 時間当たり 60t の処理能力と いう理解でよろしいですよね。. 〇事業者
スペイン中高年女性の平均時間は 8.4 時間(標準偏差 0.7)、イタリア中高年女性は 8.3 時間(標準偏差