• 検索結果がありません。

大規模ログデータ分析エンジンの考察

N/A
N/A
Protected

Academic year: 2021

シェア "大規模ログデータ分析エンジンの考察"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

大規模ログデータ分析エンジンの考察

佐藤 重雄 東 辰輔 三菱電機株式会社 情報技術総合研究所

1.はじめに

近年、企業では、情報漏洩や不正アクセス防 止などの情報セキュリティ対策、あるいは、内 部統制に関する法整備への対応を目的として、 様々な種類の大量のログの蓄積および分析処理 が行われる傾向にある。大規模ログデータの分 析システムでは、分析処理性能の観点から、目 的や用途に応じて、蓄積されたログの一部を使 用した分析専用のデータベースを構築すること が行われている。 本稿では、ログ分析用データベースエンジン に必要な要件を定義し、要件の一つであるログ データとマスタデータの結合処理の評価結果に ついて報告する。

2.ログ分析システム

大規模ログ分析システムの構成例を図 1 に示 す。本システムは、以下の二つのデータベース から構成される。 (1) ログ蓄積用データベース 証拠保全などを目的として、ログをそのまま の形式で蓄積保存するデータベースである。多 様なログへの対応、高速検索・高速蓄積、ディ スクの利用効率向上などが必要とされ、これら の要件を実現するログ専用データベース[1]が提 案されている。 (2) ログ分析用データベース 分析の目的・用途に応じて、ログ蓄積用デー タベースから、抽出・変換処理を行って生成さ れるデータベースである。ログ蓄積用データベ ースには、発生したログがそのまま格納される ため、一般には非常に大規模なデータが格納さ れる。ログ分析処理では、目的により、使用す るログの範囲が異なり、通常は、一部のレコー ドや項目のみを使用した処理が行われるため、 データマートの位置づけとなる分析専用データ ベースを構築することが、迅速な分析処理には 効果的である。 このように、上記二つのデータベースは構築 の目的が異なるため、それぞれの目的に応じた 機能を有する必要がある。 ログ蓄積用 データベース 各種ログ ファイル データベース ログ分析用 抽出・変換 分析用 ツール ログ ログ ログ マスタ マスタ 図 1. 大規模ログ分析システムの構成図

3.ログ分析用データベースの要件

ログ分析用データベースエンジンに必要とさ れる要件を以下に挙げる。 (1) 高速な構築処理 1 日に発生するログは、1 テラバイトを超える 場合もあり、発生したログを短期間で分析用デ ータベースに反映させるためには、高速なデー タロード処理性能が要求される。 また、蓄積用データベースに比較して、デー タ規模は小さくなる傾向にあるが、データ圧縮 などによるディスクの利用率向上が望まれる。 (2) 分析用ツールとのインタフェース 分析用ツールを使用した分析処理を行うため、 標準 I/F(SQL、ODBC、JDBC など)のサポートが 必要となる。 (3) ログデータの高速検索処理 ログデータに対する処理は、追加、および、 検索・集計処理のみであり、更新などのトラン ザクション処理は発生しない。そのため、大規 模データに対する検索・集計処理に特化した性 能が要求される。 (4) ログデータとマスタデータの結合処理 分析処理では、単独のログデータに対する検 索・集計処理に加えて、ログデータとは別に用 意したマスタデータ(例:顧客マスタ)と結合 した処理も必要となる。ログデータは、追加の みが発生するが、マスタデータは、必要に応じ て追加・変更・削除が発生する。ログデータと マスタデータはその特性が異なるため、それぞ れの特性に応じた処理方式が必要とされる。

A Study of Analysis Engine for Large Scale Log Systems Shigeo Sato, Shinsuke Azuma

Mitsubishi Electric Corporation

1-359

1D-3

(2)

4.ログ分析用データベースの評価

統合ログ収集・分析システム LogAuditor(*1) LogAuditor/AQL をログ分析用データベースエン ジンとしたシステムの評価を実施した。本シス テムは、SQL、ODBC、JDBC の汎用 I/F の提供、デ ータ圧縮によるディスク利用率の向上を実現し ている。また、スケーラブルインテリジェント ストレージアーキテクチャ(SISA)[2]の適用、 集計処理の並列実行[3]により、CPU 数に比例した スケーラビリティを実現している。 本稿では、ログデータとマスタデータの結合 処理の評価結果について報告する。 ログデータとマスタデータの結合処理は、以 下のステップで実現する。 (Step1) ディスク上のマスタデータからデータを 読み出し、メモリ上に展開 (Step2) メモリ上に結合処理用の索引を生成 (Step3) 索引を使用してログデータとの結合処理 を実行 本システムで用いた結合処理用の索引は、図 2 に示すように、ハッシュと 2 分木で構成される。 Rec. No Key 値 Rec. No Key 値 Rec. No Key 値 Rec. No Key 値 Rec. No Key 値 ハッシュ 索引部 Key 値 データ部 属性値 図 2. 結合処理用索引の構造 上記索引を用いた結合処理時間(結合処理の Step3)の特性を図 3 に示す。図 3 は、マスタデ ータ件数が 1 万件~1000 万件の 6 パターンに対 して、ログデータ件数を変化させた場合の結合 処理時間を測定した結果である。図 3 より、本 システムの索引を用いた結合処理時間は、ログ データ件数にほぼ比例することが確認された。 また、結合前処理(Step1、Step2)の時間が 全体処理に占める割合と、マスタデータ件数の 関係を図 4 に示す。結合前処理時間は、マスタ データサイズに依存して増加するため、マスタ データ件数が多く(100 万件以上)、ログデータ 件数が比較的少なく(1 億件以下)結合処理負荷 が小さい場合には、結合前処理が全体処理に占 める割合が大きくなり、全体の処理性能に影響 を及ぼす結果となる。 0 200 400 600 800 1,000 ログデータ件数(百万件) 処理 時間 1万件 10万件 100万件 200万件 500万件 1000万件 図 3. 結合処理時間の特性 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0 200 400 600 800 1,000 マスタデータ件数(万件) 5000万件 1億件 2億件 5億件 10億件 図 4. 結合前処理の全体処理に占める割合

5.おわりに

大規模ログデータ分析エンジンに必要な要件 を定義し、要件の一つであるログデータとマス タデータの結合処理の評価を行った。結合処理 性能向上のためには、結合前処理を検索処理の 事前に行う方式などが有効と考えられる。

参考文献

[1] 中村、他、大規模ログデータベースの実現、 第 68 回情報処理学会全国大会 講演論文集 (3) 29-30、2006 [2] 郡、他、検索機能を備えたストレージシス テムによる大規模並列全文検索、信学技報、 CPSY-2002-47、Aug 2002 [3] 佐藤、他、集計処理並列化に関する評価、 第 68 回情報処理学会全国大会 講演論文集 (3) 59-60、2006 (*1) LogAuditor : 様 々 な 形 式 の ログデータの収集・蓄 積・分析を可能とする製品。開発・販売は三菱電機イン フォメーションテクノロジー株式会社。

1-360

情報処理学会第69回全国大会

参照

関連したドキュメント

仕上の構成 仕上の構成は、表面処理、主仕上、仕上下地及び附合物よりなるものとする。 ア「 表面処理 」とは 、仕上表面の保護又は意匠

重回帰分析,相関分析の結果を参考に,初期モデル

Morgan, “Acoustic echo cancellation for stereophonic teleconferencing,” pre- sented at the 1991 IEEE ASSP Workshop Appls. Singal Processing Audio Acoustics, News Paltz,

計算で求めた理論値と比較検討した。その結果をFig・3‑12に示す。図中の実線は

の点を 明 らか にす るに は処 理 後の 細菌 内DNA合... に存 在す る

過水タンク並びに Sr 処理水貯槽のうち Sr 処理水貯槽(K2 エリア)及び Sr 処理水貯槽(K1 南エリア)の放射能濃度は,水分析結果を基に線源条件を設定する。RO

過水タンク並びに Sr 処理水貯槽のうち Sr 処理水貯槽(K2 エリア)及び Sr 処理水貯槽(K1 南エリア)の放射能濃度は,水分析結果を基に線源条件を設定する。RO

廃棄物の再生利用の促進︑処理施設の整備等の総合的施策を推進することにより︑廃棄物としての要最終処分械の減少等を図るととも