ネットワークデータのオンライン異なり数解析(<特集>データ中心科学)

(1)

1．は　じ　め　に

さまざまな分野において観測データから仮説生成や科学発見を行う「データ中心科学」の例として，研究室のテーマの一つである「インターネットデータの異なり数解析」について紹介するチャンスをいただいた．最先端の研究に紛れてはなはだ単純な解析手法の紹介になり，若干の気後れを感じてはいるが，単純なアイディアでも応用を考えた場合に良い結果をもたらす事例として紹介させていただく．以下，2 章で本稿で紹介する「異なり数解析」というアイディアの基本を説明した後，初めに 3 章で社会科学への応用事例を，次に 4 章で工学的課題解決への応用事例を紹介する．2 章で説明するとおりアイディア自体は至極単純であるが，その分，社会科学から工学まで応用範囲は広い．また対象が大量のインターネットデータということで実装には若干の工夫も必要となるが，5 章で実装上の工夫について解説させていただく．

2．異なり数解析とは

「延べ数」という言葉はよく用いられる．何らかのデータの集計も延べ数で基礎となる数字を計測していることが多いように思う．「異なり数」とはその対義語である．図 1 に，ある WWW へのアクセス数の数え方として延べ数と異なり数を使った場合の例を示す．今，ある WWW サーバに A 氏から H 氏まで 8 名が 1 回ずつアクセスした場合，延べ数で数えれば 8 回である（図 1 左）．英語論文で「total number of access」と記されていたら通常はこちらの「延べ数」を意味している．一方，ある WWW サーバに X 氏と Y 氏が 4 回ずつアクセスした場合（図 1 右），延べ数で数えれば同じ 8 回であるが，異なり数で解析しようとした場合，「2 名からアクセスがあった」と数える． WWWサーバから見たアクセス負荷は図 1 の左右で同じ（同じ 8 回分のアクセス負荷）であり，ネットワークトラヒックの研究では延べ数を使った計測結果が利用されることが多いように思う（例えば [Fujiwara 13, Jung 02]）．しかし社会科学の解析として，例えば「熱狂的なファンが 2 名いてアクセスが 8 回になった」のと「8 名が 1 回ずつアクセスした」のでは意味が異なる．熱狂的少数のファンを対象にビジネスを考えるか，広く受け入れられる商品でビジネスを考えるか，計測した「数」の利用方法にも関係してくる．どちらで数を数えるべきか自体が検討テーマになり得る．一方，工学的な応用でも，この違いが重要な結果をもたらすことがある．事実，著者らが異なり数の研究を開始したのも，ネットワークの研究 [Ishibashi 06] に触発されてのことである．また 4 章で紹介するように，延べ数の計測ベースでは分析が難しいネットワーク関連問題の解決に，異なり数による計測結果が効果的である事例も存在する．結局のところ，分析対象の現象を捉えるデータ表現としてどちらが正しいかはケースバイケースであるが，本稿では，余り聞き慣れない「異なり数」について紹介する．

3．社会科学への応用

3･1　広告宣伝の効果分析携帯電話を端末としたインターネット経由の情報交換が一般的になっており，「ビッグデータ」やら「パーソ

ネットワークデータのオンライン異なり数解析

On-line Cardinality Analysis for Newtwork Data

吉田　健一

筑波大学大学院ビジネス科学研究科

Kenichi Yoshida Graduate School of Business Science, University of Tsukuba. [email protected]

三田村　健史

株式会社日本レジストリサービス

Takeshi Mitamura Japan Registry Services Co., Ltd. [email protected]

Keywords:

cardinality analysis,virus detection, social science. 「データ中心科学」

(2)

ナルデータ」は広告などのビジネスを進めるうえでの重要なバズワードになりつつある．例えば日本の広告宣伝費の内訳を見ると（図 2[電通 14]），インターネットへの広告投資は，ここ 10 年で急速に他のマスメディアへの投資を吸収し，テレビに次ぐ 2 番目の宣伝媒体となっている．旧来のマスメディアからインターネットに投資が移っている現象の背景は，ネットの情報拡散能力が高いことだけではない．ユーザが WWW 上の広告をクリックし，リンクされたページを閲覧した時点で初めて広告料金が発生するクリック課金型広告など，効果が直接観測できる宣伝形態が広まっていることも一因である．従来のマスメディアは投資効果が直接計測できなかったが，クリック課金型広告は，実際にサイトへ誘導できた人数や購入に至った人数まで計測できるため，投資効果を時間を追って確認できる．このような状況を考えると，単に「WWW に延べ何回アクセスがあった」という延べ数だけでなく，クッキーなどを使って「WWW に何人からアクセスがあった」とか「そのうち何人が何回以上アクセスし購入に至った」といった異なり数を意識した解析も重要になる．宣伝活動の結果「熱狂的なファン 2 名からのアクセスが 8 回あった」のと「8 名が 1 回ずつアクセスしてきた」では宣伝の効果（より直接的には売上げ）が異なる可能性があり，検討を要する．著者ら [三田村 10] は，DNS のログデータを利用して映画宣伝のために解説されたサイトへのアクセス回数（図 3）を分析し，サイトへのアクセス回数から映画初週の興業業績を推定する手法を報告したが，そこでも延べ数より異なり数で計測した値を使った解析の精度が良いという結果を得ている．図 2 に示したように，近年 WWW は重要な宣伝活動の場となっており，映画公開前に宣伝のための WWW サイトを立ち上げることは一般的となっている．ユーザがその映画に興味をもち宣伝のための WWW サイトにアクセスすると，パソコンや携帯の WWW ブラウザは URLを IP アドレスに変換するために DNS という仕組みを利用する．その結果，DNS に記録された利用記録を調べれば，何人ぐらいの人々がその映画に興味をもったか分析することができる． [三田村 10] では，DNS のデータを回帰分析し，映画の公開初週の興業収入予測を試みたが，説明変数として，前週までの DNS サイトに記憶されたアクセス数の延べ数より，同じアクセス数を異なり数の考えで数えた数値を利用したほうが予測誤差が小くなることを報告している．異なり数の考えを使ったほうが良い理由の一つには DNS のキャッシュが 2 回目以降のアクセスを省略することがある．この事例では，延べ数は何人がその映画サイトに興味をもったかという数字を直接測るだけでなく，キャッシュの仕組みでゆがめられた情報を補う計測手段にもなっている． 3･2　政　策　評　価映画の興業予測に DNS データを利用した事例は， DNSデータに含まれる異なり数がマーケティングなどのビジネスに利用可能なことを示した事例である．調べるサーバを選べば同じデータは，日本全国の動向を調べるといった社会調査や政策評価にも使える．著者らは DNSデータを使った大規模な社会調査事例として地上波デジタル放送の普及にエコポイント制度という政策の効果測定を試みた[Mitamura 13]．具体的には，DNSデータに基づき毎月公表される発行エコポイント数を主成分回帰分析（PCR）を用いて分析した．まず，エコポイント発行数を目的変数として，政府が家電エコポイント制度に関する情報発信をするために運営していた Web サイトやデジタル放送を普及促進するための Web サイト関連へのアクセス数（正確には IPアドレスの異なり数）を説明変数とした PCR により，これらのサイトへのアクセス（すなわち Web サイトの閲覧者の行動）がエコポイント発行数に対して有効な情報源となることを確認した．次に PCR の過程で抽出した各主成分と実社会での出来事との対応を調べ，各主成分のもつ意味の解釈（例えば「第 1 主成分は“TV Broadcastingに関わる出来事に関する主成分である」）を試みた．結果を図 4 に示す．図中の各バブルは，計測対象期間の各日付の主成分得点を示している（言い換えると，各日付の実社会での出来事を示している）．バブルカラーは，PCR 分析図 2　日本の広告費図 3　映画サイトへの日ごとの DNS アクセス回数

(3)

によって抽出した第 1 主成分（“TV Broadcasting”に対応した主成分．詳細は [Mitamura 13] を参照されたい）に対応しており，より大きなバブルサイズは“TV Broadcasting”に対するより強い反応を示し，バブルカラーも青（下）から赤（上）に近づくほど “TV Broadcasting”に対するより強い反応を示している．中心からの距離は，第 2 主成分（“switchover”）に対応しており，バブルがより外に向かうほど “switchover” に対するより強い反応を示している．またチャート底から左右に向かう角度は，第 3 主成分（“eco-points”）に対応しており，より左に向かうほど “eco-points”に対するより強い反応を示し，より右に行くほどより弱い反応を示している．バブルは計測対象期間において，特定の推移を示すので，その方向を赤い矢印として示している．図 4 に，2009 ～ 10 年を対象に分析した結果の一部を示す（2009 ～ 11 年にかけての全分析結果は [Mitamura 13]を参照されたい）．まず日本政府がアナログ放送を停止しデジタル放送へ完全移行することを公式発表した， 2009年 2 月 2 日～ 5 月 2 日までの期間（図 4（1）），バブルの位置が徐々に外側に移動し，“switchover”に強い反応が計測されている．この時期，“TV Broadcasting” と “eco-points”については，まだ強い反応は見られない．次に家電エコポイント制度が始まった 2009 年 4 月 23日から 2009 年 7 月 23 日までの期間（図 4（2）），“TV Broadcasting”，“switchover”について大きな変化は見られないが，“eco-points”についてはバブルの位置が左に移動し，強い反応を示し始めている． [Mitamura 13]では分析結果をまとめ，日本政府が行った 2009 ～ 11 年に及ぶアナログ放送の停止とデジタル放送への移行という政策において，家電エコポイント制度が，その目的の一つであった地上デジタル放送対応テレビの普及において人々の行動に効果的な影響を与えた経済政策であったことを議論している．ここに例示した政策評価のような，大規模な社会調査を恣意的な影響を排除しながら実施することは困難であった．またアンケート調査が主流の調査方法であったと考えるが，ここで示した結果は日ごとに集計した DNSデータから実施可能であり，政策のように継続性のある事象についても即時的に影響評価を実施可能な点が特徴となっている．検索エンジンのデータを使って同様な調査をすることも可能であるが，残念ながら大手検索サービスの生データは多くが海外にあり，DNS データは国内に残された貴重な情報資源の一つであるといえる．

4．不正侵入，ウイルス，DDoS の発見

4･1　基本となるアイディア広告宣伝活動を支える重要な社会インフラであるインターネットの運用管理は重要な研究テーマである．特にセキュリティ面での監視は社会からのニーズも高いと考える．図 5 は従来からインターネットの運用管理の基礎情報として用いられてきた帯域監視の例である．回線の利用状況や，アプリケーションごとの利用比率は延べ数による数値データであり，運用管理や将来の設備計画の基礎情報として欠くことのできない情報である．しかしながら，このデータからは不正侵入やインターネットウイルス，DDoS（Distributed Denial of Service）攻撃といったセキュリティ面での情報は得られない．例えば DDoS 攻撃は攻撃目標のサーバに多量のパケットを送って動作不全に陥らせる攻撃手法を用いるが，多量と言っても「1 サーバの受け取るパケットとしては多量」ということであり，図 5 のような情報だけから検出することは難しい．インターネット全体で見れば通常の WWW などのトラ（左から右への凡例に合わせてデータは中央から上下に広がっている）図 5　ネットワークトラヒックの計測（[RRDtool 15] より）図 4　地上デジタル放送とエコポイント（1）2/Feb/09-2/May/09 （2）23/Apr/09-23/Jul/09 観測期間中，徐々にバブルが外側に移動し，Web サイトの閲覧者が“switchover”に強い反応を示していることを示している．“TV Broadcasting”と “eco-points”については，まだ強い反応は見られない． “switchover”，“TV Broadcast-ing”についての大きな変化は見られないが，バブルの位置が左に移動し“eco-points”に対する反応が強まっていることを示している．

(4)

ヒックのほうがはるかに大量であり，その影に隠れてしまう．社会調査で使った異なり数というアイディアは，このような場合にも有効な監視手段を与えてくれる．具体的には延べ数だけでなく，異なり数も大きなパケットを探せば，異常なトラヒックとしてセキュリティに関わるパケットを検出できることが多い．例えば DDoS 攻撃であれば，攻撃目標となったサーバは多数の計算機からパケットを受け取るので，送信元 IP アドレスの異なり数が大きな，宛先 IP アドレスを監視していれば，検出できる（図 6 左）．インターネットウイルスに感染した計算機は次に侵入する計算機を探すために多くの計算機に通信（すなわち侵入の試み）を行う．インターネットウイルスは次々と新種が生れるが，多くの計算機に通信を行うという特徴は共通であり，宛先 IP アドレスの大きな送信元 IP アドレスを監視していれば，怪しげな計算機を検出できる（図 6 右）． 4･2 IP 層データの解析事例 WIDEの MAWI ワーキンググループは，彼らの管理下にあるバックボーンネットワークのトラヒックデータを，プライバシーを保護するために IP アドレスを別のアドレスに修正したうえで公開している [Mawi WG 14]．表 1 に上記アイディアを確認するための実験に用いた公開データの概要を示す．表 2 に該当 IP パケットの出現回数（延べ数）が 5 000 以上で，宛先 IP アドレスの異なり数が 3 000 以上のパケットについて，送信元 IP アドレスごとに，送信元ポート番号および宛先ポート番号の異なり数（数が少ないものはポート番号そのもの）を示す．送信元ポート番号の欄で「-」で始まる数字は，区別のために異なり数に－1 を乗じた数（元の異なり数は正値）であり，「-」で始まらない数値はポート番号そのものである．ここで ● 表中ほとんどの宛先ポート番号は不正アクセスに利用されることが多い，よく知られたポート番号である．したがって左欄の送信元 IP アドレスは，新しい侵入先を探してポートスキャンを行っている計算機のアドレスと解釈するのが自然である．　送信元自体が侵入されたいわば被害者の可能性があり，この表に載っていることが不正アクセスの実行犯発見に直結しないことは注意を要するが，計算機が不正侵入に使われている疑いは極めて強い． ● 宛先ポート番号の使い方を見ると使っているポート番号によっていくつかの種類に分類できることがわかる．例えば 3 番目の 118.146.40.243 は 4 000 種類以上の送信元ポートを使っているが，2 番目の 116.148.100は 1 種類（ポート番号 30546）のみを使っている．下から 2 番目と 4 番目の 53.201.26.185 と 25.16.193.38は送信元ポート番号と宛先ポート番号の使い方が似ており，同一または類似の不正侵入ソフトを利用している可能性が高い． ● いくつかの宛先ポート番号（例えば 1998）が不正侵入に使われているという話は余り聞かない．しかしながら，一緒に使われている他のポート番号から判断して，今まで知られていない不正侵入の手口（またはソフト）に利用され始めたポート番号（例えば侵入後の裏口として利用されるポート番号）である可能性が高い．上記の解析結果（例えば「1998 は新手の不正侵入手口に利用され始めたポート番号である）は，別途該当計算機や，ネットを通じて交換されているデータの中身を照査しなければ確定した事実とはいえない．しかし，上記手法は「ポート 53 は不正侵入に利用されることがある」といったドメイン知識なしに可能性の高い通信を検出できる点で，新規に現れる不正侵入の手口に自動的に図 6　異なり数による不正検知表 1　解析例に使用した MAWI データセット Dump File File Size Start Time End Time Total Cap. Size Number of packets Avg. Rate 201409181400.dump 7,072.59MB Thu Sep 18 14:00:00 2014 Thu Sep 18 14:15:00 2014 5,428.05 MB Cap. Len: 96 bytes 107,776,143（41,807.65 MB） 389.68 Mbps stddev: 64.42 M

表 2　不信な通信例

Source IP Source Port Number Destination Port Number 1.1.129.110 -4682 4500 116.238.148.100 30546 5900 118.146.40.243 -4596 13042 130.97.85.234 -64 161 141.189.206.76 22200 22201 22202 22203 22204 22205 22206 22207 22208 1723 147.114.60.60 -4671 443 151.110.157.90 -4764 53 207.236.240.111 80 21 22 209.111.88.96 5095 5060 210.128.139.0 -4570 3389 210.208.82.129 6000 22 210.235.48.51 12200 80 3128 8080 24.77.94.54 21662 25 25.16.193.38 12200 80 1998 3128 21320 3.248.197.219 6000 22 53.201.26.185 12200 443 3128 8080 79.162.250.208 -4599 53

(5)

追従していく可能性を秘めている． 4･3　アプリケーション層の解析事例前節の IP 層データの解析は，ネットワークに流れる IPパケットに頻出するパターンに関する異なり数を解析する手法を使っている．例えば 1 番上の例では送信元 IPアドレスが 1.1.129.110 で宛先ポート番号が 4500 のパケットが多量に流れていることを見つけたうえで，送信元ポート番号と宛先アドレスの異なり数が大きいことを見つけている．同様に下から 2 番目の例は送信元 IP アドレスが 53.201.26.185 で送信元ポート番号が 12200 のパケットが多量に流れていることを見つけたうえで，宛先アドレスの異なり数が大きく，宛先ポート番号は 443, 3128, 8080の 3（種類）であることを検出している（詳細のアルゴリズムを次章で説明する）．同じ手法はアプリケーション層の解析にも利用できる．簡単な例題は遠隔の計算機を利用するためのアプリケーションである ssh サービスにアクセスしてきた外部計算機，ユーザ名，パスワードの組合せに対するチェックである．表 3 と表 4 に，2014 年 5 ～ 9 月までに研究室に設置された ssh サーバに対する外部からのアクセスを分析した結果を示す．この ssh サーバはユーザが極端に少ないため，正規のアクセスの分離は容易であり，表 3,表 4 に記載された情報はすべて不正アクセスに関するものである．解析にあたっては標準の ssh daemon のログデータを利用した．このログデータにはユーザのパスワードを保護するために使用されたパスワードは記録されておらず＊1_，外部計算機とユーザ名のみから分析を試みた．表では，アクセス頻度の延べ数で足切りを行い，足切りの数を 1 000，500，100 回などに変えて解析した．表を見てわかるとおり 196.27.102.221，216.127.160.146， 62.113.238.125の 3 台はかなりしつこく不正侵入を試みている．また，ユーザ名としては admin, oracle, test などがよく試行されている．ここまでは通常の延べ数を使った解析でもできる．例えば Apriori [Agrawal 96] のようなオーソドックスな手法で十分である．異なり数を使った場合，上記の結果以外に ● 送信元 “216.127.160.146”は 48 種類のユーザ名を侵入の試みに使うのに対して，“196.27.102.221” は 747 種類のユーザ名を侵入の試みに使う． ● 他の送信元も 50 種類程度のユーザ名を使うものと， 500を超えるユーザ名を使うものに大別される．といった侵入に利用されているソフトウェアの特徴についての分析結果を得ることができる． sshサーバの解析例は不正侵入に関する事前知識を使っておらず，事前にパターンファイルの形で事前知識を用意しておく通常の不正検知の方法とは大きく異なる．使われたユーザ名の異なり数を見ただけで不正侵入に使われたソフトに複数の種類がある可能性を指摘できるのは，新種の侵入方法の検出に役立つ特性でもあり，異なり数解析の有効性を示している．また同様な解析は Telnetや FTP といった ssh に性格の似たアプリケーションから，DNS の Amplification attack や Botnet の制御パケット検出のような性格の違うアプリの解析まで，幅広く応用可能と考えられる．

5．大規模・高速処理の課題

5･1　 Vicar アルゴリズム巨大なサービスとして知られる Twitter のアクセスは 2014年末には 1 日当たり 5 億件を超えている [Twitter 15]．DNS-OARC [DNS-OARC 15] が 2013 年に収集表 3　不正侵入を試みた外部計算機のアドレス Threshold Attackers 1 000 196.27.102.221　216.127.160.146　62.113.238.125 500 119.7.14.114　14.63.225.57　175.119.227.143　 196.27.102.221　210.66.73.143　213.239.204.162 216.127.160.146　222.161.197.241　 62.113.238.125 100 106.3.43.109　108.166.204.26　113.171.10.1　 113.171.10.37　113.171.10.43　113.171.10.51　 113.171.10.7　114.215.136.211　119.7.14.114　 122.70.133.245　125.210.216.25　137.117.210.147 14.63.215.51　14.63.225.57　150.140.139.229　 175.119.227.143　180.179.50.46　183.62.109.4　 183.96.27.182　190.116.38.21　192.217.120.19　 196.27.102.221　198.211.2.237　199.217.113.211 202.131.140.101　203.202.241.245　208.64.253.98 210.57.212.36　210.66.73.143　211.144.82.162　 212.116.87.118　213.17.226.144　213.239.204.162 216.127.160.146　218.107.10.84　218.22.211.69　 218.240.21.154　220.128.78.134　221.179.89.90　 222.161.197.241　222.219.187.9　58.241.61.162　 59.125.251.210　61.188.185.203　62.113.238.125 96.4.34.46 表 4　不正侵入の試みに利用されたユーザ名 Threshold Attackers 500 admin　oracle　test 100 admin　ftptest　ftpuser　git　guest　info　mysql nagios　oracle　postgres　support　test　testuser ubuntu　user　webadmin　webmaster　www　 zabbix 50 a　admin　amanda　apache　bwadmin　cyrus　 db2inst1　demo　deploy　download　eric　ftp　 ftptest　ftpuser　git　guest　info　jboss　master mysql　nagios　office　or-acle　plesk　postgres student　support　teamspeak　teamspeak3　 temp　test　test1　test123　test2　test3　test4 teste　tester　testing　testuser　tomcat　toor　 ubuntu　user　web　webadmin　webmaster　 www　xiuzuan　zabbix ＊1 パスワードを出力するような改造は簡単である．その場合，侵入に良く利用される使ってはいけないパスワードの収集などができる．しかし，ログの管理を厳格化しないとセキュリティリスクを上げる側面もあり，今回は実験しなかった．

(6)

したデータによれば DNS の中核となるルート DNS サーバへは 1 日当たり 139 億件であり，それより多い． [Mitamura 13]では 3 年分のデータを分析の対象としており，異なり数という単純な計測であっても，この規模のデータが対象である場合，単純な処理ではすまない．特にインターネットのバックボーンの異なり数計測は単純な実装では現在の計算機の性能では処理が追い付かない．本章では大規模・高速な異なり数計測に関する実装上の課題を説明する．以下ではまず，前章の解析事例で用いた Vicar アルゴリズム [Yoshida 15] の概要を説明する．Vicar は頻出アイテム集合の発見アルゴリズムである Apriori を以下の 3 点で修正したアルゴリズムである． ● _Aprioriでは入力するトランザクションデータに含まれるアイテムは集合の要素として扱われる．例えば CSV ファイルの形式で入力されたデータは第 1 カラムに記載されたアイテムも第 2 カラムに記載されたアイテムも同じ扱いとなり，「トランザクションデータにそのアイテムが含まれている」として処理される．例えば AA BB CC DD AA DD CC BB は全く同じトランザクションデータが 2 回入力されたとして処理される．　一方 Vicar は，上記は別のトランザクションデータとして扱う．これは Vicar が「1 番目のアイテム（AA）は宛先 IP アドレスであり，2 番目のアイテム（BB/DD）は宛先ポート番号である」とカラムごとに種類の違うデータを処理することを目的にしているためである． ● 上述の入力から Apriori は {AA} {BB} {CC} {DD}

{AA,BB} {AA,CC} {AA,DD} {BB,CC} {BB,DD} {CC,DD} {AA,BB,CC} {AA,BB,DD} {AA,CC,DD} {BB,CC,DD} {AA,BB,CC,DD}の 15 種類のアイテム集合が 2 回ずつ出現したと判断する．一方 Vicar はアイテム集合としては {AA,2,CC,2} が 2 回出現したとする＊2_．　ここで第 2 カラムと第 4 カラムの「2」は各カラムに何種類のアイテムが出現するかの異なり数（ここでは BB, DD の 2 種類）を表す． ● 次節で議論するように，性能上の理由で厳密な処理はあきらめ，異なり数は概算であり，頻出アイテム集合の発見も不完全である．　これは，異なり数の計測結果は統計処理などで利用される基礎データを与えるもので，なるべく正確な値が要求されるものの，多少不正確でもデータがないよりはあったほうがよいという，割切りによる． Vicarのアルゴリズムを図 7 に示す．基本は単純な頻出アイテム集合の数え上げアルゴリズムであり，下線部が異なり数を数えるための修正部分で，新しい頻出アイテム集合を見つけたとき（例えば {AA,DD,CC} を {AA,1,CC}に DD を加えたものとして発見したとき）に，見つけた頻出アイテム集合のベースとなった頻出アイテム集合（この例では {AA,1,CC}）の新しく要素として加えたアイテム（この例では DD）の部分に記憶された異なり数を 1 増やす．上記処理のために Vicar は固定長のメモリを使って情報を管理している．表 5 に AA BB CC AA DD CC を入力したときにメモリの内容がどう変更されていくかを示す．表中「car」で示された欄が異なり数を記憶した部分で，それ以外は入力したトランザクションデータのカラム位置の処理が異なるだけで，ほぼ通常の頻出アイテム集合の抽出アルゴリズムでも記憶しているデータである． 5･2　高速なオンライン処理のためのメモリ管理頻出アイテム集合の発見アルゴリズムは組合せ爆発に対応するための高速化が重要な課題であり，いろいろなアルゴリズムが提案されている．ここで説明しているアルゴリズムは，それらに比べてナイーブなものであり，応用も IP パケットの情報（宛先 IP アドレス，宛先ポー＊2 厳密には表 5 に示す他のアイテム集合も検出する．図 7　Vicar アルゴリズム＞

(7)

ト番号，送信元 IP アドレス，送信元ポート番号の四つが重要）など，組合せ爆発もそれほど問題にならない応用を紹介しているが，残念ながらこのことは実装が簡単なことを意味しない．例えば 10 Gbps の回線に平均 500 byte のパケットが流れることを考えると，毎秒 250 万回（2.5 M＝10 G/ （500×8）回）のトランザクションが発生することになる．最低でも 1 トランザクション当たり 24_{－1 個の頻出アイ} テム集合の処理が必要となるので，頻出アイテム集合の処理だけで 3 750 万回のメモリ I/O が必要となる．実際には異なり数の処理のために，この数倍の I/O が流れるデータの種類（IPv4 アドレスの場合 232＋16＋32＋16_）を記憶するための大きさのメモリに行われる．著者の手元の計算機（PC2-6400 規格）で DRAM メモリにランダムアクセスした場合の限界は 107_回弱であった．最新の規格ではなく，現在ではもっと速い計算機もあるが，通常の実装方法を使ったのでは頻出アイテム集合の抽出だけで，最低でも実現可能な 4 倍のメモリ速度を必要とする．異なり数計測では，新たに受け取ったデータが既存のデータに含まれるか否か確認するための余分な処理もさらに必要となる．また，ここで必要とした回数はあくまで「理論的に最低」という数で，実際にプログラムをつくる場合，この数倍のアクセスが発生する．以上の考察のもと，著者達は誤差を含まない異なり数の計測を諦め，概算を求める方針（具体的には下記 2 方針）をとった． ● 図 8 にアイディアの中核であるメモリ管理の仕組み Hash2を示す．　Hash2 はデータをメモリに記憶する際に，記憶場 所の候補として記憶したいデータの hash 値を N 個 （著者らが経験的によく使うのは 4 個）計算し，計 算した N か所の中に，過去に同じデータが処理さ れた記録があればその記録をアップデートし，なけ れば N か所の中で最も利用頻度の低いデータを新 しいデータで上書きする．　古いデータが上書きされれば，当然そのデータに関する処理結果（そのデータの出現回数や関連する異なり数）は正しいものではなくなるが，頻度の低いデータの処理を省略し，処理速度を向上させる． ● 図 7 中 Function Itemsets の再起呼出しはベースとなる頻出アイテム集合が，あらかじめ所定回数以上出現したもののみで実施した．　出現頻度がべき則に従うデータは，1 回のみ出現するデータが多数を占める．所定回数以下しか出現していないアイテム集合をベースにした，それより要素の多いアイテム集合の処理を省略することで，速度を向上させる．上記 2 方針はいずれも結果に誤差を生じさせるが，ネットワーク関連のデータはべき則に従うことが多く，少数データの無視は，経験的には大きな問題を生じていない．またオフラインで処理時間に余裕があれ ば，Hash2 が計算する hash 値の個数 N を増やしたり， Function Itemsetsの再起呼出しを必ず行うなどで，誤差を小くできる．また bloom filter を使って Hash2 による誤差を計測する手段 [Yoshida 14] もある．少なくとも応用例として示した例ではうまく働いている．

図 8　Hash2 メモリ管理機構表 5　メモリ構成と記憶内容変化の例

# Freq 1st Item 2nd Item 3rd Item Itemset car val car val car val

1 1 － AA 1 － 1 － {AA} 2 1 1 －－ BB 1 － {BB} 3 1 1 － 1 －－ CC {CC} 4 1 － AA － BB 1 － {AA,BB} 5 1 － AA 1 －－ CC {AA,CC} 6 1 1 －－ BB － CC {BB,CC} 7 1 － AA － BB － CC {AA,BB,CC}

# Freq 1st Item 2nd Item 3rd Item Itemset car val car val car val

1 2 － AA 2 － 1 － {AA} 2 1 1 －－ BB 1 － {BB} 3 2 1 － 2 －－ CC {CC} 4 1 － AA － BB 1 － {AA,BB} 5 2 － AA 2 －－ CC {AA,CC} 6 1 1 －－ BB － CC {BB,CC} 7 1 － AA － BB － CC {AA,BB,CC} 8 1 1 －－ DD 1 － {DD} 9 1 － AA － DD 1 － {AA,DD} 10 1 1 －－ DD － CC {DD,CC} 11 1 － AA － DD － CC {AA,DD,CC}

(8)

6．ま　　と　　め

特集号にあたって研究室所属学生の研究を中心に紹介させていただいた．この記事を少しでも面白いと思っていただけたら，それは彼らの手柄である．面白い研究をしてくれた学生諸氏に感謝したい．またわかりにくい点があれば，彼らの独立した研究を強引に異なり数という一つの観点から紹介した吉田の責である．「異なり数」という考え方は，見方によっては当たり前すぎる考え方であり，文章処理などではことさら意識せずに使われている事例もある．例えば [大森 12] は工業製品の不具合事例文の，[長谷川 14] は Twitter の対話データの，基礎的な統計指標として異なり数に言及している．また [長野 12] は，WWW 閲覧履歴の分析に異なり数ベースの解析のほうが延べ数（彼らの用語では頻度）ベースの解析より優れていることを主張している．文章処理における TF/IDF という考え方は，個々の単語の出現頻度（延べ数）や文章内の単語種類（異なり数）など，単語の出現パターンまで反映した指標である．データの出現回数の数え方を工夫することが分野の基礎技術となっており興味深い．ネットワークに流れるパケットの分析などに「異なり数」を発展させ，TF/IDF 類似の数え方を工夫することは有望な発想にも思える．

◇　参　考　文　献　◇

[Agrawal 96] Agrawal, R., Mannila, H., Srikant, R., Toivonen, H. and Verkamo, A. I., et al.: Fast discovery of association rules., Advances in Knowledge Discovery and Data Mining, Vol. 12, No. 1, pp. 307-328（1996）

[電通 14] 日本の広告費（2014）

[DNS-OARC 15] DNS OARC Data Catalog, https://www.dns-oarc.net/oarc/data/catalog（2015），Accessed: 2015-01-15

[Fujiwara 13] Fujiwara, K., Sato, A. and Yoshida, K.: DNS traffic analysis─ CDN and the world IPv6 launch ─，J. Inf. Proc.,Vol. 21, No. 3, pp. 517-526（2013）

[長谷川 14] 長谷川貴之，鍜治伸裕，吉永直樹，豊田正史：オンライン上の対話における聞き手の感情の予測と喚起，人工知能学会論文誌，Vol. 29, No. 1, pp. 90-99（2014）

[Ishibashi 06] Ishibashi, K., Mori, T., Kawahara, R., Hirokawa, Y., Kobayashi, A., Yamamoto, K. and Sakamoto, H.: Estimating top n hosts in cardinality using small memory resources, 2014 IEEE 30th Int. Conf. on Data Engineering Workshops, p. 29 （2006）

[Jung 02] Jung, J., Sit, E., Balakrishnan, H. and Morris, R.: DNS performance and the effectiveness of caching, IEEE/ACM Trans. on, Networking, Vol. 10, No. 5, pp. 589-603（2002） [Mawi WG 14] MAWI Working Group Traffic Archive Accessed:

2014-09-20, _{http://mawi.wide.ad.jp/mawi/（2014）} [三田村 10] 三田村健史，吉田健一：DNS クエリデータに基づくコ

ンテンツへの関心度分析，信学論（B），Vol. 93, No. 10, pp. 1368-1377（2010）

[Mitamura 13] Mitamura,T. and Yoshida, K.: Analyzing people’s behavior using network data,経営情報学会誌，Vol. 22, No. 3, pp. 141-158（2013） [長野 12] 長野翔一，市川裕介，小林透：短期的な興味プロファイル構築に向けたウェブ閲覧履歴のクラスタリング方式の提案，信学論（D），Vol. 95, No. 4, pp. 734-746（2012） [大森 12] 大森信行，森辰則：不具合事例文からの製品・部品を示す語の抽出─語の実体性による分類─，信学論（D），Vol. 95, No. 3, pp. 697-706（2012）

[RRDtool 15] About RRDtool, http://oss.oetiker.ch/ rrdtool/（2015），Accessed: 2015-01-28

[Twitter 15] Twitter Usage Statistics Accessed: 2015-01-15, http://www.internetlivestats.com/twitter-statistics/（2015）

[Yoshida 14] Yoshida, K.: Memory management for big data mining ─ Cache hit rate estimation of LessFU, Procedia Technology, Vol. 17, pp. 114-121（2014）

[Yoshida 15] Yoshida, K.: Vicar package: Source and samples, http://www2.gssm.otsuka.tsukuba.ac.jp/staff/ yoshida/vicar/（2015） 2015年 1 月 29 日　受理

著　者　紹　介

吉田　健一（正会員） 1980年東京工業大学理学部情報科学科卒業．同年，株式会社日立製作所入社．1992 年 9 月博士（工学，大阪大学）．2002 年より筑波大学大学院ビジネス科学研究科教授．インターネット上の各種データを，機械学習の手法を使って解析する研究に従事．情報処理学会会員．三田村　健史（正会員） 2014年 3 月筑波大学ビジネス科学研究科博士課程修了．博士（経営学）．電機メーカー，電気通信事業者を経て，2005 年から株式会社日本レジストリサービスに勤務．現在，同社，技術本部本部長．DNS およびインターネットドメイン名に関する技術企画・研究，管理運用に従事．電子情報通信学会，情報処理学会各会員．