大規模グラフ構造データからのコミュニティ抽出と重要度計算 : 高速化への取組みと応用(<特集>企業におけるAI研究の最前線)

(1)

1．は　じ　め　に

膨大なデータから有益な知識を発掘するデータマイニングの研究が盛んに行われており，企業においても，日々蓄積される大量かつ多様なデータ，いわゆるビッグデータをビジネスに活用しようとする動きが活発化している [情報通信白書 14]．特に最近，SNS などのソーシャルメディアの爆発的な普及に伴い，ビッグデータのもつデータ構造は，従来の単純な表構造から，Web 上あるいは実世界のどの場所で利用者が何を参照したか，などの，人・物・場所といった多様な情報のつながりを表現するグラフ構造へとシフトしてきている．グラフ構造がもつさまざまな情報のつながりを分析して隠された関係性を捉え，それらを新たなコミュニケーションの支援や利用者ごとにカスタマイズされた情報推薦へ利活用する期待は大きい．NTT ソフトウェアイノベーションセンタでは，多様なアプリケーションサービスを提供する基盤技術の研究開発の一つとして，ビッグデータをリアルタイムかつスケーラブルに分析する基盤技術やグラフ構造を高速に分析する技術の研究開発に取り組んでいる．グラフ構造は，「ノード」とノード間を結ぶ「エッジ」から構成されるデータ構造である．例えばカーナビや乗換案内では，交差点や駅をノード，道路や線路をエッジとしてグラフ構造を構築し，ノード間の移動コストの低い経路を出力する．人と人との交友関係をグラフで表現

大規模グラフ構造データからの

コミュニティ抽出と重要度計算

─高速化への取組みと応用─

Finding Communities and Ranking for Large-Scale Graphs

　─ Fast Algorithms and Applications ─

飯田　恭弘

日本電信電話株式会社 NTT ソフトウェアイノベーションセンタ

Yasuhiro Iida NTT Software Innovation Center, Nippon Telegraph and Telephone Corporation. [email protected], http://www.sic.ecl.ntt.co.jp/

岸本　康成

（同上）

Yasunari Kishimoto [email protected], http://www.sic.ecl.ntt.co.jp/

藤原　靖宏

（同上）

Yasuhiro Fujiwara [email protected], http://www.sic.ecl.ntt.co.jp/

塩川　浩昭

（同上）

Hiroaki Shiokawa [email protected], http://www.sic.ecl.ntt.co.jp/

鬼塚　　真

大阪大学大学院情報科学研究科マルチメディア工学専攻ビッグデータ工学講座

Makoto Onizuka Big Data Engineering Laboratory, Department of Multimedia Engineering, Graduate School of Information Science and Technology, Osaka University.

[email protected], http://www-bigdata.ist.osaka-u.ac.jp/

Keywords:

graph mining, community detection, personalized PageRank. 「企業における AI 研究の最前線」

(2)

したソーシャルグラフでは，人をノードとした大規模なグラフ構造になる（図 1）．また，twitter などのマイクロブログにおけるメッセージのやり取り関係をグラフ構造で表現すれば，情報の伝播，拡散の経路や影響力の高さなどを把握できる [ 榎 14]．ほかにも，企業間の取引関係をグラフ構造として分析し，産業構造の把握や地域の活性化に活かそうとする取組みも始まっている [中小企業白書 14]．我々の周りには多くのグラフ構造のデータが存在するが，これらの中には巨大なものや日々変化するものもある．例えば Google 社は数十億の Web ページ [Google] からなるグラフを有し，Facebook 社は約 13 億のアクティブユーザ [Facebook 14] からなるソーシャルグラフを有する．また，頻繁に変化するものとしては EC サイトなどにおける利用者と商品の閲覧・利用・購買関係などがあげられる．このようなグラフ構造のデータから，有益な情報をタイムリーに抽出し，それをビジネスに活用し続けるためには，この抽出処理を高速に行い，短時間のうちに処理を終えなければならない．例えば，図 1 のような大規模かつ複雑なソーシャルグラフから，つながりの強い人の集まり（コミュニティ）や影響力の大きな人を高速に抽出できれば，タイムリーかつ効率的に新商品を宣伝するといったことが可能になると期待される．本稿では，我々が取り組んでいる大規模なグラフ構造データを高速に処理する手法とその応用例を紹介する．本稿の構成は以下のとおりである．2 章では，グラフ構造をもつデータのマイニング手法の動向を述べつつ，グラフ構造のデータから密なノードの集まりを抽出するコミュニティ抽出手法と，ノード間のつながりによって重要度を計算する手法を中心に述べる．3 章では，2 章で述べた手法を高速化する手法を述べる．4 章では，グラフマイニングの応用例を紹介し，5 章で本稿をまとめる．

2．グラフマイニングとは？

グラフ構造をもつデータから価値ある知識の獲得を目指すグラフマイニングの研究は，頻出パターンの発見 [Inokuchi 00]，構造の予測 [鹿島 07] ，エッジが密なノード群を抽出する部分グラフの抽出（コミュニティ抽出など），ノードの重要度の計算（Personalized PageRank など）など，多岐にわたる．中でも，コミュニティ抽出によりソーシャルグラフなどから関係の密な集団を特定したり，影響力の高いノードを見つけるなどのことは，商品の推薦やターゲット広告などによりビジネス機会を増やすことにつながる（図 2）．以下では，我々がビジネスへの応用性が高いと考えるコミュニティ抽出手法と，影響力の高いノードを探索する PageRank の手法の二つについて述べる． 2･1　コミュニティ抽出グラフ構造から，部分グラフ内のノード間のエッジ密度が，相対的に部分グラフ外へのエッジ密度よりも高くなるような部分グラフを切り出すことを，クラスタリングもしくはコミュニティ抽出と呼ぶ．コミュニティ抽出の手法には，Min-max cut [Ding 01] ，Normalized cut[Shi 00] ，Modularity [Newman 04] ，SCAN [Xu

07] などがある．Min-max cut はグラフを二つに分割する際，部分グラフ間のエッジ数を最小にし，部分グラフ内のエッジ数を最大にするよう分割することで，部分グラフ間のエッジ密度が疎になるように分割する． Normalized cutも部分グラフ間のエッジ密度を疎にする分割手法だが，部分グラフ間のエッジを最小にするようグラフを分割する際，各部分グラフ内のノードからすべてのノードに出ていくエッジ総数を加味することで，外に出ていくエッジの少ない極端に小さな部分グラフができないよう工夫している． Modularityは大規模なグラフ構造から高速にコミュニティを抽出する手法として，近年最も注目を集めている指標の一つである [Aggarwal 11]．Modularity は，切り出した部分グラフがランダムグラフから異なるほど良い値となる指標である．切り出した部分グラフの Modularityが高ければ，それは適切にコミュニティを抽出していることを示す．抽出したコミュニティ集合を C，コミュニティ i からコミュニティ j へ接続されてい るエッジ数を eij，グラフ構造全体に含まれるエッジの総 数を m とすると，Modularity は次のように定義される． [定義 1] Modularity Q 図 3 は例としてノードが 12 個，エッジの総数が 19 個のグラフを分割していく様子を示している．図 3 の左側のようにグラフ全体を一つのクラスタに すると Modularity Q は 0 である．中央，および右側の 図 2　コミュニティ抽出と PageRank 図 3　グラフの分割

(3)

ように部分グラフに分割していく場合は，それぞれ， {22/2m −（23/2m）2_} _{＋ {14/2m −（15/2m）}2_}_{＝ 0.43，} {12/2m −（15/2m）2_}_{＋ {6/2m −（8/2m）}2_}_{＋ {14/2m −} （15/2m）2_}_{＝ 0.49，という値を取る．右側が最も高} い Modularity 値であり，中央に比べて右側がより適切にコミュニティ抽出ができていることが示される． Modularityは 0 から 1 の値をとり，1 に近づくほど良いクラスタに分割できているとみなせる． Modularityに基づく手法のほかのクラスタリングとしては，構造的な類似度に基づく手法である SCAN にも注目が集まっている [Xu 07]．SCAN は，部分グラフを切り出すとともに，二つの部分グラフをつなぐノード（ハブ）やエッジが一つしかないノード（外れ値）も抽出することができる． 2･2　PageRank Webページ間のハイパーリンクによる参照関係（図 4）に基づき Web ページの重要度を計算する手法として PageRank [Page 98]がある．PageRank は一般的にはランダムサーファモデルによってモデル化される．すなわち，サーファはランダムに Web ページを選択し，一定の確率でページ内にあるハイパーリンクをクリックして他の Web ページに移動する．この操作を繰り返して得られる各 Web ページへのアク セス確率が PageRank 値である．N 個の Web ページを ノードとし，それらのリンクをエッジとするグラフ構造を考えたとき，PageRank 値は，以下の式で定義される． [定義 2] PageRank p pは各 Web ページの PageRank 値を表すベクトルであ る．A は正規化された隣接行列で，ノード i からノード j へリンクが張られているとき，A の要素 Aijに 1/Oiを設 定する．ここで Oiは，ノード i の出次数（ノード i から 出ているリンクの数）である．例えば，図 5 の左側のような Web ページのリンク関係がある場合，隣接行列は 図 5 の右側のように表現できる．c は所定のノード群に ジャンプする確率である．q は N 次元ベクトルで，各要 素に同じ値を設定する．すなわち，サーファがリンクを辿って次々と他の Web ページへ移動する場合（[定義 2] における（1−c）Ap の項）と，一定の割合で他のノード にジャンプすること（[定義 2] における cq の項）をモ デル化している． PageRankの値を求める問題は，ノード数を N とした ときの N 次元一次方程式の問題であるので，①逆行列 による手法と②反復法の二つの求め方がある．反復法で 求める場合，[定義 2] の式を p が収束するまで繰り返し 適用する．この収束値として得られた p が，N 個のノー ドにおけるおのおのの重要度を示すものとなる．なお， PageRankは，あるノードからリンクの重みに比例したランダムウォークを行った結果を定常状態確率分布として得ることもできる．

Personalized PageRankは，PageRank を拡張し，q の各要素にユーザの好みによる重み付けしたものであり，問合せ分布とも呼ばれる（例えば Web ブラウザのお気に入りに登録した URL 群など）．これを加味することで，ユーザが良く訪問するノードやそれにリンクされた近傍のノードの重要度を高めることができる．ノードの重要性の指標としては，ほかにも SimRank が提案されている [Jeh 02]．SimRank では，リンクの「張られ方」が似ているページ同士は類似度が高いものとする．対の各ノードへのリンクをもつノードの間の類似度をノード対の類似度に伝搬させることで類似度を計算する．

3．高速化への取組み

ビジネスで活用するための情報を大規模なグラフ構造から抽出するには，試行錯誤しながら大量のデータを何度も分析するため，分析処理の速度が重要となる．本章では，Modularity の最大化によるコミュニティ抽出の高速化，Personalized PageRank 計算の高速化の手法について述べる． 3･1　コミュニティ抽出の高速化 Modularityの最大化は NP 困難であるため，近年の研究では，貪欲法を用いてより高い Modularity の値をより高速に求めることに主眼が置かれている．例えば数億ノード規模のグラフ構造に対して，高速かつ高い図 4　Web ページ間の参照関係図 5　隣接行列を用いた表現

(4)

Modularity値を示す方法として Louvain 法 [Blondel 08] が知られている．この手法では，Modularity 値の局所最適化とノードの集約により，コミュニティ抽出処理におけるノードとエッジの参照数を減らしている（図 6）．具体的には，二つのフェーズからなるパスを繰り返すことでコミュニティを抽出する．最初のフェーズは，グラフ構造を構成する各ノードがそれぞれ別のコミュニティである状態から処理を開始する．その後，任意の順にノードを選択し，これに隣接するノードの中から，これら二つのノードを同一のコミュニティとみなすことで最も Modularity が向上するような隣接ノードを一つ選択する．この同一のコミュニティとみなす操作を，Modularity 値が向上する限り繰り返す．次のフェーズでは同一のコミュニティと判定されたすべてのノードとエッジを 1 ノードへ集約する操作を行う．Modularity 値が向上する限り，これら二つのフェーズからなるパスを反復し，コミュニティを抽出する．収束した処理結果を 1 ノードに集約することで，処理に必要となるノードとエッジの参照数を削減させている．我々は，この手法のさらなる高速化に取り組んでいる [Shiokawa 11]．これは図 7 に示す二つの工夫で実現している．一つは，グラフ構造の統計情報に基づき分析するノードの計算順序を最適化したことである．具体的には，ノードから何本エッジが出ているかという「次数」の情報に基づいて，計算時間が短いノード（次数が少ないノード）から計算していくようにした．次数が高いノードからは多数のエッジが出ているため，参照すべきエッジ数の増加に伴って，計算量が増加するからである．もう一つの工夫は，同じクラスタ（グループ）に所属すると判断できるノードを順次単一の（仮想）ノードに集約して取り扱うことである．集約することでノードやエッジの総数が減り，以降の分析が次々と高速化される．一例が，エッジが一つしかない（接続先のノードが一つしかない）ノードの集約である．こうしたノードは，複雑な計算をしなくても接続先のノードと同一のクラスタに属するのが自明なので「接続先のノードと同一のノード」としてすぐに集約できる．一般的に，グラフ構造をもつデータにはこうしたノードが多いため，この集約処理は非常に効果的である．これらの工夫により，既存の 10 ∼ 60 倍の高速化を実現している．また，我々は CPU の SIMD 命令を利用した並列処理による高速化 [塩川 13] や，2 章で述べた構造的な類似度によりコミュニティ抽出を行う手法である SCAN の高速化 [塩川 14] にも取り組んでいる． 3･2　Personalized PageRank 計算の高速化 Personalized PageRankを高速に処理するものとして，インド工科大学が開発した Basic Push Algorithm

[Gupta 08]は上位にランキングされるノードを近似的に

求めるもので，重要度の上限値を事前に計算した重要なノードからの関連度合いを用いて計算している．INRIA と Twente 大学のチームが開発した手法は，Monte Carlo 法を用いて Personalized PageRank におけるノード間の遷移確率を計算し，上位にランキングするものだけを高速に見つけるものである [Avrachenkov 11]．我々は Personalized PageRank の高速化を図 8 に示す二つの工夫で実現している [Fujiwara 12, Fujiwara 13a]．一つは，各ノードの重要度計算を効率化したことである．具体的には，グラフを表す隣接行列を行列分解した後の行列内のゼロ要素を増やすために，隣接行列の行と列を並び替える行列変換を行う．ゼロ要素は掛けてもゼロになるので，そこは計算する必要がなくなる．この処理によって重要度の計算を高速化している．もう一つの工夫は，すべてのノードの正確な重要度を計算する代わりに，より計算負荷の低い「重要度の上限値」を計算して効率的に探索空間を足切りすることである．グラ フから重要度が高い k 個のノードを抽出する処理は以下 図 6　ノードの集約図 7　コミュニティ抽出の高速化，，．．．図 8　PageRank 計算の高速化，

(5)

タをもとに人のつながりの分析を行った．ここでは例として政治家が属するコミュニティや関係性，重要度などを図示した活用例を示す（図 9）．グラフデータの構築方法は以下のとおりである．Wikipedia の衆議院議員一覧のページを取得し，さらにその議員のページのリンクをたどる．議員をノードとして，その Wikipedia のページに他の議員のページへのリンクがあれば，その議員同士でエッジをはることでグラフ構造を構築し，こうして得られたグラフをコミュニティ抽出と PageRank によって分析した．表示には前述のグラフ分析・可視化ツール Gephi を使用している．また，Wikipedia からの人名の抽出にはオープンソースの形態素解析ツールである MeCab [Kudo 04] を使用した．同じコミュニティに属する政治家のノードは同じ色に，PageRank により計算した影響力の高い議員ほどノードの直径が大きくなるようにしている．ノード数は約 3 000 である．これらにより，「安倍晋三氏と麻生太郎氏はともに影響力が大きい」，「鳩山邦夫氏の影響力は大きいが，安倍氏，麻生氏とはコミュニティが異なる」などの解析結果が表示された．また，Wikipedia から芸のようになる．まず，全ノードについて重要度の上限値を計算する．続いて上限値が高いノードから正確な重要 度を計算していく．これにより，一時的に上位 k 個の重 要なノードが見つかる．この上位 k 番目の正確な重要度 よりも上限値が低いノードについては重要度を計算する必要がないため「枝刈り」する．これによってトータルの計算負荷を削減した．これらの工夫により，既存手法の精度を落とすことなく 50 倍以上の高速化を実現している．また，我々は，2 章で述べた類似度計算の手法である SimRankの高速化 [Fujiwara 13b] にも取り組んでいる．

4．グラフマイニングの応用

グラフマイニングの応用は幅広く，以下に代表的な応用事例をあげる．グラフ構造からのコミュニティ抽出により，画像を人と背景といったように複数の領域に分割する試みがある [Abin 14]．画素間で RGB などの色情報を特徴ベクトルにして，その類似度が一定以上であれば，画素間にエッジを張り，グラフ構造を構築する．このグラフ構造にコミュニティ抽出を適用し，画像領域を分割する．脳科学においては脳を細かい領域に分割し，各領域間の神経線維による構造的接続性や fMRI などの信号の相関による機能的接続性をグラフ構造で表現し，コミュニティ抽出により脳の機能 [Meunier 09] や構造上 [Hagmann 08] のまとまりを抽出しようとする研究がある．また，PageRank については，これをベースとして，利用者の嗜好に合わせて商品をスコア付けする ItemRank [Gori 07] や，与えたキーワードをもとにデータベース内のオブジェクトをスコア付けする ObjectRank [Balmin 04]などが提案されている．本章では，グラフマイニング結果を可視化するツールを紹介するとともに，我々が取り組んでいるグラフマイニングの応用例として，主に Web 上で扱われる情報を対象にした例を紹介する． 4･1　可　　視　　化グラフ構造の分析結果を可視化は，ひとめで全体像を把握したり，重要な情報の発見を容易にすることに役立つ．このような可視化ツールのうち広く普及しているものの一つに Gephi [Mathieu 09] がある．これは CSV 形式などのいくつかの形式のファイルを読み込み，ノードとエッジで表されるグラフ構造を表示する．また， Modularityや PageRank を計算する機能を備えている．我々は，開発した高速アルゴリズムを広く利用できるように，Java などの汎用言語で利用可能なソフトウェアライブラリや，Gephi のプラグインを開発している． 4･2　人のつながりの分析我々は，グラフマイニングを用いて Wikipedia のデー図 9　衆議院議員の関係の例図 10　同じアイドルグループのメンバから成るコミュニティ

(6)

能人や俳優といった分野でコミュニティ抽出を行い，同じアイドルグループに属するメンバが同一のコミュニティになったり，影響力の大きいメンバが大きく表示されることを確認している（図 10）．さらに，ある有名ブロガーに影響を与えているのは誰か知りたい，といった場合などにも活用できる． 4･3　技術動向の系譜の抽出論文データをグラフマイニングで分析すれば，技術動向を抽出することができる．我々は，電子情報通信学会にて蓄積されている 16 万件以上の論文，10 万件規模の技術用語，そして 10 万人規模の論文著者のデータから，コミュニティ抽出手法により「技術領域」を抽出するとともに，Personalized PageRank により「技術領域の経年変化」を抽出した．手法のおおまかな流れは，①データを 10 年単位で分割，② 10 年ごとのデータを二部グラフ化しグラフからクラスタを抽出，③隣接する年代間で近傍クラスタ同士を見つけクラスタの時系列変化とする，である．具体的には，1970 年代以降のデータを 10 年ごとの期間（年代）で区切るとともに，一つの論文に含まれる著者と要約に含まれる単語を抽出して二部グラフを作成する（図 11）．ここからクラスタを特定することで，著者と単語のつながりの強いまとまりを技術領域として抽出する．抽出した技術領域は，全体で 82 個となった．これらの技術領域のまとまりを「技術領域クラスタ」と呼ぶことにする．技術動向が年代間でどのように変遷していくかを知るには，技術領域クラスタを年代間で関連づけなければならない．そこで我々は，技術領域クラスタ間で共通する著者や単語が多いほど，年代間でその二つの技術領域クラスタは類似していると考えた．具体的には，著者や単語の重要度を Personalized PageRank で算出しておき，技術領域クラスタ間で，共通する著者と単語の重要度を足し合わせ，それを類似度とする（図 12）．経年変化の把握では，類似度 0.4 以上のクラスタ間に関連があるものとした．こうすることで，年代ごとに技術領域クラスタがいくつか出来上がり，さらにそれらの技術領域クラスタが年代をまたいで関連付けられることになる．このようにして得られた技術年表の一例を図 13に示す．構築した技術年表から，キーワード（論文のキーワード欄に記載された単語）に着目すると，いくつかの興味深い技術トレンドがわかる．無線通信では，「衛星通信」⇒「センサネットワーク」⇒「Wireless sensor network」という無線通信技術の変遷や「陸上移動通信」 ⇒「移動通信，衛星通信」という通信技術の変遷がわかった．このほかにも，文字認識や音声認識では，「HMM（隠れマルコフモデル），ニューラルネットワーク，パターン認識」⇒「強化学習」⇒「自然言語処理」という変遷に加え，「大語彙連続音声認識，マルチエージェントシステム」⇒「statistical machine translation，音声対話システム」という文字認識や音声認識の技術を用いたアプリケーションの変遷が把握できた．また，数値解析や半導体の分野は技術キーワードには大きな変化が見られなかったが，論文件数が 2000 年以降に減少傾向がわかった． 4･4　情　報　推　薦グラフマイニングを使って，さまざまなアイテム（商品やサービス）を利用者に推薦することも可能である [堤田 11]．ポータルサイトや EC サイトではさまざまな異なる種類のコンテンツが扱われており，さまざまなサイトで利用者のアクセスログが蓄積されている．こうしたログを活用して，集客力のあるサービスドメインの利用者を他のドメインへ誘導して新規利用者の増加を見込むことも考えられる [堤田 12]．この場合，利用者と，複数のノードにまたがるおのおののアイテム商品やサービスをそれぞれノードとする二部グラフを作成して図 11　論文の著者と単語からなる二部グラフ図 13　技術年表の例図 12　技術領域クラスタ間の類似度

(7)

おく（図 14）．推薦対象の利用者を表すノードを起点として，各ノードへの到達確率を計算する．この処理は Personalized PageRankを計算することと同等である．そして，最終的にアイテムを表すノードについてのみ，前述の利用者ノードからの関連度を計算しランキングする． このような手法により，例えば利用者 u3に対して， 似た傾向をもつ利用者 u4が利用するアイテム i7を推薦することが可能となる．また，多くの利用者が利用する アイテム i6を抽出し，他の利用者にこれを推薦するといったことが可能である． 4･5　負荷平準化コミュニティ抽出手法を用いれば，処理を等粒度に分割することも可能である．例えば地理情報をもとに人口動態や道路混雑状況を計算するような処理を考えると，単純に緯度経度で分割して並列処理をしたとしても，各分割単位で処理コストが不均衡になってしまう．そこで，コミュニティ抽出により，処理時間が全分割単位で平準化されるように地理情報を分割することが考えられる．時々刻々と変化する人口動態や道路混雑状況に対して，このような処理コストの平準化を保つためには，一定時間ごとにそのときどきに応じた適切な再分割が必要なため，高速なコミュニティ抽出の技術が重要となってくる（図 15）．

5．お　わ　り　に

本稿では，我々が取り組むグラフマイニングについて，その高速化の研究概況や活用例について述べた．今後，グラフマイニングの研究を進めていくうえで，さまざまな場面からデータを容易に抽出し，グラフ構造として蓄積する手法や，コミュニティ抽出および PageRank の計算対象とするデータ領域を容易に可変可能な環境の構築，GraphLab [Low 10] のような並列処理によるスケーラビリティの確保なども重要と考えている．人間が生み出すデータは日々多様化し，大容量化している．これらの膨大なデータから新たな知識を獲得したり，ビジネス価値の創出や経営判断に活用し続けていくため，企業における取引関係の分析や通信トラヒックの分析などの適用分野を開拓していくことが今後の課題である．

◇　参　考　文　献　◇

[Abin 14] Abin, A. A. Mahdisoltani, F. and Beigy, H.: Wise image segmentation based on community detection, The Imaging

Science Journal, Vol. 62, No. 6, pp. 327-336 （2014）

[Aggarwal 11] Aggarwal, C. C.: Social Network Data Analytics, 1st edition, Springer Publishing Company, Incorporated （2011）

[Avrachenkov 11] Avrachenkov, K. and Litvak, N.: Quick detection of top-k personalized PageRank lists, Proc. WAW （2011）

[Balmin 04] Balmin, A., Hristidis, V. and Papakonstantinou, Y. Objectrank: Authority-based keyword search in databases,

Proc. VLDB （2003）

[Bastian 09] Bastian, M., Heymann, S. and Jacomy, M.: Gephi: An open source software for exploring and manipulating networks, Proc. ICWSM （2009）

[Blondel 08] Blondel, V., Guillaume, J., Lambiotte, R. and Lefebvre, E.: Fast unfolding of communities in large networks,

J. Statistical Mechanics: Theory and Experiment, Vol. 2008,

P10008（2008）

[中小企業白書 14] 中小企業白書 2014, コネクターハブ企業と地域産業構造分析システム，中小企業庁（2014）

[Ding 01] Ding, C. H. Q., He, X., Zha, H., Gu, M. and Simon, H. D.: A min-max cut algorithm for graph partitioning and data clustering, Proc. IEEE（2001）

[榎 14] 榎美紀，村上明子，レイモンドルディー，小口正人：ソー シャルメディア上の情報拡散分析，DEIM Forum 2014, B4-6 （2014）

[Facebook 14] Facebook Reports First Quarter 2014 Results, http://investor.fb.com/releasedetail.cfm?ReleaseID=842071 [Fujiwara 12] Fujiwara, Y., Nakatsuji, M., Yamamuro, T.,

Shiokawa, H. and Onizuka, M.: Efficient personalized pagerank with accuracy assurance, Proc. KDD（2012） [Fujiwara 13a] Fujiwara, Y., Nakatsuji, M., Shiokawa, H.,

Mishima, T. and Onizuka, M.: Fast and exact top-k algorithm for PageRank, Proc. AAAI（2013）

[Fujiwara 13b] Fujiwara, Y., Nakatsuji, M., Shiokawa, H. and Onizuka, M.: Efficient search algorithm for SimRank, Proc.

ICDE（2013）

[Google] Crawling & Indexing, http://www.google.com/intl/ en/insidesearch/howsearchworks/crawling-indexing.html [Gori 07] Gori, M. and Pucci,A.: ItemRank: A random-walk

based scoring algorithm for recommender engines, Proc. IJCAI （2007）

[Gupta 08] Gupta, M., Pathak, A. and Chakrabarti, S. : Fast algorithms for top-k personalized PageRank queries, Proc.

WWW（2008）

[Hagmann 08] Hagmann, P., Cammoun, L., Gigandet, X., Meuli, R., Honey, C. J. Wedeen, V. J. and Sporns, O.: Mapping the structural core of human cerebral cortex, PLOS Biology, Vol. 6, Issue, 7, e159（2008）

[Inokuchi 00] Inokuchi, A., Washio, T. and Motoda, H.: An Apriori-based algorithm for mining frequent substructures from graph data, Proc. PKDD（2000）

図 14　利用者とアイテムの二部グラフ

(8)

[Jeh 02] Jeh, G. and Widom, J.: SimRank: A measure of structural-context similarity, Proc. KDD（2012）

[鹿島 07] 鹿島久嗣：ネットワーク構造予測，人工知能学会誌， Vol. 22, No. 3, pp. 344-351（2007）

[Kudo 04] Kudo, T., Yamamoto, K. and Matsumoto, Y.: Applying conditional random ﬁelds to Japanese morphological analysis,

Proc. EMNLP（2004）

[Low 10] Low, Y., Gonzalez, J., Kyrola, A., Bickson, D., Guestrin, C. and Hellerstein, J. M.: Graphlab: A new parallel framework for machine learning, Proc. UAI（2010）

[Mathieu 09] Mathieu, B., Sebastien H. and Mathieu J.: An open source software for exploring and manipulating networks,

Proc. ICWSM（2009）

[Meunier 09] Meunier, D., Lambiotte, R., Fornito, A., Ershce, K. D. and Bullmore, E. T.: Hierarchical modularity in human brain functional networks, Frontiers in Neuroinformatics, Vol. 3, No. 37, pp. 1-12 （2009）

[Newman 04] Newman, M. and Girvan, M.: Finding and evaluating community structure in networks, Phys. Rev. E, Vol. 69, 026113 （2004）

[Page 98] Page, L., Brin, S., Motwani, R. and Winograd, T.: The PageRank citation ranking: Bringing order to the web, Technical Report, Stanford Digital Library Technologies Project（1998）

[Shi 00] Shi, J. and Malik, J.: Normalized cuts and image segmentation, IEEE Trans. Pattern Anal. Mach. Intell., Vol. 22, No. 8, pp. 888-905（2000）

[Shiokawa 11] Shiokawa, H., Fujiwara, Y. and Onizuka, M.: Fast Algorithm for Modularity-based Graph Clustering, AAAI Press （2013） [塩川 13] 塩川浩昭，山室健，藤原靖宏，鬼塚真：SIMD 命令によるモジュラリティに基づくグラフクラスタリングの並列化，日本データベース学会論文誌，Vol. 12, No. 1, pp. 91-96（2013） [塩川 14] 塩川浩昭，藤原靖宏，鬼塚真：構造的類似度に基づくグ ラフクラスタリングの高速化，DEIM Forum 2014, D6-2（2014） [堤田 11] 堤田恭太，中辻真，内山俊郎，藤村考：メタデータ付き

推薦のためのグラフマイニング，25th Annual Conf. Japanese

Society for Artificial Intelligence（2011）

[堤田 12] 堤田恭太，中辻真，内山俊郎，戸田浩之，内山匡：アクセスログを用いたクロスドメイン環境における情報推薦，情処学研報，Vol. 2012-DBS-154, No.4, pp. 1-8（2012）

[Xu 07] Xu, X., Yuruk, N., Feng, Z. and Schweiger, T. A. J.: Scan: A structural clustering algorithm for networks, Proc. KDD （2007） [情報通信白書 14] 平成 26 年版情報通信白書，データが切り拓く未来社会，総務省（2013） 2014年 7 月 15 日受理

著　者　紹　介

飯田　恭弘 2000年東京大学大学院工学系研究科物理工学専攻修了．同年，日本電信電話株式会社入社．課金決済システム，分散システムの研究開発に従事．現在，日本電信電話株式会社 NTT ソフトウェアイノベーションセンタに勤務．日本データベース学会会員．岸本　康成 1991年九州大学大学院総合理工学研究科修士課程修了．同年，日本電信電話株式会社入社．以来，ディレクトリシステム，課金システム，データマイニングなどに関する研究開発に従事．現在，日本電信電話株式会社 NTT ソフトウェアイノベーションセンタに勤務．鬼塚　　真 1991年東京工業大学工学部情報工学科卒業．同年，日本電信電話株式会社入社．2000 ∼ 01 年ワシントン大学客員研究員，2010 ∼ 14 年日本電信電話株式会社特別研究員，2012 ∼ 14 年電気通信大学客員教授，現在，大阪大学大学院情報科学研究科教授．博士（工学）．大規模グラフデータの分散データ処理に関する研究開発に取り組んでいる．2004 年情報処理学会山下記念賞，2008 年データベース学会上林奨励賞など受賞．情報処理学会，電子情報通信学会，日本データベース学会，ACM 各会員．塩川　昭浩 2009年筑波大学第三学群情報学類卒業．2011 年同大学院システム情報工学研究科博士前期課程修了．同年，日本電信電話株式会社入社．現在，日本電信電話株式会社 NTT ソフトウェアイノベーションセンタ研究員，および筑波大学大学院システム情報工学研究科博士後期課程在籍．大規模データ分析，分散並列処理の研究開発に従事．2013 年 DEIM Forum 2013最優秀論文賞および優秀論文賞，2014 年 DEIM Forum 2014優秀論文賞，日本データベース学会平成 25 年度論文賞受賞．日本データベース学会会員．藤原　靖宏 2003年早稲田大学大学院理工学研究科電気工学専攻修士課程修了．同年，日本電信電話株式会社入社． 2011年東京大学大学院情報理工学系研究科電子情報学専攻博士課程修了，2014 年ニューヨーク大学客員研究員．現在，日本電信電話株式会社 NTT ソフトウェアイノベーションセンタ特別研究員．博士（情報理工学）．グラフマイニングの研究開発に従事． KDD 2008 best research paper award，第 27 回テレコムシステム技術賞，第 9 回上林奨励賞など受賞．情報処理学会，電子情報通信学会，日本データベース学会各会員．

大規模グラフ構造データからのコミュニティ抽出と重要度計算 : 高速化への取組みと応用(<特集>企業におけるAI研究の最前線)

1．は じ め に