大規模データを対象とした分析処理の高速化に関する取り組み Papers & Presentations Onizuka Laboratory

(1)

大規模対象た析処理

高速化関取組

鬼塚真

主幹研究員(特別研究員)

NTTソンン

(2)

自己紹

所属

NTT ソンン主幹研究員特別研究員

群馬県出身，ワンン大(911 時)

過去研究開発

DBMS 研究開発

XML 処理/DBMS 高速化

CBoC type2 散開発

現在 ^研究

MapReduce 高速化

機械学習高速化 ( ン，ン等)

画像検索 _ン検索

番組通知

配信

検索

(3)

管理情報区分：B 関係者限り

分散処理による大規模デタ分析の背景狙い

大規模高速処理析短期間開

発技術確立

情報爆発言わ時代迎え、情報処理

大規模処理対高い

NTT 各社い、各種情報大量

活用う動進い

背景

狙い

(4)

管理情報区分：B 関係者限り

分散処理による大規模デタ分析の概要

技術目標:

単一ン向析 (機械学習統計処理) ^最

適散処理出

技術課題

1. 抽象言語散出最適化 NII _胡教授

2. ^散処理 ^高速処理

統計処理集約処理，結合処理高速化

機械学習( ン推薦) 高速化

3. 最新利用た高速化省電力東大横田教授

select m.source, m.dest, m.count, c.rank

from (select n.dest, sum(n.rank/n.count) as rank

from Graph as n

group by n.dest) as c,Graph as m ^最適化

高速 _散処理

実行計画

(5)

目

大規模 ^析い

析処理高速化取組

MapReduce 高速化 (HW2011)

Map Multi-Reduce: reduce 事前実行

PJoin: 事前 ^ン ^割 ^準結合利用

機械学習高速化

K-dash: Random Walk with Restart 高速

top-k 検索 (PVLDB2012)

ン高速化

(6)

大規模析 _い

大規模析 MapReduce高速化 ^{機械学習高速化}

(7)

大規模析 _適用例

n-gram/ ^ン析

: web ンン /SNS

目的: 頻出 ^ン学習

用途: 音声認識，日英翻訳

歴用いたソ

: web ^歴 ^視聴歴

目的: RWR, 学習

用途: ^ソ検索

ワ _解析

40Gbps

serve as the incoming 92

serve as the incubator 99

serve as the independent 794

…

4-gram

(8)

MapReduce 高速化

(9)

MapReduce ?

散処理ン＆

高性: 1万 ( ン)，

ン API: map関数/reduce関数

散処理特有 _{複雑さ(負荷散} _{用性) 隠い}

Google 開発

web ^{検索ンン} ^ン ^用途た開発

PageRank 計算，転置構築

2008年時点 20PB/day MapReduce 処理

[Dean et al., OSDI 2004, CACM Jan 2008, CACM Jan 2010]

(10)

MapReduce ^キ

MapReduce: ^散処理

散 _DFS _構築

DFS: GFS (Google FS), HDFS (Hadoop DFS)

2 + Shuffle

Map : ^入力毎 map関数実行

_{ン :} _{ン毎独立た処理}

Shuffle: 同一key (key, value) 群束

Reduce : ^束 ^た結 reduce 関数実行

_{ン : 複数} ンた _{必要処理}

(11)

MapReduce ^キ (続 )

User

Program

Input Data

Split 1

Split 0

Split 2

Split 3

fork _fork

fork

assign

map

assign

reduce

Output

File 0

Output

File 1

node

process

file

worker

Master

worker

Map

Map Map task ^Reduce Reduce task

shuffle

(12)

例: wordCount

入力文書毎 map関数適用

単語毎 (word, 1) 出力

単語毎頻度積算

(13)

MapReduce 設計思想

以要素

関数型言語 ^ン

• map (f) [r1,...,rn] = [f(r1),...., f(rn)]

• reduce (⊕) [r1,...,rn] = r1 ⊕ .... ⊕ rn

散環境 _適用

• map: ^ン内 ^{処理，reduce:} ^ン間 ^処理

• 論理 ^{ン = 物理} ^ン

• (key, value) + partition 関数 ^処理

• ^処理 ^散特有 ^{処理隠} ^い

• ^{間通信 (高速} ⁾

MapReduce _入高速化 研究動向 ^高速化 ^{取組} 研究 方向性

(14)

MapReduce: ^ンン実施例

MapReduce ^ン ^ン

Local Aggregation

Pairs and Stripes

Computing Relative Frequencies

Secondary Sorting

Relational Joins

MapReduce 利用例

転置ン

(幅優先探索 )

EM

(15)

MapReduce 高速化 ^{取組}

1. Map Multi-Reduce:

MapReduce extended with reduce pushdown

(16)

Motivation

Performance problems in MapReduce [DeWitt, 2009]

no schema, no index, ignoring data skew,

communication cost, materialization cost

In particular materialization/communication costs

(17)

Overview of Map Multi-Reduce

Idea:

Pushing down reduce function and iteratively

applying it so as to reduce intermediate data.

Efficiency:

2.4 times more efficient than original MR in real

dataset

Limitations and opportunities

• reduce function needs to be associative and commutative

 : summation, count sum(2,3,1) = sum(sum(2,3),1)

 : average avg(2,3,1) != avg(avg(2,3),1)

(18)

BTW, what is the pushdown?

A well-know technique in DBMS

pushdown reduces intermediate data size,

while ensuring the correctness of query result

Usually effective for single query optimization

SELECT person.name, dept.name

FROM dept, person

WHERE person.age > 20

AND person,deptid = dept.id

Query

person

join

selection

projection

dept ^person

join

selection

projection

(19)

Technique 1: incremental reduce

hashmap<key, value> is used for record structure

reduce function is applied before buffering at map task

Split N ^Map

function MapOutputBuffer sort&spill Spill files mergeParts Output file

Original MapReduce

(20)

User

Program

worker

Input Data

fork _fork

fork

Master

worker

assign

map

assign

reduce

Output

File 0

Output

Split 1

Split 0

Split 2

Split 3

worker

assign

local reduce

Technique 2: Local reduce

node

process

file

local reduce task applies the reduce function

to the map outputs of the same node

Master also controls local reduce tasks

Local Reduce

Local Reduce Local reduce task

(21)

Experiments

Hardware/software settings

Linux (CentOS5.4, 2.8GHz, main memory 8GB)×90 nodes

Java1.6, Hadoop 0.19.2

Workload

Datasets:

Trec terabyte dataset

0.5TB, # of unique terms 86,500k, 678 terms/input record

synthetic datasets (with uniform term distribution)

0.5-7TB, # of unique terms 100-400k, 62 terms/input record

Analysis pattern: wordCount

Purpose

Comparison: Map Multi-reduce variations vs MapReduce

IO reduction effect by record/local reduce

(22)

Response times (Trec terabyte)

response time is improved by 58%, 2.4 times faster.

effect of local reduce

with record & local reduces, performance of map phase is

improved, however 6% gets worse as a whole caused by

local reduce overhead.

52% 58% With record reduce

Without local reduce

with record reduce &

local reduce

(23)

Effect by record reduce (Trec terabyte)

Size of data put into buffer is reduced to 1/30

Size of spill files reduces to 1/3 (63% reduction)

Performance improved mostly by IO cost reduction

1/30

1/12

Map function

Reduce function

Record reduce

Split N MapOutputBuffer sort&spill Spill files mergeParts Output file

Reduce function is applied incrementally

67% 63%

(24)

Related work

Local aggregation

combiner: does not reduce the data put into the buffer

in-mapper combining design pattern [Lin et al., 2010]

complicates the mapper and may run out of memory.

Split N ^Map

function MapOutputBuffer

sort&

combine&

spill

Spill files

mergeParts

(combine)

Output file

(25)

Summary of Map Multi-Reduce

Idea:

Pushing down reduce function and iteratively

applying it so as to reduce intermediate data.

Efficiency:

2.4 times more efficient wordCount than original

MR in Trec terabyte

1.9 times than original MR in web N-gram

On going work:

Extend Map Multi-reduce to support semantic

compression on keys (stripes design pattern)

(26)

MapReduce 高速化 ^{取組}

2. PJoin:

Efficient join processing with MapReduce

for OLAP applications

(27)

技術 _概要

PJoin (pre-partition-based join)

[到達点] 多元析(OLAP)処理い，

量 1/3 削減処理時間，従

来技術 42.8% 高速化

[ 戦略] 複数析処理い共通

処理前 _{実行(事前処理)} ，析処

理時削減

(28)

背景: 多元析(OLAP) ？

統計的析処理典型的手法

歴ンン格納 fact (大)

fact 多角的元集約演算実施た

，複数 dimension

PARTKEY

NAME

MFGR

BRAND

TYPE

SIZE

CONTAINER

COMMENT RETAILPRICE

PARTKEY

SUPPKEY

AVAILQTY SUPPLYCOST

COMMENT

SUPPKEY

NAME ADDRESS

NATIONKEY PHONE

ACCTBAL COMMENT

ORDERKEY

PARTKEY

SUPPKEY

LINENUMBER

RETURNFLAG

LINESTATUS

SHIPDATE

COMMITDATE

RECEIPTDATE

SHIPINSTRUCT SHIPMODE

COMMENT

CUSTKEY

ORDERSTATUS

TOTALPRICE ORDERDATE ORDER- PRIORITY

SHIP- PRIORITY CLERK

COMMENT CUSTKEY

NAME ADDRESS

PHONE

ACCTBAL MKTSEGMENT

COMMENT PART (P_)

SF*200,000

PARTSUPP (PS_) SF*800,000

LINEITEM (L_) SF*6,000,000

ORDERS (O_) SF*1,500,000

CUSTOMER (C_) SF*150,000

SUPPLIER (S_) SF*10,000

ORDERKEY

NATIONKEY

EXTENDEDPRICE

DISCOUNT

TAX QUANTITY

NATIONKEY NATION (N_)

25

REGION (R_) 5

集約演算

多 _結合処理

化

(29)

結合 _方法:

• ^{量起因} ^通信 ^IO ^大

通信 IO ^削減最重要課題

背景: 従来 MapReduce 結合処理課題

orders 1

hash(x)

mapper

…

lineitem n

…

lineitem 1

Join

reducer

…

hash(x)

Join

…

量 _大

hash(y)

製品単

売

伝票

(30)

[方針] ^{結合処理時} ^{量削減}

[前提] OLAP ^析 ^，更新 ^参照処理 ^性能重要

1対多 ^関係 ^結合処理

[戦略]

複数 ^析処理 ^い ^共通的 ^処理

事前処理，析処理時 _削減

• 結合条件(主キ ) ^事前

• 準結合活用 + 中間 ^事前生成

複数MapReduce 間 ^{量削減} 結合計画

[効 ]

析処理時 _{量削減}

PJoin 概要

(31)

BTW, what is the semi-join?

A well-know technique in distributed DBMS

Natural join ( _ڇ)

(32)

BTW, what is the semi-join?

A well-know technique in distributed DBMS

Natural join ( _ڇ)

(33)

BTW, what is the semi-join?

A well-know technique in distributed DBMS

Natural join ( _ڇ)

(34)

BTW, what is the semi-join?

A well-know technique in distributed DBMS

Semijoin ( _ڈ)(ډ)

Natural join ( _ڇ)

(35)

BTW, what is the semi-join?

A well-know technique in distributed DBMS

Semijoin ( _ڈ)(ډ)

Natural join ( _ڇ)

(36)

BTW, what is the semi-join?

A well-know technique in distributed DBMS

Semijoin ( _ڈ)(ډ)

Natural join ( _ڇ)

(37)

BTW, what is the semi-join?

A well-know technique in distributed DBMS

Semijoin ( _ڈ)(ډ)

Natural join ( _ڇ)

(38)

BTW, what is the semi-join?

A well-know technique in distributed DBMS

Semijoin ( _ڈ)(ډ)

Natural join ( _ڇ)

(39)

BTW, what is the semi-join? (cont.)

A well-know technique in distributed DBMS

semi-join is used before the original join, so as to

reduce communication cost between DB severs

Employee _ڇ Dep

(40)

BTW, what is the semi-join? (cont.)

A well-know technique in distributed DBMS

semi-join is used before the original join, so as to

reduce communication cost between DB severs

(Employee _{ڈ Dept )} _ڇ Dept

Employee _ڇ Dep

(41)

BTW, what is the semi-join? (cont.)

A well-know technique in distributed DBMS

semi-join is used before the original join, so as to

reduce communication cost between DB severs

(Employee _{ڈ Dept )} _ڇ Dept

Employee _ڇ Dep

(42)

[方針] ^{結合処理時} ^{量削減}

[前提] OLAP ^析 ^，更新 ^参照処理 ^性能重要

1対多 ^関係 ^結合処理

[戦略]

複数 ^析処理 ^い ^共通的 ^処理

事前処理，析処理時 _削減

• 結合条件(主キ ) ^事前

• 準結合活用 + 中間 ^事前生成

複数MapReduce 間 ^{量削減} 結合計画

[効 ]

析処理時 _{量削減}

PJoin 概要

(43)

PJoin ^特徴 : 量削減

事前 _実行

lineitem

orders

hash(x)

hash(y)

…

lineitem b

lineitem a

lineitem z

orders 1

DFS read

shuffle

製品単

売

(44)

PJoin ^特徴 : 量削減

事前実行，準結合中間 _事前生成

lineitem

orders

hash(x)

hash(y)

…

lineitem b

lineitem a

lineitem z

orders 1

…

lineitem_

orders 1

hash(y)

lineitem primary key &

foreign key (orders primary key)

DFS read

shuffle

製品単

売

(45)

PJoin ^特徴 : 量削減

lineitem a

orders processing

+

準結合

mapper

…

lineitem_

orders n

…

lineitem_

orders 1

orders processing

+

準結合

Joining with

liteitem

reducer

…

Joining with

liteitem

事前実行，準結合中間 _事前生成

mapper 準結合処理後，reducer 残処理実行

lineitem

orders

hash(x)

hash(y)

…

lineitem b

lineitem a

lineitem z

orders 1

…

lineitem_

orders 1

hash(y)

lineitem primary key &

foreign key (orders primary key)

DFS read

shuffle

製品単

売

(46)

従来手法 PJoin 比較

lineitem a

orders processing

+

準結合

mapper

…

lineitem_

orders n

…

lineitem_

orders 1

orders processing

+

準結合

Joining with

liteitem

reducer

…

Joining with

liteitem

量 _削減

DFS read

shuffle

orders 1

hash(x)

mapper

…

lineitem z

…

lineitem a

Join

reducer

…

hash(x)

Join

…

量 _大

hash(y)

DFS read 増加

(47)

PJoin ^特徴 : N 結合

PJoin

型キ場合

複数 mapper 実行

全 mapper 結 S ^主キ

reducer ^処理能

mapper (T ^主キ結合処理) reducer (S ^主キ結合処理)

T

^one ^many

S

T ¹

^one ^many

S

T ^N

^one

many

T _主キ _結合処理

製品単

伝票売

製品単

伝票売

売店

(48)

PJoin ^特徴 : ^型結合計画

多 ^元 ^析 ^{型キ}

dimension 処理開始，fact ^最

後実行，中間削減

lineitem

orders

partsupp part

supplier

*

* *

*

lineitem,

orders,

$J2

partsupp,

part,

$J1

supplier,

nation

J1

J2

J3

J1

J2

J3 _fact 結合最後実行

(49)

評価実験

評価環境

Linux (CentOS5.4, 2.8GHz, 主記憶 8GB)×50

Java1.6, Hadoop 0.19.2

ン _{: TPC-H} ン

[ ] 104GB, 207GB, 311GB

準結合中間 : 83GB, 167GB, 250GB

[ ^析 ] TPC-H ^{結合演算利用} 17

評価観点: PJoin 従来 Join 手法比較

• 全体: PJoin ，従来 2 ^{Join 手法} ^{応答性能比較}

• PJoin vs reduce-side join ( 型結合計画, Hive 計画)

• 詳細

• PJoin 量，HDFS read/write 量影響

(50)

応答時間 ^{(104GB, 50} ⁾

従来手法 33.4% (star plan比), 42.8% (Hive plan比)

改善 ^効 : MapReduce job 数削減，HDFS+ 量削減

性能 = (HDFS r/w) + 0.5×(local r) + (local w) + 1.5×(shuffle)

1

2

3

4

5

6 respo nse tim e (m in)

PJoin

reduce-side join (star plan)

reduce-side join (Hive plan)

(51)

量 ^{(104GB, 50} ⁾

従来手法 62.6% (star plan), 62.2% (Hive plan)改善

Q18 悪化: WHERE条件選択効原因

5

10

15

20

25

30

35

40

45 Shuff le (G B)

PJoin

reduce-side join (star plan)

reduce-side join (Hive plan)

(52)

HDFS read量 ^{(104GB, 50} ⁾

従来手法 51.4% (star plan), 52.2 % (Hive plan)増加

PJoin ^{準結合中間} ^参照た

10

20

30

40

50

60 H DFS Rea d (G B)

PJoin

reduce-side join (star plan)

reduce-side join (Hive plan)

(53)

PJoin

特徴:

処理事前実行(pre-partitioning)，準結

合中間 _事前生成

準結合 mapper ^{実行，残} ^{結合処理}

reducer 実行

効 _:

TPC-H い 30-40%応答性能改善

量 _{1/3 削減}

後取組 _:

ソ ^{更新対} ^差更新

(54)

機械学習 _高速化

(55)

機械学習 _高速化

1. K-dash: Random Walk with Restart

高速 top-k 検索

(56)

D3-1

• Random Walk with Restart (RWR)

– ^類似度 ^計算方法

– 起点 ^ン ^{繰返た定常状態}

確率 _類似度

• 本研究目的

0.15

0.16

0.54

0.07

0.03

0.01

0.01 処理手順

以処理定常状態得 _{繰返}

対象起点

隣接ン

一定確率．そうば _戻

(57)

D3-1

応用例

• ^ン ^ン

– ^{人た} ^， ^購買 ^歴 ^た ^作成

– 推薦対象者 RWR 類似度計算

– 類似度高い ^推薦

– 協調 ^既存技術高精度拡張性高い

推薦購入済

(58)

D3-1

類似度 _計算

• 類似度行列繰返計算定義さ

A

p

q

c

 







 







p _ ₍ ₁ _ _c ₎

 







 







A _

 







 







p _c

 







 







q

：類似度対応列

： _隣接行列

：起点 _{戻確率}

：対象対応成，そ他列

 







 







p

 







 







p

 







 







p

• ^個 ^求 ^高い計算

1. 類似度 ^収束 ^{繰返計算} 必要

K

(59)

D3-1

提案手法 _概要

1. 行列 ^解 ^単計算繰返計算不要

– 隣接行列疎 ^角行列 ^角行列 ^{解，}

類似度計算

• 疎行列用い高速類似度計算

• 特定 ^{類似度正確計算}

2. 類似度限値計算探索範囲足

– 類似度計算 ^い ^類似度 ^{限値推定}

• ^限値 ^{類似度計算} ^い

 1

L _U ^ ¹

q

L

cU

p  ^ ¹ ^ ¹

個 ^求 ^類似度

計算必要あ _？

K

(60)

D3-1

行列解：類似度 _計算

• LU 解用い類似度計算

– 逆行列計算 ^特定 ^{類似度正確計算}

– ^行列 ^わち行列 ^{疎あ} ^逆行

列，必疎 _い

• ^行列密場合，類似度高速計算 _い

 c

 







 







U 1

 







 







q

 







 







p

 







 







L 1

I

：単行列， LU  W  I  ( 1  c ) A

A

 1

1 U

L 

W

(61)

D3-1

行列 _{解：基本的考え方}

• ，成 ^， ^/ ^成 ^積 ^計算

• ，成 ^対応 ^成 ^計算

• ^わち ^/ ^成 ^あ ^ば逆行列 ^疎

 1

1 U

L  ^L ^U

U

L _W

A

 

 















 



j i

k ^ik ^kj

ij ij ij

j

i

L

j

i

L

j

i

L

1

1 1

)

(

/

1 )

(

/

1 )

(

0  







 







1

L

ij

 







 







L

ij

 

 

 















^

⁽ ⁾

/

1 )

(

1 )

(

0

1

^L ^U ⁱ ^j

W

U

j

i

j

i

L

j

k ^ik ^kj

ij jj ij

 







 







L

ij

 







 







W

ij

(62)

D3-1

行列解：疎行列 _計算方法

• 疎行列 ^隣接行列 ^/ ^要

素 0 ばい

• 疎行列得た ^{手法考案}

1. ^複数割並替え

2. ^た ^最後移動

3. 各 ^内 ^数 ^さい順並替え

 1

1 L

U  ^A



 

 



 

 



 

 



 

 



 

 



 

 

(63)

D3-1

類似度 _推定

• 類似度限値推定検索打ち

• 類似度 ^限値 ^推定 ^以 ^通



 





 



 



 

 



 _ _ _



 ( 1)  ( ) 

max max

max

⁽ ⁾ ⁽ ⁾ ¹

u u s

l V

v v V l v V

v v

v

u

^c ^p Â ^v ^p Â ^v ^p Â

p

類似度伝搬量最大値

同類似度伝

搬量最大値

類似度伝搬量最大値

：類似度 _推定値

：類似度計算済 _集合

：幅優先木 _番号

：番号類似度計算済集合

：重 _最大値

p

u

V

s

)

( l

_u

V

l

u

)

max

( ^v

A

max

u

l

u

v

(64)

D3-1

評価実験：実験条件

• 実験 ^ン

– 4 3.3 GHz Intel Xeon 32GB

• 実験 – 辞書

• ^ンン辞書 FOLDOC

• あ単語説明そ他単語用い ^い ^，そ ^単語間

あ

– ^ン

• Oregon Route Views Project ^ン

– 共著

• Condensed Matter E-Print Archive 投稿さた論文共著関係 ^得 ^た

• 比較手法

– Tong ^提案さ ^{た近似手法*}

(65)

D3-1

評価実験：検索時間精度

• 検索時間検索精度 ^{い実験}

– 提案手法従来手法 ^数万倍 ^{高速化達成}

– 提案手法従来手法異 ^検索結 ^正確

0.00001 0.0001 0.001 0.01 0.1 1

処理時間[s]

提案手法 K=5 提案手法 K= 5

提案手法 K=5 従来手法特異値個

従来手法特異値個

0.2 0.4 0.6 0.8 1 1.2

検索精度

提案手法

従来手法特異値個

(66)

D3-1

評価実験：

• 辞書 ^{用いた類似語} ^検索結

– 提案手法検索結 ^良好

– 従来手法近似精度 ^く， ^個 ^K ^検索 ^{適さい}

1 2 3 4 5

提案手法 Microsoft Windows W2K Windows/386 Windows 3.0 Windows 3.11 従来手法 Microsoft Windows Microsoft Networking Microsoft Network W2K Thumb

提案手法 Mac OS Macintosh user interface

Macintosh file

system multitasking Macintosh Operating System

従来手法 Mac OS Rhapsody SORCERER Macintosh Operating

System

PowerOpen Association 提案手法 Linux Linux Documentation

Project ^Unix ^lint

Linux Network

Administrators' Guide 従来手法 Linux Linux Documentation

Project ^SL5 ^debianize ^SLANG

ンキン

Microsoft Windows

Mac OS

Linux

検索語手法

(67)

D3-1

• 問題設定

– 大規模 ^対 ^{，RWR 基} ^対象 ^類似

個高速正確検索

• 提案手法

– 行列解

• 特定 ^{類似度高速} ^{正確計算}

– 類似度推定

• 類似度計算 ^い ^類似度 ^{限値推定}

• 実験結

– 正確検索結 ^保証 ^{，従来手法} ^数万倍 ^高速

化達成

K

(68)

機械学習 _高速化

2. ^ン高速化

(69)

発表流

1. _{研究背景}

2. 既存手法：Louvain法

3. _提案手法

4. _評価実験

5. _{め今後課題}

(70)

背景：フー

 _{フー} _大規模化

– Ex) Facebook ²⁰¹¹ _年 _{ーザ数 5億人，総}

会員数 8億人を突破

 _{フー} _{ン技術}

– _{ー中} ーを一定尺度自動分類

– _内 _ッ _{密あ，} _間 _ッ _{疎あ}

ン結果ほ良い

良いン結果

1 2

悪いン結果

1 2 3

(71)

ン結果評価尺度

 ン指標：Modularity Q ^[Girvan ら, Phys.Rev.2004]

– _{内密，} 間疎あ程良い値を示

1 2 1 2

(72)

Modularity _{ン手法}

処理可能

フ規模

1 _{万ー}

数百万ー

数千万～

1 _{億ー}

Girvan-Newman _法 [ Girvan ら, Phys.Rev.2004 ^]

Newman _法 [ Newman, Phys.Rev.2004 ]

CNM _法 [ Clauset ら, Phys.Rev.2004 ^] ， ^WT 法 ^[Wakita , WWW2008]

ッン存在うッを削除手法

貪欲法ボムッ ^Modularity を向上させ手法

ー導入やー ^Newman 法高速化

ロー ⁽ フ全体) Modularity最適化アプロー

Louvain _法 [ Blondel ら, IOP and SISSA Journal 2008 ^]

隣接ー同士 ^Modularity 最適化を行う手法

ローカ (部分フ) Modularity最適化アプロー

現在，最速つ高いModularityを示手法知

＜Louvain法を用いた近年研究傾向＞

(73)

本研究目的貢献

 _{本研究目的}

– Louvain _方 _{け問題点}

1. _第1 ( _{決定処理)} _{け処理時間増加}

2. _{ー選択順依存} _{処理時間増加}

⇒ 次数少いノー逐次集約こ解決

 _{本研究貢献}

– _高速性

• _{従来最速さ} ^Louvain _法 _{高速処理可能}

• _本研究 ¹³³ _{倍高速化} _確認

– _正確性

• 最良いModularity 値示さ法同等 Modularityを示

大規模フーを対象

Modularity _を用いた _{ンを高速化}

(74)

発表流

1. _{研究背景}

2. 既存手法：Louvain法

3. _提案手法

4. _評価実験

5. _{め今後課題}

(75)

既存手法：Louvain法

 _V _{D. B} _{., “F}

w ,” J S M , O 2008.

=

第1 ー：ーローカン

• ン順序ノーを選択，選択ーをModularity 最高く

隣接ー同一

第2 ー：含ー一括集約

• _同一 _{内ノー} エッを一括集約重付フ変換

1 ¹ 1

12 2 ⁶

集約重付対 ^Modularity 向上限を繰返

(76)

Louvain _{法問題点}

 _{問題点1：第1} _{け処理時間増加}

– _第1 _ー _第1 _占

_処理時間 99% _以上

– _{フ規模直接影響} _ため

_{フ規模応} _さ _増加

 問題点2：ノー選択順依存た処理時間増加

– Louvain _法 _{処理を50回}

_試行 _{際時間頻度分布}

– _ノー _{選択順序依存}

処理時間大幅変化

0 1 2 3 4 5 6 7 8 9 10

頻度(回)

1 2 3 4 _合計

Time

(sec)

857 0.29 0.03 0.03 857

各毎処理時間経過

(77)

発表流

1. _{研究背景}

2. 既存手法：Louvain法

3. _提案手法

4. _評価実験

5. _{め今後課題}

(78)

基本的アイア

 Louvain _{法考察}

– _ン _集約 _ー _別 _{いこ} _計算不要 _ー

ッ多く含い

 _提案手法 _{けアプロー}

1. _決定 _時点ノーを逐次的集約

同一張

複数ッ参照

結果自明ー参照

ーッ内部参照

ーンム選択

ッ参照数増加

(79)

(1) _{計算対象ノー} _逐次集約

 _{決定たノーを逐次} _集約

– _同一を1 ー，ッを重付ッ変換

こ，計算対象ーッを削減

同一判明

逐次集約

集約処理前

特性：高速高いModularity ン可能

2

2 集約さーッ

集約処理後

内：ッ数 2倍

間：ッ数 1倍

(80)

(2) _ノー _{枝刈 (1/2)}

 _{自明 2} _{ーンを逐次的枝刈}

– _自明 _{ーンを枝刈} _こ _{不要参照を削除}

– Modularity _定義 _自明 _{ーン以下通}

 _{ーン1 枝刈}

自明ーン

隣接ーーン2 全同

あー

ーン1 次数 1 ー

(81)

(2) _ノー _{枝刈 (2/2)}

 _{ーン2 枝刈} _効率化

– _{ロー 1 逐次集約} _{ーン2 他ー} _次数

1 _ー _表現さ

– _逐次集約 _ーン1 _{枝刈を交互実行} _こ

枝刈可能

隣接ー全同一あ ^{ッ本数 1} ^ー

4 逐次集約処理

(82)

(3) _{次数順ノー選択}

 次数少い順計算対象ノーを選択

– _{ー中} _{他ー} 次数少いーを優先選択こ

ッ比較回数を抑制

A

C ^D

B

 _{ノー A B 同一} _場合

ノー A 選択

ノー B 選択

ッ参照数3

ッ参照数2

次数少いノー Bを

選択たほう効率良い

A

2 逐次集約

(83)

発表流

1. _{研究背景}

2. _提案手法

3. 既存手法：Louvain法

4. _評価実験

5. _{め今後課題}

(84)

評価実験

 _概要

1. 提案手法 Louvain法処理速度，処理精度を比較

2. _枝刈有無，次数順選択有無処理速度比較

 _{ーセッ}

– Stanford 大学SNAP Project 公開ー

• HepTh( 論理物理学系論文共著者関係)：ー数9,877 ッ数

51,971

• CondMat( 論文共著者関係)：ー数23,133 ッ数186,936

• HepPh( ー工学系論文共著者関係)：ー数12,008 ッ

数237,010

• Email ：ー数36,692 ッ数367,662

(85)

評価実験1：高速性精度評価

 ン処理速度精度をLouvain法比較

– 提案手法 Louvain法対最大133倍高速化

• _特 _{エッ数多い} _{フーほ} _高速 _処理 _い

– Modularity _{値同程度を示} _{いこを確認}

time(msec)

提案手法 Louvain法

10 ² 10 ³ 10 ⁴ 10 ⁵ 10 ⁶

HepTh CondMat HepPh email

提案手法 0.744 ^0.703 ^0.615 ^0.562

Louvain 0.685 0.644 0.621 0.57

Modularity _比較

(86)

評価実験2：枝刈有無評価

 _{処理速度を比較}

– _{枝刈有方高速} _処理可能

• 特 CondMat，email 高速化効率良く， ^1.34 倍， ^1.30 倍

を示い

2000 3000 4000 5000 6000 7000

time(msec)

有

無

(87)

評価実験3：次数順選択有無評価

 _{処理速度を比較}

– _{次数順選択方高速} _処理可能

• 特 CondMat，email 高速化効率良く， ^1.67 倍， ^1.80 倍

を示い

4000 6000 8000 10000 12000

time(msec)

数順

ン順

(88)

発表流

1. _{研究背景}

2. 既存手法：Louvain法

3. _提案手法

4. _評価実験

5. _{め今後課題}

(89)

め

 _提案手法

– _{目的：大規模} _対 _ン _高速化

– _ロー

• _ノー _逐次集約ー・ッ参照数削減

• _ノー _枝刈ー・ッ参照数削減

• _{次数順ノー選択} _{参照ッ数抑制}

 _{本研究貢献}

– _高速性： _ー _ッ _対 _最大 ¹³³ _{倍高速化} _成功

– _正確性：高いModularity 値を示 Louvain法同等Modularity値

– _{大規模性：} _大規模 _{乗則従} _ー _{あ程} _効率的

高速化可能あこを示唆

今後課題

大規模データを対象とした分析処理の高速化に関する取り組み Papers & Presentations Onizuka Laboratory

大規模 対象 た 析処理

高速化 関 取 組

鬼塚 真

主幹研究員(特別研究員)

NTTソ ン ン

自己紹

所属

NTT ソ ン ン 主幹研究員 特別研究員

群馬県出身，ワ ン ン大(911 時)

過去 研究開発

DBMS 研究開発

XML 処理/DBMS 高速化

CBoC type2 散 開発

現在 研究

MapReduce 高速化

機械学習 高速化 ( ン ， ン 等)

画像検索 ン検索

番組通知

配信

検索

分散処理による大規模デ タ分析の背景 狙い

大規模 高速 処理 析 短期間 開

発 技術 確立

情報爆発 言わ 時代 迎え、情報処理

大規模 処理 対 高 い

NTT 各社 い 、各種 情報 大量

活用 う 動 進 い

背景

狙い

分散処理による大規模デ タ分析の概要

技術目標:

単一 ン向 析 (機械学習 統計処理) 最

適 散処理 出

技術課題

1. 抽象言語 散 出 最適化 NII 胡教授

2. 散処理 高速処理

統計処理 集約処理，結合処理 高速化

機械学習( ン 推薦) 高速化

3. 最新 利用 た高速化 省電力 東 大横田教授

select m.source, m.dest, m.count, c.rank

from (select n.dest, sum(n.rank/n.count) as rank

from Graph as n

group by n.dest) as c,Graph as m 最適化

高速 散処理

実行計画

目

大規模 析 い

析処理 高速化 取 組

MapReduce 高速化 (HW2011)

Map Multi-Reduce: reduce 事前実行

PJoin: 事前 ン 割 準結合 利用

機械学習 高速化

K-dash: Random Walk with Restart 高速

top-k 検索 (PVLDB2012)

ン 高速化

大規模 析 い

大規模 析 適用例

n-gram/ ン 析

: web ン ン /SNS

目的: 頻出 ン 学習

用途: 音声認識，日英翻訳

歴 用いた ソ

: web 歴 視聴 歴

目的: RWR, 学習

用途: ソ 検索

ワ 解析

40Gbps

serve as the incoming 92

serve as the incubator 99

serve as the independent 794

…

4-gram

MapReduce 高速化

MapReduce ?

散処理 ン ＆

高 性: 1万 ( ン)，

ン API: map関数/reduce関数

散処理特有 複雑さ(負荷 散 用性) 隠 い

Google 開発

大規模対象た析処理

高速化関取組

鬼塚真

NTTソンン

NTT ソンン主幹研究員特別研究員

群馬県出身，ワンン大(911 時)

過去研究開発

CBoC type2 散開発

現在 ^研究

機械学習高速化 ( ン，ン等)

画像検索 _ン検索

分散処理による大規模デタ分析の背景狙い

大規模高速処理析短期間開

発技術確立

情報爆発言わ時代迎え、情報処理

大規模処理対高い

NTT 各社い、各種情報大量

活用う動進い

分散処理による大規模デタ分析の概要

単一ン向析 (機械学習統計処理) ^最

適散処理出

1. 抽象言語散出最適化 NII _胡教授

2. ^散処理 ^高速処理

統計処理集約処理，結合処理高速化

機械学習( ン推薦) 高速化

3. 最新利用た高速化省電力東大横田教授

group by n.dest) as c,Graph as m ^最適化

高速 _散処理

大規模 ^析い

析処理高速化取組

PJoin: 事前 ^ン ^割 ^準結合利用

機械学習高速化

ン高速化

大規模析 _い

大規模析 _適用例

n-gram/ ^ン析

: web ンン /SNS

目的: 頻出 ^ン学習

歴用いたソ

: web ^歴 ^視聴歴

用途: ^ソ検索

ワ _解析

散処理ン＆

高性: 1万 ( ン)，

散処理特有 _{複雑さ(負荷散} _{用性) 隠い}

web ^{検索ンン} ^ン ^用途た開発

PageRank 計算，転置構築

MapReduce ^キ

MapReduce: ^散処理

散 _DFS _構築

Map : ^入力毎 map関数実行

_{ン :} _{ン毎独立た処理}

Shuffle: 同一key (key, value) 群束

Reduce : ^束 ^た結 reduce 関数実行

_{ン : 複数} ンた _{必要処理}

MapReduce ^キ (続 )

fork _fork

Map Map task ^Reduce Reduce task

入力文書毎 map関数適用

単語毎頻度積算

以要素

関数型言語 ^ン

散環境 _適用

• map: ^ン内 ^{処理，reduce:} ^ン間 ^処理

• 論理 ^{ン = 物理} ^ン

• (key, value) + partition 関数 ^処理

• ^処理 ^散特有 ^{処理隠} ^い

• ^{間通信 (高速} ⁾

MapReduce: ^ンン実施例

MapReduce ^ン ^ン

転置ン