• 検索結果がありません。

共有辞書を用いた 効率の良い圧縮アルゴリズム

N/A
N/A
Protected

Academic year: 2021

シェア "共有辞書を用いた 効率の良い圧縮アルゴリズム"

Copied!
21
0
0

読み込み中.... (全文を見る)

全文

(1)

大規模テキストに対する

共有辞書を用いた

Re-Pair 圧縮法

るフォーラム (DEIM2013), 福島, 2013年3月.

Variable-to-Fixed-Length Encoding for Large Texts Using

Re-Pair Algorithm with Efficient Shared Dictionaries

関根 渓

, 笹川 裕人

, 吉田 諭史

, 喜田 拓也

北海道大学大学院情報科学研究科

(2)

背景:巨大なデータ

計算機上で扱うデータの巨大化.

効率の良い圧縮手法の提案が望まれている.

第5回データ工学と情報マネジ メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

2

動画

画像

音楽

文章

容量が足りない

時間がかかる

(3)

背景:文法圧縮

近年,

文法圧縮

に注目が集まっている.

入力テキストデータを一意に生成する文脈自由文

法を構築し,その文法を符号化する圧縮手法.

良い圧縮率を達成出来る.

代表的な文法圧縮アルゴリズム

Re-Pair [Larsson and Moffat 1999]

SEQUITUR [Nevill-Manning et al. 1994]

BPE [Gage 1994]

メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

(4)

最頻出の2-gramを新しい記号で置き換えていく.

Re-Pair アルゴリズム

第5回データ工学と情報マネジ メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

4

EN

OO

OBOE

OO

OBEE

OO

OB

EN

F

OBOE

F

OBEE

F

OB

F → OO

Dictionary

(5)

全ての2-gramがユニークになったら変換終了

Re-Pair アルゴリズム

メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

5

ENCODED

EN

OO

OBOE

OO

OBEE

OO

OB

EN

FO

BOE

FO

BEE

FO

B

EN

AB

OE

AB

EE

AB

ENCO

EC

E

EC

F → OO

A → FO

C → AB

D → EC

Dictionary

可変長符号で符号化

適当な2進符号化

圧縮

解凍

𝑇:

(6)

Re-Pair-VF [Yoshida & Kida 2013]

利点

固定長符号化を用いつつも,十分によ

い圧縮率を達成.(

gzipを超える

圧縮テキストが扱いやすい.

例:圧縮パターン検索が高速

欠点

メモリ消費が激しい.(平均して入力

テキストの

10~20倍

第5回データ工学と情報マネジ メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

6

(7)

Re-Pair-VF アルゴリズム

Text

CompText

Dictionary

Re-Pair-VF

GBを超えるテキスト

には適用が難しい

メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

7

(8)

第5回データ工学と情報マネジ メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

Original Text

対策:テキストのブロック化

Text1

Text2

Text3

Text4

テキストを分割

(ブロック化)

Re-Pair-VF

省メモリ化

8

Dic1

Comp1

Dic2

Comp2

Dic3

Comp3

Dic4

Comp4

出力される辞書の一部が同じエントリを持ってしまう.

(予備実験では,各ブロックで30%程度の2-gramの重複を確認)

(9)

メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

Original Text

対策:テキストのブロック化

Text1

Text2

Text3

Text4

テキストを分割

(ブロック化)

Re-Pair-VF

省メモリ化

9

Dic1

Comp1

Dic2

Comp2

Dic3

Comp3

Dic4

Comp4

出力される辞書の一部が同じエントリを持ってしまう.

(予備実験では,各ブロックで30%程度の2-gramの重複を確認)

冗長部分を共有化したい

(10)

Re-Merge [Wan & Moffat. ‘07]

各ブロックでRe-Pairを実行後,ブロック間で辞書のマージを行う.

圧縮率は良い(英文テキストにおいて20%弱)が時間がかかる.

Blocked-Re-Pair-VF [Sekine, Sasakawa et al. DBS ‘12]

先頭ブロックのテキストから共有辞書を生成.

圧縮率を悪化させることなく省メモリ化に成功.

関連研究

第5回データ工学と情報マネジメントに関する フォーラム (DEIM2013), 福島, 2013年3月.

(11)

Blocked-Re-Pair-VF [Sekine, Sasakawa et al. 2012]

テキストの先頭が全体の文脈を内包していると仮定し,

先頭ブロックのテキストから共有辞書を生成.

Blocked-Re-Pair-VF の問題点

フォーラム (DEIM2013), 福島, 2013年3月.

Bob laughed so hard that the salmon

carpaccio came out of his nose. The

department manager tried to tackle

the Santa Claus while completely

nak…

…GATA

CTAAACCCTAAAACCCCTTTTTTGAT

ACCCCAAATAGAAAAGGGTCCGTAA

AAATCACCATAATGATACCTGATTTT

hoge.txt

_人人人人人人_

> 突然のDNA <

 ̄Y^Y^Y^Y^Y ̄

Text1

Text2

Text3

Text4

Shared

DIC

(12)

Blocked-Re-Pair-VF [Sekine, Sasakawa et al. 2012]

テキストの先頭が全体の文脈を内包していると仮定し,

先頭ブロックのテキストから共有辞書を生成.

Blocked-Re-Pair-VF の問題点

第5回データ工学と情報マネジメントに関する フォーラム (DEIM2013), 福島, 2013年3月.

Bob laughed so hard that the salmon

carpaccio came out of his nose. The

department manager tried to tackle

the Santa Claus while completely

nak…

…GATA

CTAAACCCTAAAACCCCTTTTTTGAT

ACCCCAAATAGAAAAGGGTCCGTAA

AAATCACCATAATGATACCTGATTTT

hoge.txt

_人人人人人人_

> 突然のDNA <

 ̄Y^Y^Y^Y^Y ̄

変則的なテキストにも柔軟に対応可能な圧縮アルゴリズムが必要

Text1

Text2

Text3

Text4

Shared

DIC

テキストの途中で

大きく文脈が変わる場合,

圧縮率悪化の可能性

Re-Pair-VF

(13)

研究目的と主結果

(DEIM2013), 福島, 2013年3月.

13

目的

Blocked-Re-Pair-VF(先頭ブロック法)に

対し,共有辞書の構築法を改良し,圧縮パ

フォーマンスを調査する.

結果

改良アルゴリズム

サンプル法

を考案,計算機

実験によりその有用性を示した.

文脈が途中で変わるテキスト,および自然言語テ

キストに対して圧縮率が最大

4%

程度改善.

bzip2に匹敵する圧縮率

(約30%)

を達成.

(14)

サンプル法:共有辞書の作成フェイズ

第5回データ工学と情報マネジメントに関する フォーラム (DEIM2013), 福島, 2013年3月.

Text1

Text2

Text3

Text4

𝐵

𝑐

Re-Pair-VF

Shared

DIC

𝐶

Sampling & Merge

(15)

サンプル法:圧縮フェイズ

メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

15

Text1

Text2

Text3

Text4

Local Dic1

Comp1

Text2’

Replace

Local Dic2

Comp2

Re-Pair-VF

Re-Pair-VF

Text3’

Local Dic3

Comp3

Re-Pair-VF

以下同様

Text1’

Shared

DIC

(16)

実験1

目的

既存の圧縮手法とサンプル法の圧縮率を比較する.

比較手法

gzip

bzip2

Lzma

データ

Pizza and Chili corpus から取得した,DNAデー

タ,XMLデータ,および英文の自然言語テキスト

データを繋ぎ合わせ,2GBとしたものを用いた

(構成は25%,25%,50%).

第5回データ工学と情報マネジ メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

16

(17)

既存手法との比較

(DEIM2013), 福島, 2013年3月.

17

圧縮率

提案手法はbzip2に匹敵する圧縮率

(約30%)

を達成.

(符号語長19bit,ブロックサイズ128MB,共有辞書の割合3/8,サンプリングテキストサイズ128MB)

0%

10%

20%

30%

40%

50%

C

ompre

ss

io

n

R

at

io

(

%

)

(18)

実験2

目的

変則的なテキストにおけるサンプル法の圧縮

パフォーマンス(圧縮率,圧縮時間)を調査

する.

方法

サンプル法および旧手法において,入力パラ

メータを変化させながら,圧縮時間と圧縮率

を計測し比較する.

データ

実験1と同じ.

第5回データ工学と情報マネジ メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

18

(19)

圧縮率の比較

(サンプリングテキストサイズ128MB)

ほぼ全てのパラメータの組み合わせで圧縮率の改善

を確認出来た.

変則的なテキストにおける比較

(DEIM2013), 福島, 2013年3月.

19

ブロックサイズ 符号語長 共有辞書の割合

サンプル法 先頭ブロック法

128

18

7/8

29.56%

35.95%

128

19

5/8

28.04%

30.20%

64

19

7/8

29.07%

34.03%

64

22

5/8

30.97%

33.50%

32

20

7/8

29.48%

33.16%

(20)

圧縮時間の比較

(サンプリングテキストサイズ128MB)

サンプル法の方が5~10%程度遅い

変則的なテキストにおける比較

第5回データ工学と情報マネジ メントに関するフォーラム (DEIM2013), 福島, 2013年3月.

20

ブロックサイズ 符号語長 共有辞書の割合 サンプル法 先頭ブロック法

128

18

7/8

483.43秒

411.12秒

128

19

5/8

505.33秒

459.41秒

64

19

7/8

493.85秒

428.60秒

64

22

5/8

530.33秒

493.83秒

32

20

7/8

496.20秒

443.74秒

(21)

まとめ

結果

大規模テキストに対して,*VF符号による圧縮を行うた

めのアルゴリズムである

Blocked-Re-Pair-VFを改良

た,

サンプル法を提案

共有辞書の改良によって圧縮速度が若干悪化したが,圧

縮率は

4~20%

程度改善された.

bzip2並の圧縮率を達成

今後の展望

適切なパラメータの動的な決定法の考案.

共有辞書の作成方法の効率化.

(DEIM2013), 福島, 2013年3月.

21

*可変長の文字列に固定長の符号を割り当てる符号化方式

参照

関連したドキュメント

ると︑上手から士人の娘︽腕に圧縮した小さい人間の首を下げて ペ贋︲ロ

First three eigenfaces : 3 個で 90 %ぐらいの 累積寄与率になる.

 また伸縮率 640%を誇るナショナル護謨社開発 の DT ネオプレインを採用する事で起毛素材と言え

The notion of free product with amalgamation of groupoids in [16] strongly influenced Ronnie Brown to introduce in [5] the fundamental groupoid on a set of base points, and so to give

The notion of free product with amalgamation of groupoids in [16] strongly influenced Ronnie Brown to introduce in [5] the fundamental groupoid on a set of base points, and so to give

I give a proof of the theorem over any separably closed field F using ℓ-adic perverse sheaves.. My proof is different from the one of Mirkovi´c

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

The object of this paper is the uniqueness for a d -dimensional Fokker-Planck type equation with inhomogeneous (possibly degenerated) measurable not necessarily bounded