値算術符号による多値情報源の圧縮符号化

(1)

2 値算術符号による多値情報源の圧縮符号化

半田志郎

Binary Arithrrtetic Coding for Multi‑Level Information Sources.

Shiro HANDA

I nt hi spa pe r , wepr o pos ean e wc o° i n gs c he mef ormul t i ･ l e ve li nf o r mat i o ns ou r c e s . Amul t i ‑ l e ve lout c omee mi t t e df r om t hes o ur c ei sde c o mpos e di n t obi na r yl e t t e r s .So t he yc a nbee nc ode dbybi na r ya r i t hme t i cc odeus i n gt hec ondi t i o nalpr o ba bi l i t i e si nt o whi c ht hep r o ba bi l i t yofmul t i ･ l e ve lda t ai sal s ode c o mpo s e d.The r e f or et hi sc o°i n g s c he mei sdo neve r ye as i l yw it ho utl os sofe 氏c i e nc y. Wes ho wt hepe r f o r manc eoft hi s c o di n gs c he mef ora c t ua lda t aofi ma ge s ,Cs o ur c e s ,e t c .Fu r t h e r e mo r eanada pt i ve s c he meandmar kof fmo d e lc odi n gs c he mear eal s oc ons i de r e d.

1 . まえがさ

多情情報源から出力されるシンボルを符号化する場合,通常は一つのシンボルを単位として符号化する ( 1 ) . ところが算術符号( 2 ) の使用を前提とした場合,多値情報源を扱う算術符号は,符号化過程において多くの演算を必要とし,アルゴリズムも複雑となる. また,同一の演算器を用いる場合には , 2 値算術符号化と比べ, アルファベットの個数分だけ区間の分割が必要となるため,結果として演算精度が低下したことになり,圧縮率の低下をもたらすと考えられる.

以上の認識に立って,本論文では 2 値算術符号による多値情報源の符号化法,及びその圧縮率について検討している.まず,多情情報源出力を 2 倍の成分を持っベクトルに分解し, それと同時に多値情報源の確率分布を 2 値情報源の確率分布に分解する. これによって,情報源が定常エルゴ‑ ト的と考えられるならば,分解によるロスなしに 2 値算術符号で容易に符号化できることを示す.

2. 多値情報源の符号化 2. 1 確率分布の分解表現

多情情報源 X からの出力系列 X , . が 2

ⁿ

個の値を取り得るものとすると ,X z ･は

X. ･ ‑( X

^,^･

O ,X,

･1‑･･･

･ ,X

.･n̲I)

(1

)

とベクトルで表現できる. ここで ,X , ･ , ･は 0または 1 のみの値をとるものとする.

この様に表現したビット列は,多値情報源 X が定常的であるならば,明らかにブロック

●電気工学科講師

原稿受付平成

2

年

6 月22日

(2)

1 0

_半 _{田志郎}

定常となるので,各ビットはそれぞれ異なった確率分布を持つことになる. また,文字のコード表現の様な場合には,位置による重要度の様なものはないが,例えば画像情報のように輝度レベルを表した数値の様な場合には,上位ビットはど重要な意味を持っているので,符号化においてもそのような構造を保存したまま取り扱うことが望ましい.

X. ･の出現確率 p( X . I )はこのベクトル表記に従って, P( Xi ) ‑ P( X , ･｡ ,X , ･ l , ‑‑,X, ･ n ̲ 2 ,Ki n ‑I )

‑ p( X

,･

｡

)

♪( X , ･ lI Xl ･｡ )

･^･･･

･･ P( X, ･ n

̲1

iX z ･ O , X, ･ 1 ,･･････ ,Xl . n ̲2 ) (2) となる. ここで ,P( ･ l･) は条件付き確率を示す. この表現によると,X . ･の符号化は P

( X. 1 ) 自身を用いて多値で行う必要はなく ,2 値情報の条件付き確率分布を用いて , 2 倍算術符号で容易に行えることになる. また, この分解によってエントロピーの変化はないので, 分解によるロスは無い.次章で詳しく述べるが, ビットによって重みに違いのあるような場合には,重みの順番にビット分解するのが望ましい.

この分解によって情報源を記述する′ iラメータの数が不変であることは,容易に確かめられる.例えは,情報源 X が2 56 値の値を取り得るものとすると ,n ‑ 8となり,上の分解で, P( x . 0 ) の記述に 1 つ,P( x , p l l x , ･｡ ) に 2 つ,以下 4, 8 ,･･････ ,1 2 8 ,合計で2 55 個のパラメ

ータとなり ,25 6 値情報源を記述するのと同一である.

次に情報源をマルコフ情報源によってモデル化する場合には,ある時点での出力は以前の出力系列に依存することになる.すなわち,以前の出力系列によって決まる状態即こよって現在の出力 X, ･が左右される.従って,出現確率も条件付き確率 p( X , ･lS. A ) を用いて示さ

れる. これも(2)と同様にして,

p( X . l lSl ･ ) ‑ P( xz l 0 ,‑ ‑ ,X, n ̲ 1lS, ･ )

‑ p( x z . 0I S , ･ ) p( x z p l lx . 0 ,S L ) ･･････ P( xm̲ 1 L

x .1

. ,X

z

1 , ‑‑,Xt n ̲ 2 ,S. ) ( 3) と分解することによって ,2 倍算術符号で容易に符号化できることが分かる.

2. 2 適応的符号化

一般に, これから符号化しようとする情報源の確率分布が既知であることは稀である.そのような場合にも効率よく符号化を行うため,次の 2 つの方法が考えられる.

( 1 ) 静的符号化法 :確率分布を調べ直して, これを受信側へ送った後に符号化を行う方法.

( 2 ) 適応的符号化法 :データが入ってくる度に確率分布を更新して,常にその時点で推定で

きる最良の確率分布を用いる方法･

情報源が定常エルゴード的であれば,上記の 2 つの方法は理論的に同一の符号化効率を達

成することが知られているが( 3 ) ,( 1 ) の方法は情報源を一度先読みして確率分布を求める必要

があるため,現実的には,データの 2 度読みといった操作が必要となり,符号化速度の点で

も不利である. また,設定したモデルの′ iタメータをすべて受信側へ送らなければならない

ので, モデル設定の難しさも直接効いてくることになる. これに比べ( 2) の方法はデータの 2

度読みの必要もなく, また多少大きなモデルを設定しても,パラメータ推定においてモデル

の使用しない部分には到達しないといった簡単な自動調整機構が作用するので,それほどモ

(3)

デル設定の難しさが効いてこないという利点がある.そこで,本論文でもこの適応的符号化法を用いることにする.

図 1 に示す深さ nの木を考える.右の枝は 1 ,左の枝は 0に対応する.各校には, カウンタが一つずつ付いている. この木を用いて符号化を行う.

符号化法 :

[1]X tに対して式( 1 ) の分解によって x, ･ , . を得る.

[2 ] ポインタを r o o t に移し ( k ‑0) ,) I ‑0 とする.

[3 ]xt ･ j をポインタ k で示される 2 つの枝のカウント値 c h ( 0) , c A ( 1) によって算術符号化する.

[ 4] C 々 ( x i , . )‑C k ( x i , ･ ) +1

[5]

x

z ･ , ･が 0なら左下 ,1 なら右下のノードにポインタを移す.

[ 6] ) I ‑n‑ 1 なら終了.そうでなければ ,) ' ‑) ' + 1 として [ 3 ]‑

以上の符号化において,木が一段深くなることは,一つ条件が多く付いたことを意味し, 式 ( 2 ) の確率分布の分解表現とよく対応している. さらに,数値情報のように上位ビットと下位ビットで重みが違う場合も,木構造の根に近い重要な部分ほど多く通過するので,確率分布の暖昧性がなくなり,従って真の確率分布に近い確率で符号化できる. また,各ノード k での算術符号化においては,

p々 ( 0 )= ^c ^A ⁽ 0) + 1 c h ( 0 )+c h (1)+2 I ) A( 1 ) ‑ 1 ‑PA ( 0)

として符号化を行っている. これは,連続の法則 ( Th el o wo fs u c c e s s i o n ) と呼ばれ( 4 ㌧ c A (o)+c h (1)回の観測の後に,次の出力が 0または 1 である確率の期待値が上式で与えられることに基づいている.すなわち,真の確率分布の最良の予測になっている.

0 くさ 1

0( r o o t )

図 1 符号化の木

(4)

1 2

_{半田志郎}

マルコフ情報源モデルを適用する場合 (1次のマルコフ情報源モデルに限る) には,上記の木を状態の数だけ用意し,各状態で別々の木を用いて符号化を行えばよい. この時注意しなければならないのは,余り大きな ( 状態数の多い) モデルを設定してしまうと,各カウンタ値は希薄となり過ぎて,確率分布の推定が暖味になってしまう.そこで,本論文では状態として直前のデータの上位数ビットのみを用いている.

3. 符号化実験および考察

計算機上に上記の符号化器を作成し,符号化シミュレーションを行った.表 1 に資料として用いたデータの大きさと種類を示している.画像データは,東大生研の標準画像 SI DBA から選んだ人物像 ( gi r l .i mg)及び航空写真 ( a er i al .i mg)である.データは 1 サンプル 8 ビットであり, ラスター走査の順番に並んでいる.画像のサイズは,gi r l .i mgが 2 56×2 56 画素,ae r i al .i mg が51 2×51 2 画素である. Cのソ‑スプログラムは,本方式を実現するために作成したソースのアスキーファイルである.実行形式ファイルは, ワークステ‑ショソ ( SONY NEWS NWS‑ 38 6 0)上の本プログラムの実行ファイルと漢字 emac s というエディタの実行ファイルである.

図

2

にバイト単位で符号化を行った場合の圧縮率を示している. また,図

3

に本論文で提案した方式によるビット単位の符号化法の圧縮率を示している.なお,圧縮率は次式で定義

している.すなわち,符号化によって減少した割合を示している.

圧縮率 ‑ 元のファイルのバイト数一圧縮後のファイルのバイト数

元のファイルのバイト数 (6)

画像データと実行形式ファイルに対しては, それほど大きな違いはみられない. しかし, gi r l .i mgにおいては,. バイト単位符号化では状態の数が多くなると,圧縮率の低下が顕著となるが, ビット単位符号化ではそれほど低下しない. これは,先に述べたモデルの設定の難しさが顕著に影響したよい例である. このことは,他のファイルについても同様であり, バイト単位符号化では最適な圧縮率を与える状態のビット数が, ファイルごとにまちまちであるのに対して, ビット単位符号化では,状態のビット数がほぼ 8 の所で最大となっている.

C 言語のソースファイルに対しては,顕著な違いがみられる.バイト単位符号化では,状態のビット数が

2

から

3

で圧縮率は最大となり,それ以上大きくならない. しかし, ビット単位符号化では , 8 で最大となり, さらに大きくしても (2 バイト以上のマルコフ性を考慮

表 1 実験に用いたファイルの大きさと種類

ファイルサイズ種類 c o mpr e s s の耳桁率 gi r l .i mg 6 5, 5 3 6 画像デ‑タ 0. 2 6 3 5 2▲

ae r i al .i mg 2 6 2, 1 4 4 画像データ 0. 1 0 6 5 0

bi Li o.C .1, 4 1 7

C

言語ソー. スコ⊥ ド 0. 3 3 9 4 5

ma r i t h.C 4, 8 7 . 9

C

言語ソ‑スコード 0. 4 1 3 2 0

ma r i t h 5 2, 7 3 2 実行形式 0. 4 3 0 1 4

(5)

8 . 6 0 . 5 浄 0 . 4 輩也 0 . 3

0 . 2 0 . 1

̲N‑ ‑‑, ‑J < . ‑' ‑●' X. 一一 ‑ ‑ 〜 . ‑. ‑. X‑ ‑‑ ‑ 六一一‑守早‑ ‑ ‑ ‑ ‑ . ‑一宇一一一一一一一 . 〇一

○ ̲ ̲ . ̲ ̲ .̲ :‑ 二:三. ニコーポ ‑ 二‑ムー､ ▲‑一一二二二 A一一

e 1 2 3 4 5 6 7 8

状態のビット数

ロg l r l . 1 m g +a e r l a l . l n g Omr l t h . c Ab l LI o . c Xmr l t . h Vk e mc s 図 2 バイト単位符号化

0 . 6 0 . 5 線 0 . 4 也守

0 . 3 0 . 2 0 . 1

×一サー. 一‑ ‑ ‑一汁‑ ‑ 一一一‑ 7 . ‑ ‑ ‑ . ‑ 二 . 一 ' 一 ‑X‑ J : < ‑ 2‑ ‑ ‑. 2 ‑ ‑ ‑. ̲‑ ‑ ′ 一一一か ̲ ̲ ̲ 一中一 ^ 一一ムー‑‑A‑‑一一一‑A ‑∫ . +. . i . ‑ . こ . . . i . .‑ , ‑ エ ; . ニー ‑ 甥 . ′ 一一皇 ‑ rL. 二名一 ÷′ ̲ . ̲ . ‑ , +. . . . . . . . ‑ . ‑ . +‑‑ . ‑ . . . ‑ ‑ +. ‑ . ‑‑ ‑. . +‑ ‑ ‑ 一一一 ‑ ‑ ‑ ‑ +‑ ‑ ‑‑ ‑ ㌔ ‑ +

̲ ̲ i ‑ . イー . . , ' ' . . ‑ , ‑ +‑ , ‑ ‑ . ‑ I l . ‑ 〟

+ ● ー l l l ●

0 1 2 3 4 5 6 7 8

状慾のビット数

t jg i r l . l n g +a e r i a l . l r n g Om a r l t h . c Ab l Ll o . c Xm a r l t h マk e mc s 図 3 ビット単位符号化

しても)圧縮率の増大が期待できる.最大の圧縮率が得られるところで比較すると,本論文で提案したビット単位符号化法では,バイト単位符号化法と比べ,約 1 3 % 高い圧縮率が得られている.

表 1 に ,UN IX の標準圧縮方式として提供されている c o mpr e

s

s(LZW 符号化法( 5 ) ) コマンドの各ファイルに対する圧縮率が示されている. LZW 法は,文字の連続パターンを符号化する形の方法であるため, ソースファイルのように相関の高いファイルに対しては非常に強力のはずである.本方式は,直前の出力文字とのマルコフ性を利用しているに過ぎないが ,LZW 法と比較しても,画像ファイルに対して約 2 0 %,C 言語ソースファイルで約 5

%,実行形式ファイルで約 3% ,それぞれ高い圧縮率が得られている. この理由として,本

方式はビット単位で圧縮を行うため,バイト単位の情報の内部 (ピットの連なり) に存在す

る冗長性をもよく取り除いていると考えられる.すなわち,バイト単位符号化では,文字は

(6)

1 4

半田志郎

全く別々の記号として扱われ,文字の連なり,確率の偏りの度合いが圧縮率を決めるが, どット単位符号化では,それらに加えてビットの連なりにおける相関も圧縮率を高める方向に作用する.例えば, アスキーファイルでは文字 abc〜 Oは上位 4 ビットが 0110 と共過であるが,バイト単位符号化では, これらを全く別々の記号として扱うのに対して, ビット単位符号化ではこの共通性が圧縮率を高める方向に作用している.

4. むすび

多値情報源を 2 億算術符号で効率よく,容易に符号化する方法を示した. まず,情報源出力をビットのベクトルに分解し,それと同時に多値出力の確率分布を条件付き確率で表現することによって ,2 倍算術符号での符号化が可能となることを示した. さらに,実際の UN

IX 上のファイルに適用して圧縮率を調べた.その結果,高い圧縮率が得られることで知られている compr e s s コマンド (LZW 法) と比較しても,本方式は画像ファイルで約 2 0%, C 言語ソースファイルで約 5% ,実行形式ファイルで約 3% ,それぞれ高い圧縮率を示すことが明かとなった.

本方式では,直前の文字とのマルコフ性のみを用いているが, さらに多くの文字とのマスコフ性を考慮しても, より高い圧縮率が期待できることが,実験結果から明かとなったので, これを詳しく調べること,及び符号化の高速化が今後の課題である.

謝辞

実験に用いた標準画像を提供して頂いた東大生研関係者各位に感謝する. また,本研究の一部は,平成元年度科学研究費補助金奨励研究 ( A) ( 課題番号 : 01 7 50 3 0 8) の援助の下に行われた.

参考文献 ( 1 ) 笠原,田崎,小倉 :情報理論,昭晃堂 ( 昭 6 0 ‑1 0 ) .

( 2 ) ∫ . Ri s s a n e nan dG. G. La ngdo n, J r: " Ar i t hme t i cCo°i n g, " I BM ∫. Re s . DEVELOP, vol . 2 3 , p p.

1 4 9 ‑ 1 6 2( Mar c h1 9 7 9 ) .

( 3 )∫ .Ri s s a ne nan dG.G.Lan gdo n, J r:" Uni ve r s alMode l i n ga ndCo°i ng, " I EEETr a ms . I nf o m . The o r y, γ ol .

I

T‑ 2 7 , 1 ,pp.1 2 ‑ 2 3( J a m.1 9 8 1 ) .

(4

)A.Papo ul i s: Pr o b a b i l i t y ,Ro nd o m 一 r an' a b l e s ,andSt o c h a s i i cPy 1 0 C e S S e S ,Mc Gr awHi l l( 1 9 8 4 ) . ( 5 ) T. A. We l c h:" ATe c hni quef o rHi g h･ Pe r f o mac eDa t aCo mp r e s s i o n, " I EEECo mp ut e r , pp. 8

‑ 1 9

,

値算術符号による多値情報源の圧縮符号化

2 値算術符号による多値情報源の圧縮符号化

半 田 志 郎

Binary Arithrrtetic Coding for Multi‑Level Information Sources.

Shiro HANDA

1 . ま え が さ

2. 多値情報源の符号化 2. 1 確率分布の分解表現

多情情報源 X か らの出力系列 X , . が 2

個の値 を取 り得 るものとすると ,X z ･ は

X. ･ ‑( X

O ,X,

･ ,X

(1

とベク トルで表現できる. ここで ,X , ･ , ･ は 0または 1 のみの値をとるものとす る.

この様 に表現 した ビット列 は,多値情報源 X が定常的であるならば,明 らかにブロック

2

6 月22日

1 0

X. ･ の出現確率 p( X . I )はこのベク トル表記 に従 って, P( Xi ) ‑ P( X , ･ ｡ ,X , ･ l , ‑‑,X, ･ n ̲ 2 ,Ki n ‑I )

‑ p( X

｡

♪( X , ･ lI Xl ･ ｡ )

･ ･ P( X, ･ n

iX z ･ O , X, ･ 1 ,･ ･ ･ ･ ･ ･ ,Xl . n ̲2 ) (2) となる. ここで ,P( ･ l･) は条件付 き確率 を示す. この表現 に よると,X . ･ の符号化 は P

ータとな り ,25 6 値情報源を記述す るの と同一であ る.

れ る. これ も(2)と同様 にして,

p( X . l lSl ･ ) ‑ P( xz l 0 ,‑ ‑ ,X, n ̲ 1lS, ･ )

‑ p( x z . 0I S , ･ ) p( x z p l lx . 0 ,S L ) ･ ･ ･ ･ ･ ･ P( xm̲ 1 L

. ,X

1 , ‑‑,Xt n ̲ 2 ,S. ) ( 3) と分解す ることによって ,2 倍算術符号で容易 に符号化で きることが分かる.

2. 2 適応的符号化

一般 に, これか ら符号化 しようとす る情報源 の確率分布 が既知であることは稀 であ る.そ の よ うな場合にも効率 よく符号化 を行 うため,次 の 2 つの方法が考 えられ る.

( 1 ) 静的符号化法 :確率分布 を調べ直 して, これを受信側へ送 った後 に符号化 を行 う方法.

( 2 ) 適応的符号化法 :データが入 って くる度 に確率分布 を更新 して,常 にその時点で推定で

きる最良の確率分布 を用いる方法 ･

情報源が定常 エル ゴー ド的であれば,上記 の 2 つの方法 は理論的 に同一の符号化効率 を達

成す ることが知 られているが( 3 ) ,( 1 ) の方法 は情報源 を一度先読み して確率分布 を求め る必要

があ るため,現実的には,データの 2 度読み といった操作が必要 とな り,符号化速度 の点 で

も不利である. また,設定 したモデルの′ iタメータをすべて受信側へ送 らなければな らない

ので, モデル設定の難 しさも直接効いて くることになる. これに比べ( 2) の方法 はデータの 2

度読みの必要 もな く, また多少大 きなモデルを設定 しても,パ ラメータ推定 においてモデル

の使用 しない部分 には到達 しない といった簡単 な自動調整機構 が作用す るので,それ ほどモ

デル設定 の難 しさが効 いて こない とい う利点がある.そ こで,本論文で もこの適応的符号化 法を用いることにす る.

図 1 に示す深 さ nの木 を考 える.右 の枝 は 1 ,左 の枝 は 0に対応す る.各校 には, カ ウ ンタが一つずつ付いている. この木 を用いて符号化 を行 う.

符号化法 :

[1]X tに対 して式( 1 ) の分解 によって x, ･ , . を得 る.

[2 ] ポインタを r o o t に移 し ( k ‑0) ,) I ‑0 とす る.

[3 ]xt ･ j をポインタ k で示 され る 2 つの枝 のカウン ト値 c h ( 0) , c A ( 1) に よって算術符号 化す る.

[ 4] C 々 ( x i , . )‑C k ( x i , ･ ) +1

[5]

z ･ , ･ が 0なら左下 ,1 なら右下 の ノー ドにポインタを移す.

[ 6] ) I ‑n‑ 1 なら終了.そ うでなければ ,) ' ‑) ' + 1 として [ 3 ]‑

p々 ( 0 )= c A ( 0) + 1 c h ( 0 )+c h (1)+2 I ) A( 1 ) ‑ 1 ‑PA ( 0)

0 く さ 1

0( r o o t )

図 1 符号化の木

1 2

3. 符号化実験および考察

図

にバイ ト単位 で符号化を行 った場合の圧縮率 を示 している. また,図

に本論文で提 案 した方式によるビット単位の符号化法 の圧縮率を示 してい る.なお,圧縮率 は次式で定義

している.す なわち,符号化 によって減少 した割合 を示 している.

圧縮率 ‑ 元 のファイルのバイ ト数 一圧縮後の ファイルのバイ ト数

元の ファイルのバイ ト数 (6)

C 言語 の ソースファイルに対 しては,顕著 な違いがみ られ る.バ イ ト単位符号化で は,状 態の ビット数が

か ら

で圧縮率 は最大 とな り,それ以上大 きくな らない. しか し, ビッ ト 単位符号化では , 8 で最大 とな り, さらに大 き くしても (2 バイ ト以上 のマル コフ性 を考慮

表 1 実験に用いたファイルの大きさと種類

フ ァ イ ル サ イ ズ 種 類 c o mpr e s s の耳桁率 gi r l .i mg 6 5, 5 3 6 画像デ‑タ 0. 2 6 3 5 2▲

ae r i al .i mg 2 6 2, 1 4 4 画像データ 0. 1 0 6 5 0

bi Li o.C .1, 4 1 7

言語 ソー. スコ⊥ ド 0. 3 3 9 4 5

ma r i t h.C 4, 8 7 . 9

言語 ソ‑スコー ド 0. 4 1 3 2 0

ma r i t h 5 2, 7 3 2 実行形式 0. 4 3 0 1 4

8 . 6 0 . 5 浄 0 . 4 輩 也 0 . 3

0 . 2 0 . 1

̲N‑ ‑‑, ‑J < . ‑' ‑●' X. 一一 ‑ ‑ 〜 . ‑. ‑. X‑ ‑‑ ‑ 六一一‑守 早‑ ‑ ‑ ‑ ‑ . ‑一 宇一 一 一 一 一 一 一 . 〇 一

○ ̲ ̲ . ̲ ̲ .̲ :‑ 二:三. ニコー ポ ‑ 二‑ムー､ ▲‑一一二 二 二 A一一

e 1 2 3 4 5 6 7 8

半田志郎

1 . まえがさ

多情情報源 X からの出力系列 X , . が 2

個の値を取り得るものとすると ,X z ･は

とベクトルで表現できる. ここで ,X , ･ , ･は 0または 1 のみの値をとるものとする.

この様に表現したビット列は,多値情報源 X が定常的であるならば,明らかにブロック

X. ･の出現確率 p( X . I )はこのベクトル表記に従って, P( Xi ) ‑ P( X , ･｡ ,X , ･ l , ‑‑,X, ･ n ̲ 2 ,Ki n ‑I )

♪( X , ･ lI Xl ･｡ )

･･ P( X, ･ n

iX z ･ O , X, ･ 1 ,･･････ ,Xl . n ̲2 ) (2) となる. ここで ,P( ･ l･) は条件付き確率を示す. この表現によると,X . ･の符号化は P

ータとなり ,25 6 値情報源を記述するのと同一である.

れる. これも(2)と同様にして,

‑ p( x z . 0I S , ･ ) p( x z p l lx . 0 ,S L ) ･･････ P( xm̲ 1 L

1 , ‑‑,Xt n ̲ 2 ,S. ) ( 3) と分解することによって ,2 倍算術符号で容易に符号化できることが分かる.

一般に, これから符号化しようとする情報源の確率分布が既知であることは稀である.そのような場合にも効率よく符号化を行うため,次の 2 つの方法が考えられる.

( 1 ) 静的符号化法 :確率分布を調べ直して, これを受信側へ送った後に符号化を行う方法.

( 2 ) 適応的符号化法 :データが入ってくる度に確率分布を更新して,常にその時点で推定で

きる最良の確率分布を用いる方法･

情報源が定常エルゴード的であれば,上記の 2 つの方法は理論的に同一の符号化効率を達

成することが知られているが( 3 ) ,( 1 ) の方法は情報源を一度先読みして確率分布を求める必要

があるため,現実的には,データの 2 度読みといった操作が必要となり,符号化速度の点で

も不利である. また,設定したモデルの′ iタメータをすべて受信側へ送らなければならない

ので, モデル設定の難しさも直接効いてくることになる. これに比べ( 2) の方法はデータの 2

度読みの必要もなく, また多少大きなモデルを設定しても,パラメータ推定においてモデル

の使用しない部分には到達しないといった簡単な自動調整機構が作用するので,それほどモ

デル設定の難しさが効いてこないという利点がある.そこで,本論文でもこの適応的符号化法を用いることにする.

図 1 に示す深さ nの木を考える.右の枝は 1 ,左の枝は 0に対応する.各校には, カウンタが一つずつ付いている. この木を用いて符号化を行う.

[1]X tに対して式( 1 ) の分解によって x, ･ , . を得る.

[2 ] ポインタを r o o t に移し ( k ‑0) ,) I ‑0 とする.

[3 ]xt ･ j をポインタ k で示される 2 つの枝のカウント値 c h ( 0) , c A ( 1) によって算術符号化する.

z ･ , ･が 0なら左下 ,1 なら右下のノードにポインタを移す.

[ 6] ) I ‑n‑ 1 なら終了.そうでなければ ,) ' ‑) ' + 1 として [ 3 ]‑

p々 ( 0 )= ^c ^A ⁽ 0) + 1 c h ( 0 )+c h (1)+2 I ) A( 1 ) ‑ 1 ‑PA ( 0)

0 くさ 1

にバイト単位で符号化を行った場合の圧縮率を示している. また,図

に本論文で提案した方式によるビット単位の符号化法の圧縮率を示している.なお,圧縮率は次式で定義

している.すなわち,符号化によって減少した割合を示している.

圧縮率 ‑ 元のファイルのバイト数一圧縮後のファイルのバイト数

元のファイルのバイト数 (6)

C 言語のソースファイルに対しては,顕著な違いがみられる.バイト単位符号化では,状態のビット数が

から

で圧縮率は最大となり,それ以上大きくならない. しかし, ビット単位符号化では , 8 で最大となり, さらに大きくしても (2 バイト以上のマルコフ性を考慮

ファイルサイズ種類 c o mpr e s s の耳桁率 gi r l .i mg 6 5, 5 3 6 画像デ‑タ 0. 2 6 3 5 2▲

言語ソー. スコ⊥ ド 0. 3 3 9 4 5

言語ソ‑スコード 0. 4 1 3 2 0

8 . 6 0 . 5 浄 0 . 4 輩也 0 . 3

̲N‑ ‑‑, ‑J < . ‑' ‑●' X. 一一 ‑ ‑ 〜 . ‑. ‑. X‑ ‑‑ ‑ 六一一‑守早‑ ‑ ‑ ‑ ‑ . ‑一宇一一一一一一一 . 〇一

○ ̲ ̲ . ̲ ̲ .̲ :‑ 二:三. ニコーポ ‑ 二‑ムー､ ▲‑一一二二二 A一一

ロg l r l . 1 m g +a e r l a l . l n g Omr l t h . c Ab l LI o . c Xmr l t . h Vk e mc s 図 2 バイト単位符号化

0 . 6 0 . 5 線 0 . 4 也守

状慾のビット数

しても)圧縮率の増大が期待できる.最大の圧縮率が得られるところで比較すると,本論文で提案したビット単位符号化法では,バイト単位符号化法と比べ,約 1 3 % 高い圧縮率が得られている.

表 1 に ,UN IX の標準圧縮方式として提供されている c o mpr e

%,実行形式ファイルで約 3% ,それぞれ高い圧縮率が得られている. この理由として,本

方式はビット単位で圧縮を行うため,バイト単位の情報の内部 (ピットの連なり) に存在す

る冗長性をもよく取り除いていると考えられる.すなわち,バイト単位符号化では,文字は

4. むすび

謝辞

実験に用いた標準画像を提供して頂いた東大生研関係者各位に感謝する. また,本研究の一部は,平成元年度科学研究費補助金奨励研究 ( A) ( 課題番号 : 01 7 50 3 0 8) の援助の下に行われた.

参考文献 ( 1 ) 笠原,田崎,小倉 :情報理論,昭晃堂 ( 昭 6 0 ‑1 0 ) .