講義「情報理論」

(1)

講義「情報理論」

第９回通信路のモデル

情報理工学部門情報知識ネットワーク研究室喜田拓也

(2)

非等長情報源系列の符号化（おさらい）

1, 0 を確率 0.2, 0.8 で発生する無記憶定常情報源 𝑆𝑆 を考える．

𝑆𝑆 から発生する系列を４つ選び，ハフマン符号化を行う．

(0.8)

0

1

_0.2

0 1

(0.64)

0.16

0 1

0.512 0.128

情報源系列を分割する分節木

各ブロックの平均長 𝑛𝑛 は 𝑛𝑛 = 1 × 0.2 + 2 × 0.16

+3 × 0.128 + 3 × 0.512

= 2.44

情報源

系列確率ハフマン符号

0 0 0 0.512 0

0 0 1 0.128 100 0 1 0 0.16 101 1 0 0 0.2 11

0.488

1 1

0 1 0

0

0.288 1.0

右の符号の平均符号長 𝐿𝐿𝐿 ＝ 1.776 よって 1 記号あたりの

平均符号長 𝐿𝐿 は 𝐿𝐿 ＝ 1.776

2.44 = 0.728

(3)

ひずみが許される場合の情報源符号化（おさらい）

この定理は， 1 情報源記号あたりの平均符号長を，速度・ひずみ

関数 𝑅𝑅 𝐷𝐷 にいくらでも近づく符号化法の存在を示している

具体的な符号化方法はあるのか？

ひずみのない場合に比べてはるかに難しい！

定理［ひずみが許される場合の情報源符号化定理］

平均ひずみ 𝑑𝑑 を 𝐷𝐷 以下に抑えるという条件の下で，任意の正数 𝜀𝜀 に対して，情報源 𝑆𝑆 を 1 情報源記号あたりの平均符号長 𝐿𝐿 が

𝑅𝑅 𝐷𝐷 ≤ 𝐿𝐿 < 𝑅𝑅 𝐷𝐷 + 𝜀𝜀

となるような 2 元符号へ符号化できる．しかし，どのような符号化を行っても， 𝑑𝑑 ≤ 𝐷𝐷 である限り， 𝐿𝐿 をこの式の左辺より小さくすることはできない．

教科書【例

5.8

】参照

(4)

今日の内容

6.1 通信路の統計的表現

6.2 記憶のない定常通信路

6.3 加法的 2 元通信路

(5)

もう一度，情報理論の問題について

情報理論が取り組む４つの問題

【問題１】できるだけよい情報源符号化法（復号法）を見出すこと

【問題２】情報源符号化の限界を知ること

【問題３】できるだけよい通信路符号化法（復号法）を見出すこと

【問題４】通信路符号化の限界を知ること

デジタル情報源

情報源符号化

あて先

2元通信路通信路

符号化

情報源復号

通信路復号符号化

復号

誤りやひずみ

(6)

通信路の統計的表現

雑音のある離散的通信路の定義：

時点毎に一つの記号が入力され，一つの記号が出力される出力は入力から一意的に定まるのではなく，確率的に決まる！

𝑃𝑃

_𝑌𝑌₀_,𝑌𝑌₁_…𝑌𝑌_𝑛𝑛−1_|𝑋𝑋₀_,𝑋𝑋₁_…𝑋𝑋_𝑛𝑛−1

𝑦𝑦

₀

, 𝑦𝑦

₁

, … , 𝑦𝑦

_𝑛𝑛−1

𝑥𝑥

₀

, 𝑥𝑥

₁

, … , 𝑥𝑥

_𝑛𝑛−1

= [𝑋𝑋

₀

= 𝑥𝑥

₀

, 𝑋𝑋

₁

= 𝑥𝑥

₁

, … , 𝑋𝑋

_𝑛𝑛−1

= 𝑥𝑥

_𝑛𝑛−1

の条件の下で 𝑌𝑌

₀

= 𝑦𝑦

₀

, 𝑌𝑌

₁

= 𝑦𝑦

₁

, … , 𝑌𝑌

_𝑛𝑛−1

= 𝑦𝑦

_𝑛𝑛−1

となる確率 ] 入力 𝑋𝑋

₀

, 𝑋𝑋

₁

, … , 𝑋𝑋

_𝑛𝑛−1

に対する 𝑌𝑌

₀

, 𝑌𝑌

₁

, … , 𝑌𝑌

_𝑛𝑛−1

の確率分布

入力アルファベット 𝐴𝐴 = 𝑎𝑎

₁

, 𝑎𝑎

₂

, … , 𝑎𝑎

_𝑟𝑟

出力アルファベット 𝐵𝐵 = 𝑏𝑏

₁

, 𝑏𝑏

₂

, … , 𝑏𝑏

_𝑠𝑠

通信路

Communication channel

|𝐴𝐴| = |𝐵𝐵| = 𝑟𝑟 のときは， 𝑟𝑟 元通信路（ 𝑟𝑟 -ary channel ）という

𝑋𝑋

_𝑡𝑡

𝑌𝑌

_𝑡𝑡

(7)

記憶のない定常通信路（ memoryless channel ）

各時点の出力の現れ方が，その時点の入力には関係するが，

それ以外の時点の入力・出力とは独立であるような通信路を，

記憶のない通信路という

さらに，時間をずらしても統計的性質が変わらないとき，これを記憶のない定常通信路と呼ぶ

記憶のない定常通信路では，入力 𝑋𝑋 が通信路に投入されたときに出力 𝑌𝑌 が出る条件付確率 𝑃𝑃

_{𝑌𝑌|𝑋𝑋}

(𝑦𝑦|𝑥𝑥) が，すべての時点において同一である．したがって，

𝑃𝑃

_𝑌𝑌₀_…𝑌𝑌_𝑛𝑛−1_|𝑋𝑋₀_…𝑋𝑋_𝑛𝑛−1

𝑦𝑦

₀

, … , 𝑦𝑦

_𝑛𝑛−1

𝑥𝑥

₀

, … , 𝑥𝑥

_𝑛𝑛−1

= �

𝑖𝑖=0

𝑛𝑛−1

𝑃𝑃

𝑦𝑦

_𝑖𝑖

𝑥𝑥

_𝑖𝑖

.

(8)

通信路行列と通信路線図

𝑟𝑟 元入力アルファベット 𝐴𝐴 = {𝑎𝑎

₁

, 𝑎𝑎

₂

, … , 𝑎𝑎

_𝑟𝑟

} ， 𝑠𝑠 元出力アルファベット 𝐵𝐵 = {𝑏𝑏

₁

, 𝑏𝑏

₂

, … , 𝑏𝑏

_𝑠𝑠

} ，入出力の関係が条件付確率 𝑝𝑝

_{𝑖𝑖𝑖𝑖}

= 𝑃𝑃

𝑏𝑏

_𝑖𝑖

𝑎𝑎

_𝑖𝑖

で与えられる記憶のない定常通信路を考える

𝑎𝑎 _𝑖𝑖 𝑏𝑏 _𝑖𝑖

入力出力

𝑝𝑝 _{𝑖𝑖𝑖𝑖}

𝑇𝑇 =

𝑝𝑝 ₁₁ 𝑝𝑝 ₁₂

𝑝𝑝 ₂₁ 𝑝𝑝 ₂₂ ⋯ 𝑝𝑝 _1𝑠𝑠 𝑝𝑝 _2𝑠𝑠

⋮ ⋱ ⋮

𝑝𝑝 _𝑟𝑟1 𝑝𝑝 _𝑟𝑟2 ⋯ 𝑝𝑝 _{𝑟𝑟𝑠𝑠}

𝑝𝑝

_{𝑖𝑖𝑖𝑖}

を (𝑖𝑖 , 𝑗𝑗) 要素とする通信路行列

出力側

入力側

𝑎𝑎

₁

𝑎𝑎

₂

𝑎𝑎

_𝑟𝑟

・・・・・・・・・・・・・

𝑏𝑏

₁

𝑏𝑏

₂

𝑏𝑏

_𝑠𝑠

通信路線図

𝑝𝑝

₁₁

𝑝𝑝

_{𝑟𝑟𝑠𝑠}

入力側出力側

(9)

例題 6.1

𝑃𝑃(𝑥𝑥 |𝑦𝑦) 𝑦𝑦

𝑏𝑏

₁

𝑏𝑏

₂

𝑏𝑏

₃

𝑥𝑥

𝑎𝑎

₁

0.5 0.2 0.3

𝑎𝑎

₂

0 0.6 0.4

𝑎𝑎

₃

0.8 0.1 0.1

𝑇𝑇 = 0.5 0.2 0.3 0 0.6 0.4 0.8 0.1 0.1 通信路行列 𝑇𝑇

𝑎𝑎

₁

𝑎𝑎

₃

𝑏𝑏

₁

𝑏𝑏

₃

0.3

𝑏𝑏

₂

0.2 0.5

𝑎𝑎

₂ ^0.6

0.80.4 0.1 0.1

通信路線図 Try

練習問題

6.1

(10)

一様な通信路

2 元対称通信路

（binary symmetric channel; BSC）

2 元対称消失通信路

入力アルファベットは {0, 1}

出力アルファベットは {0, 1, ∅ }

（ ∅ は消失を表現）

0

1

0 1 − 𝑝𝑝 1 1 − 𝑝𝑝 𝑝𝑝 𝑝𝑝

0 1

𝑇𝑇 = ¹ ^{− 𝑝𝑝} _𝑝𝑝 ₁ _{− 𝑝𝑝} ^𝑝𝑝 0 1

0

1

0 1 𝑝𝑝

𝑝𝑝 ∅

𝑝𝑝

_𝑥𝑥

𝑝𝑝

_𝑥𝑥

1 − 𝑝𝑝

_𝑥𝑥

− 𝑝𝑝

0 1

𝑇𝑇 = 0

𝑝𝑝 1

𝑝𝑝 1 − 𝑝𝑝

_𝑥𝑥

− 𝑝𝑝 𝑝𝑝

_𝑥𝑥

𝑝𝑝

_𝑥𝑥

1 − 𝑝𝑝

_𝑥𝑥

− 𝑝𝑝 ∅

2

重に一様

入力に対して一様

(11)

ちょっと休憩

(12)

加法的 2 元通信路

入力と出力のアルファベットが共に { 0 , 1 } である 2 元通信路は，

誤りの有無を用いて表すことができる

𝑡𝑡 時点での誤りを確率変数 𝐸𝐸

_𝑡𝑡

∈ { 0 , 1 } で表すと，

出力 𝑌𝑌

_𝑡𝑡

は入力 𝑋𝑋

_𝑡𝑡

に誤り 𝐸𝐸

_𝑡𝑡

を加えたものとみなせる 𝑌𝑌

_𝑡𝑡

= 𝑋𝑋

_𝑡𝑡

⨁𝐸𝐸

_𝑡𝑡

,

𝐸𝐸

_𝑡𝑡

= � 0 誤りなし

1 誤り発生

入力

0 →

出力

0

入力

0 →

出力

1 0 ⊕ 1 = 1

入力

1 →

出力

0 1 ⊕ 1 = 0

入力

1 →

出力

1

入力

𝑋𝑋

_𝑡𝑡

⊕

誤り源

𝑆𝑆

_𝐸𝐸

出力

𝑌𝑌

_𝑡𝑡

𝐸𝐸

_𝑡𝑡

𝑌𝑌

_𝑡𝑡

= 𝑋𝑋

_𝑡𝑡

⨁𝐸𝐸

_𝑡𝑡

2

元通信路

図 6.3 加法的 2 元通信路モデル

(13)

ランダム誤り通信路

加法的 2 元通信路の誤り源 𝑆𝑆

_𝐸𝐸

が， 1 , 0 をそれぞれ確率 𝑝𝑝, 1 − 𝑝𝑝 で発生させる記憶のない定常 2 元情報源とする．このとき， 0 から 1 への誤りも， 1 から 0 への誤りも，他の時点の入出力とは無関係に確率 𝑝𝑝 で発生する．これは 2 元対称通信路に他ならない

このような誤りをランダム誤り（ random error ）という

誤りの発生確率 𝑝𝑝 をビット誤り率（ bit error rate ）と呼ぶ

入力

𝑋𝑋

_𝑡𝑡

⊕

1,0

をそれぞれ確率

𝑝𝑝, 1 − 𝑝𝑝

で発生

出力

𝑌𝑌

_𝑡𝑡

𝐸𝐸

_𝑡𝑡

∈ { 0 , 1 } 𝑌𝑌

_𝑡𝑡

= 𝑋𝑋

_𝑡𝑡

⨁𝐸𝐸

_𝑡𝑡

2

元通信路

0

1

0 1 − 𝑝𝑝 1 1 − 𝑝𝑝 𝑝𝑝 𝑝𝑝

2

元対称通信路の通信路線図

(14)

バースト誤り通信路

誤りが一度生じると，その後しばらくの間は連続して誤りが発生すると考えるモデル（誤り源に記憶がある代表的なモデル）

密集して生じる誤りをバースト誤り（ burst error ）と呼ぶ例えば，誤り源から発信される系列が次のようになる

00000001111111000011110000 ・・・

（ソリッドバーストの例）

入力

𝑋𝑋

_𝑡𝑡

⊕

記憶のある誤り源

（

1

が集中して出る）

出力

𝑌𝑌

_𝑡𝑡

𝐸𝐸

_𝑡𝑡

∈ { 0 , 1 }

𝑌𝑌

_𝑡𝑡

= 𝑋𝑋

_𝑡𝑡

⨁𝐸𝐸

_𝑡𝑡

2

元通信路

s

₀

s

₁

0 / 1 − 𝑃𝑃 1 / 𝑃𝑃 0 / 𝑝𝑝

1 / 1 − 𝑝𝑝

図

6.4

単純マルコフ情報源として表される誤り源

𝑃𝑃

が大

⇒バースト発生頻度が増大

𝑝𝑝

が大

⇒バーストが短くなる

(15)

ソリッドバースト誤りの平均長

誤り系列における 1 の連続（ 1 のラン）を任意に一つ取り出すその長さが ℓ となる確率 𝑃𝑃

_𝐿𝐿

ℓ を求めると，

𝑃𝑃

_𝐿𝐿

ℓ = (1 − 𝑝𝑝)

^ℓ−1

𝑝𝑝 ℓ = 1, 2, ・・・

となる

バースト誤りの長さ（バースト長）の平均値 ℓ は次のようになる

ℓ = ∑

_ℓ=1^∞

ℓ𝑃𝑃

_𝐿𝐿

(ℓ)

= 𝑝𝑝 ∑

_ℓ=1^∞

ℓ 1 − 𝑝𝑝

^ℓ−1

=

¹_𝑝𝑝

.

バースト長の分布の例

𝑝𝑝 = 0.1

最初の

1

の後に，

1

が

ℓ – 1

連続する確率

最後に

0

が出る確率

手計算で求まります

・・・ 001111100 ・・・

ℓ

(16)

ソリッドバースト誤り源のビット誤り率（例題 6.2 ）

図 6.4 の誤り源の状態遷移行列 𝛱𝛱 は

𝛱𝛱 = 1 − 𝑃𝑃 𝑃𝑃

𝑝𝑝 1 − 𝑝𝑝

である．定常分布を 𝒘𝒘 = 𝑤𝑤

₀

, 𝑤𝑤

₁

とすると， 𝒘𝒘𝛱𝛱 = 𝒘𝒘 および 𝑤𝑤

₀

+ 𝑤𝑤

₁

= 1 から，

𝑤𝑤

₀

= 𝑝𝑝

𝑃𝑃 + 𝑝𝑝 , 𝑤𝑤

₁

= 𝑃𝑃

𝑃𝑃 + 𝑝𝑝 .

よって，誤り源の出力 𝐸𝐸 が 1 となる確率 𝑃𝑃

_𝐸𝐸

1 を求めると 𝑃𝑃

_𝐸𝐸

1 = 𝑤𝑤

₀

𝑃𝑃 + 𝑤𝑤

₁

1 − 𝑝𝑝 = 1

𝑃𝑃 + 𝑝𝑝 𝑝𝑝𝑃𝑃 + 𝑃𝑃 1 − 𝑝𝑝

= 𝑃𝑃

𝑃𝑃 + 𝑝𝑝 .

ビット誤り率

Try

練習問題

6.2

(17)

その他のバースト誤りモデル

ギルバートモデル

（

Gilbert model

）

正誤が混在するバースト誤り状態 B のときは 1 , 0 をそれぞれ ℎ, 1 − ℎ の確率で発生させるバースト長の期待値は 1/𝑝𝑝 ビット誤り率

^𝑃𝑃𝑃

𝑃𝑃+𝑝𝑝

フリッチマンモデル

（

Fritchman model

）

ギルバートモデルの良状態を増やしたもの

G B

1 − 𝑃𝑃 𝑃𝑃

𝑝𝑝

1 − 𝑝𝑝

図 6.6 ギルバートモデル

誤り発生率

0

誤り発生率

ℎ

G B

誤り発生率

0

誤り発生率

ℎ

G ・・・・

(18)

今日のまとめ

6.1 通信路の統計的表現 6.2 記憶のない定常通信路

通信路行列と通信路線図

2 元対称通信路（ 2 重に一様な通信路）

2 元対称消失通信路（入力に対して一様な通信路）

6.3 加法的 2 元通信路

ランダム誤り通信路＝ 2 元対称通信路バースト誤り通信路（ソリッドバースト）

ギルバートモデル，フリッチマンモデル

次回

通信路符号化の限界に関する理論

(19)

通信路にまつわる各種エントロピー

入力記号側のエントロピー：

𝐻𝐻 𝑋𝑋 = − �

𝑖𝑖=1 𝑟𝑟

𝑝𝑝 𝑎𝑎

_𝑖𝑖

log

₂

𝑝𝑝 𝑎𝑎

_𝑖𝑖 出力記号側のエントロピー：

𝐻𝐻 𝑌𝑌 = − �

𝑖𝑖=1 𝑠𝑠

𝑞𝑞 𝑏𝑏

_𝑖𝑖

log

₂

𝑞𝑞 𝑏𝑏

_𝑖𝑖 条件付エントロピー：

𝐻𝐻 𝑋𝑋|𝑌𝑌 = − �

𝑖𝑖=1 𝑟𝑟

�

𝑖𝑖=1 𝑠𝑠

𝑞𝑞 𝑏𝑏

_𝑖𝑖

𝑝𝑝 𝑎𝑎

_𝑖𝑖

|𝑏𝑏

_𝑖𝑖

log

₂

𝑝𝑝 𝑎𝑎

_𝑖𝑖

|𝑏𝑏

_𝑖𝑖 結合エントロピー：

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = − �

𝑖𝑖=1 𝑟𝑟

�

𝑖𝑖=1 𝑠𝑠

𝑝𝑝 𝑎𝑎

_𝑖𝑖

, 𝑏𝑏

_𝑖𝑖

log

₂

𝑝𝑝 𝑎𝑎

_𝑖𝑖

, 𝑏𝑏

_𝑖𝑖

※入力 𝑋𝑋

の記号

𝑎𝑎

_𝑖𝑖

(𝑖𝑖 = 1, … , 𝑟𝑟)

の生起確率

𝑝𝑝 𝑎𝑎

_𝑖𝑖 ，出力

𝑌𝑌

の記号

𝑏𝑏

_𝑖𝑖

(𝑗𝑗 = 1, … , 𝑠𝑠)

(20)

（付録） Tunstall-Huffman 符号の効率

練習問題 5.3 の条件のとき，タンストール木の大きさ（使う符号語の数 𝑁𝑁 ）を 𝑁𝑁 = 5 としたときより 𝑁𝑁 = 6 とするほうが，１記号あたりの平均符号語長が長くなる？

𝑁𝑁 = 5 のとき：

平均ブロック長 𝑛𝑛

₅

= 2.36, ブロックあたりの平均符号長 ℓ𝐿

₅

= 2.304 よって，１記号あたりの平均符号長 ℓ

₅

≅ 0.97627

𝑁𝑁 = 6 のとき：

平均ブロック長 𝑛𝑛

₆

= 2.60, ブロックあたりの平均符号長 ℓ𝐿

₆

= 2.544 よって，１記号あたりの平均符号長 ℓ

₆

≅ 0.97846

＜あれぇ？

(21)

（付録） Tunstall-Huffman 符号の効率

実は，そういうことはありうる！！

何故なら，ハフマン符号が（ブロック毎に）２元符号化しているから

（例えば 3.4 個分の長さの符号語とか作れないから）

Tunstall 木を大きくすると平均ブロック長は長くなるが，ハフマン符

号化したときに１記号あたりの平均符号長が短くなるとは限らない 2001 年に理論的な解析結果が発表されていました！

Serap A. Savari and Wojciech Szpankowski, “On the Analysis of Variable-to- Variable Length Codes”

^（2002年に同タイトルのショートペーパーがIEEE International Symposium on Information Theoryで発表されている）

上記論文内の定理

2:

lim sup

𝑀𝑀→∞

log

₂

𝑀𝑀 ⋅ 𝑅𝑅

_{𝑇𝑇−𝐻𝐻}

𝑀𝑀 ≤ ℋ log

₂

2 log

₂

𝑒𝑒 𝑒𝑒 𝑀𝑀

は符号語の数

ℋ

は情報源のエントロピー

ℋ

𝑀𝑀 𝐿𝐿_𝑀𝑀

0.086ℋ

2

講義「情報理論」