• 検索結果がありません。

講義「情報理論」

N/A
N/A
Protected

Academic year: 2021

シェア "講義「情報理論」"

Copied!
21
0
0

読み込み中.... (全文を見る)

全文

(1)

講義「情報理論」

第9回 通信路のモデル

情報理工学部門 情報知識ネットワーク研究室 喜田拓也

(2)

非等長情報源系列の符号化(おさらい)

1, 0 を確率 0.2, 0.8 で発生する無記憶定常情報源 𝑆𝑆 を考える.

𝑆𝑆 から発生する系列を4つ選び,ハフマン符号化を行う.

(0.8)

0

1

0.2

0 1

(0.64)

0.16

0 1

0.512 0.128

情報源系列を分割する分節木

各ブロックの平均長 𝑛𝑛 は 𝑛𝑛 = 1 × 0.2 + 2 × 0.16

+3 × 0.128 + 3 × 0.512

= 2.44

情報源

系列 確率 ハフマン 符号

0 0 0 0.512 0

0 0 1 0.128 100 0 1 0 0.16 101 1 0 0 0.2 11

0.488

1 1

0 1 0

0

0.288 1.0

右の符号の平均符号長 𝐿𝐿𝐿 = 1.776 よって 1 記号あたりの

平均符号長 𝐿𝐿 は 𝐿𝐿 = 1.776

2.44 = 0.728

(3)

ひずみが許される場合の情報源符号化(おさらい)

この定理は, 1 情報源記号あたりの平均符号長を,速度・ひずみ

関数 𝑅𝑅 𝐷𝐷 にいくらでも近づく符号化法の存在を示している

具体的な符号化方法はあるのか?

ひずみのない場合に比べてはるかに難しい!

定理 [ひずみが許される場合の情報源符号化定理]

平均ひずみ 𝑑𝑑 を 𝐷𝐷 以下に抑えるという条件の下で,任意の正数 𝜀𝜀 に対して,情報源 𝑆𝑆 を 1 情報源記号あたりの平均符号長 𝐿𝐿 が

𝑅𝑅 𝐷𝐷 ≤ 𝐿𝐿 < 𝑅𝑅 𝐷𝐷 + 𝜀𝜀

となるような 2 元符号へ符号化できる.しかし,どのような符号化を 行っても, 𝑑𝑑 ≤ 𝐷𝐷 である限り, 𝐿𝐿 をこの式の左辺より小さくすることは できない.

教科書【例

5.8

】参照

(4)

今日の内容

6.1 通信路の統計的表現

6.2 記憶のない定常通信路

6.3 加法的 2 元通信路

(5)

もう一度,情報理論の問題について

情報理論が取り組む4つの問題

【問題1】 できるだけよい情報源符号化法(復号法)を見出すこと

【問題2】 情報源符号化の限界を知ること

【問題3】 できるだけよい通信路符号化法(復号法)を見出すこと

【問題4】 通信路符号化の限界を知ること

デジタル 情報源

情報源 符号化

あて先

2元通信路 通信路

符号化

情報源 復号

通信路 復号 符号化

復号

誤りや ひずみ

(6)

通信路の統計的表現

雑音のある離散的通信路の定義:

時点毎に一つの記号が入力され,一つの記号が出力される 出力は入力から一意的に定まるのではなく,確率的に決まる!

𝑃𝑃

𝑌𝑌0,𝑌𝑌1…𝑌𝑌𝑛𝑛−1|𝑋𝑋0,𝑋𝑋1…𝑋𝑋𝑛𝑛−1

𝑦𝑦

0

, 𝑦𝑦

1

, … , 𝑦𝑦

𝑛𝑛−1

𝑥𝑥

0

, 𝑥𝑥

1

, … , 𝑥𝑥

𝑛𝑛−1

= [𝑋𝑋

0

= 𝑥𝑥

0

, 𝑋𝑋

1

= 𝑥𝑥

1

, … , 𝑋𝑋

𝑛𝑛−1

= 𝑥𝑥

𝑛𝑛−1

の条件の下で 𝑌𝑌

0

= 𝑦𝑦

0

, 𝑌𝑌

1

= 𝑦𝑦

1

, … , 𝑌𝑌

𝑛𝑛−1

= 𝑦𝑦

𝑛𝑛−1

となる確率 ] 入力 𝑋𝑋

0

, 𝑋𝑋

1

, … , 𝑋𝑋

𝑛𝑛−1

に対する 𝑌𝑌

0

, 𝑌𝑌

1

, … , 𝑌𝑌

𝑛𝑛−1

の確率分布

入力アルファベット 𝐴𝐴 = 𝑎𝑎

1

, 𝑎𝑎

2

, … , 𝑎𝑎

𝑟𝑟

出力アルファベット 𝐵𝐵 = 𝑏𝑏

1

, 𝑏𝑏

2

, … , 𝑏𝑏

𝑠𝑠

通信路

Communication channel

|𝐴𝐴| = |𝐵𝐵| = 𝑟𝑟 のときは, 𝑟𝑟 元通信路( 𝑟𝑟 -ary channel )という

𝑋𝑋

𝑡𝑡

𝑌𝑌

𝑡𝑡

(7)

記憶のない定常通信路 ( memoryless channel )

各時点の出力の現れ方が,その時点の入力には関係するが,

それ以外の時点の入力・出力とは独立であるような通信路を,

記憶のない通信路という

さらに,時間をずらしても統計的性質が変わらないとき,これを 記憶のない定常通信路と呼ぶ

記憶のない定常通信路では,入力 𝑋𝑋 が通信路に投入されたとき に出力 𝑌𝑌 が出る条件付確率 𝑃𝑃

𝑌𝑌|𝑋𝑋

(𝑦𝑦|𝑥𝑥) が,すべての時点におい て同一である.したがって,

𝑃𝑃

𝑌𝑌0…𝑌𝑌𝑛𝑛−1|𝑋𝑋0…𝑋𝑋𝑛𝑛−1

𝑦𝑦

0

, … , 𝑦𝑦

𝑛𝑛−1

𝑥𝑥

0

, … , 𝑥𝑥

𝑛𝑛−1

= �

𝑖𝑖=0

𝑛𝑛−1

𝑃𝑃

𝑌𝑌|𝑋𝑋

𝑦𝑦

𝑖𝑖

𝑥𝑥

𝑖𝑖

.

(8)

通信路行列と通信路線図

𝑟𝑟 元入力アルファベット 𝐴𝐴 = {𝑎𝑎

1

, 𝑎𝑎

2

, … , 𝑎𝑎

𝑟𝑟

} , 𝑠𝑠 元出力アルファベット 𝐵𝐵 = {𝑏𝑏

1

, 𝑏𝑏

2

, … , 𝑏𝑏

𝑠𝑠

} , 入出力の関係が条件付確率 𝑝𝑝

𝑖𝑖𝑖𝑖

= 𝑃𝑃

𝑌𝑌|𝑋𝑋

𝑏𝑏

𝑖𝑖

𝑎𝑎

𝑖𝑖

で与えられる記憶のない定常通信路を考える

𝑎𝑎 𝑖𝑖 𝑏𝑏 𝑖𝑖

入力 出力

𝑝𝑝 𝑖𝑖𝑖𝑖

𝑇𝑇 =

𝑝𝑝 11 𝑝𝑝 12

𝑝𝑝 21 𝑝𝑝 22 ⋯ 𝑝𝑝 1𝑠𝑠 𝑝𝑝 2𝑠𝑠

⋮ ⋱ ⋮

𝑝𝑝 𝑟𝑟1 𝑝𝑝 𝑟𝑟2 ⋯ 𝑝𝑝 𝑟𝑟𝑠𝑠

𝑝𝑝

𝑖𝑖𝑖𝑖

を (𝑖𝑖 , 𝑗𝑗) 要素とする通信路行列

出力側

入力側

𝑎𝑎

1

𝑎𝑎

2

𝑎𝑎

𝑟𝑟

・・・・・ ・・・・・・・・

𝑏𝑏

1

𝑏𝑏

2

𝑏𝑏

𝑠𝑠

通信路線図

𝑝𝑝

11

𝑝𝑝

𝑟𝑟𝑠𝑠

入力側 出力側

(9)

例題 6.1

𝑃𝑃(𝑥𝑥 |𝑦𝑦) 𝑦𝑦

𝑏𝑏

1

𝑏𝑏

2

𝑏𝑏

3

𝑥𝑥

𝑎𝑎

1

0.5 0.2 0.3

𝑎𝑎

2

0 0.6 0.4

𝑎𝑎

3

0.8 0.1 0.1

𝑇𝑇 = 0.5 0.2 0.3 0 0.6 0.4 0.8 0.1 0.1 通信路行列 𝑇𝑇

𝑎𝑎

1

𝑎𝑎

3

𝑏𝑏

1

𝑏𝑏

3

0.3

𝑏𝑏

2

0.2 0.5

𝑎𝑎

2 0.6

0.80.4 0.1 0.1

通信路線図 Try

練習問題

6.1

(10)

一様な通信路

2 元対称通信路

(binary symmetric channel; BSC)

2 元対称消失通信路

入力アルファベットは {0, 1}

出力アルファベットは {0, 1, ∅ }

( ∅ は消失を表現)

0

1

0

1 − 𝑝𝑝 1 1 − 𝑝𝑝 𝑝𝑝 𝑝𝑝

0 1

𝑇𝑇 = 1 − 𝑝𝑝 𝑝𝑝 1 − 𝑝𝑝 𝑝𝑝 0 1

0

1

0

1 𝑝𝑝

𝑝𝑝 ∅

𝑝𝑝

𝑥𝑥

𝑝𝑝

𝑥𝑥

1 − 𝑝𝑝

𝑥𝑥

− 𝑝𝑝

0 1

𝑇𝑇 = 0

𝑝𝑝 1

𝑝𝑝 1 − 𝑝𝑝

𝑥𝑥

− 𝑝𝑝 𝑝𝑝

𝑥𝑥

𝑝𝑝

𝑥𝑥

1 − 𝑝𝑝

𝑥𝑥

− 𝑝𝑝 ∅

2

重に一様

入力に対して 一様

(11)

ちょっと休憩

(12)

加法的 2 元通信路

入力と出力のアルファベットが共に { 0 , 1 } である 2 元通信路は,

誤りの有無を用いて表すことができる

𝑡𝑡 時点での誤りを確率変数 𝐸𝐸

𝑡𝑡

∈ { 0 , 1 } で表すと,

出力 𝑌𝑌

𝑡𝑡

は入力 𝑋𝑋

𝑡𝑡

に誤り 𝐸𝐸

𝑡𝑡

を加えたものとみなせる 𝑌𝑌

𝑡𝑡

= 𝑋𝑋

𝑡𝑡

⨁𝐸𝐸

𝑡𝑡

,

𝐸𝐸

𝑡𝑡

= � 0 誤りなし

1 誤り発生

入力

0 →

出力

0

入力

0 →

出力

1 0 ⊕ 1 = 1

入力

1 →

出力

0 1 ⊕ 1 = 0

入力

1 →

出力

1

入力

𝑋𝑋

𝑡𝑡

誤 り 源

𝑆𝑆

𝐸𝐸

出力

𝑌𝑌

𝑡𝑡

𝐸𝐸

𝑡𝑡

𝑌𝑌

𝑡𝑡

= 𝑋𝑋

𝑡𝑡

⨁𝐸𝐸

𝑡𝑡

2

元通信路

図 6.3 加法的 2 元通信路モデル

(13)

ランダム誤り通信路

加法的 2 元通信路の誤り源 𝑆𝑆

𝐸𝐸

が, 1 , 0 をそれぞれ確率 𝑝𝑝, 1 − 𝑝𝑝 で発 生させる記憶のない定常 2 元情報源とする.このとき, 0 から 1 への 誤りも, 1 から 0 への誤りも,他の時点の入出力とは無関係に確率 𝑝𝑝 で発生する.これは 2 元対称通信路に他ならない

このような誤りをランダム誤り( random error )という

誤りの発生確率 𝑝𝑝 をビット誤り率( bit error rate )と呼ぶ

入力

𝑋𝑋

𝑡𝑡

1,0

をそれぞれ 確率

𝑝𝑝, 1 − 𝑝𝑝

で発生

出力

𝑌𝑌

𝑡𝑡

𝐸𝐸

𝑡𝑡

∈ { 0 , 1 } 𝑌𝑌

𝑡𝑡

= 𝑋𝑋

𝑡𝑡

⨁𝐸𝐸

𝑡𝑡

2

元通信路

0

1

0

1 − 𝑝𝑝 1 1 − 𝑝𝑝 𝑝𝑝 𝑝𝑝

2

元対称通信路の通信路線図

(14)

バースト誤り通信路

誤りが一度生じると,その後しばらくの間は連続して誤りが発生する と考えるモデル(誤り源に記憶がある代表的なモデル)

密集して生じる誤りをバースト誤り( burst error )と呼ぶ 例えば,誤り源から発信される系列が次のようになる

00000001111111000011110000 ・・・

(ソリッドバーストの例)

入力

𝑋𝑋

𝑡𝑡

記憶のある誤り源

1

が集中して出る)

出力

𝑌𝑌

𝑡𝑡

𝐸𝐸

𝑡𝑡

∈ { 0 , 1 }

𝑌𝑌

𝑡𝑡

= 𝑋𝑋

𝑡𝑡

⨁𝐸𝐸

𝑡𝑡

2

元通信路

s

0

s

1

0 / 1 − 𝑃𝑃 1 / 𝑃𝑃 0 / 𝑝𝑝

1 / 1 − 𝑝𝑝

6.4

単純マルコフ情報源 として表される誤り源

𝑃𝑃

が大

⇒バースト発生頻度が増大

𝑝𝑝

が大

⇒バーストが短くなる

(15)

ソリッドバースト誤りの平均長

誤り系列における 1 の連続( 1 のラン)を任意に一つ取り出す その長さが ℓ となる確率 𝑃𝑃

𝐿𝐿

ℓ を求めると,

𝑃𝑃

𝐿𝐿

ℓ = (1 − 𝑝𝑝)

ℓ−1

𝑝𝑝 ℓ = 1, 2, ・・・

となる

バースト誤りの長さ(バースト長)の 平均値 ℓ は次のようになる

ℓ = ∑

ℓ=1

ℓ𝑃𝑃

𝐿𝐿

(ℓ)

= 𝑝𝑝 ∑

ℓ=1

ℓ 1 − 𝑝𝑝

ℓ−1

=

1𝑝𝑝

.

バースト長の分布の例

𝑝𝑝 = 0.1

最初の

1

の後に,

1

ℓ – 1

連続する確率

最後に

0

が出る確率

手計算で求まります

・・・ 001111100 ・・・

(16)

ソリッドバースト誤り源のビット誤り率(例題 6.2 )

図 6.4 の誤り源の状態遷移行列 𝛱𝛱 は

𝛱𝛱 = 1 − 𝑃𝑃 𝑃𝑃

𝑝𝑝 1 − 𝑝𝑝

である.定常分布を 𝒘𝒘 = 𝑤𝑤

0

, 𝑤𝑤

1

とすると, 𝒘𝒘𝛱𝛱 = 𝒘𝒘 および 𝑤𝑤

0

+ 𝑤𝑤

1

= 1 から,

𝑤𝑤

0

= 𝑝𝑝

𝑃𝑃 + 𝑝𝑝 , 𝑤𝑤

1

= 𝑃𝑃

𝑃𝑃 + 𝑝𝑝 .

よって,誤り源の出力 𝐸𝐸 が 1 となる確率 𝑃𝑃

𝐸𝐸

1 を求めると 𝑃𝑃

𝐸𝐸

1 = 𝑤𝑤

0

𝑃𝑃 + 𝑤𝑤

1

1 − 𝑝𝑝 = 1

𝑃𝑃 + 𝑝𝑝 𝑝𝑝𝑃𝑃 + 𝑃𝑃 1 − 𝑝𝑝

= 𝑃𝑃

𝑃𝑃 + 𝑝𝑝 .

ビット誤り率

Try

練習問題

6.2

(17)

その他のバースト誤りモデル

ギルバートモデル

Gilbert model

正誤が混在するバースト誤り 状態 B のときは 1 , 0 をそれぞれ ℎ, 1 − ℎ の確率で発生させる バースト長の期待値は 1/𝑝𝑝 ビット誤り率

𝑃𝑃𝑃

𝑃𝑃+𝑝𝑝

フリッチマンモデル

Fritchman model

ギルバートモデルの 良状態を増やしたもの

G B

1 − 𝑃𝑃 𝑃𝑃

𝑝𝑝

1 − 𝑝𝑝

図 6.6 ギルバートモデル

誤り発生率

0

誤り発生率

G B

誤り発生率

0

誤り発生率

G ・・・・

(18)

今日のまとめ

6.1 通信路の統計的表現 6.2 記憶のない定常通信路

通信路行列と通信路線図

2 元対称通信路( 2 重に一様な通信路)

2 元対称消失通信路(入力に対して一様な通信路)

6.3 加法的 2 元通信路

ランダム誤り通信路 = 2 元対称通信路 バースト誤り通信路(ソリッドバースト)

ギルバートモデル,フリッチマンモデル

次回

通信路符号化の限界に関する理論

(19)

通信路にまつわる各種エントロピー

入力記号側のエントロピー:

𝐻𝐻 𝑋𝑋 = − �

𝑖𝑖=1 𝑟𝑟

𝑝𝑝 𝑎𝑎

𝑖𝑖

log

2

𝑝𝑝 𝑎𝑎

𝑖𝑖 出力記号側のエントロピー:

𝐻𝐻 𝑌𝑌 = − �

𝑖𝑖=1 𝑠𝑠

𝑞𝑞 𝑏𝑏

𝑖𝑖

log

2

𝑞𝑞 𝑏𝑏

𝑖𝑖 条件付エントロピー:

𝐻𝐻 𝑋𝑋|𝑌𝑌 = − �

𝑖𝑖=1 𝑟𝑟

𝑖𝑖=1 𝑠𝑠

𝑞𝑞 𝑏𝑏

𝑖𝑖

𝑝𝑝 𝑎𝑎

𝑖𝑖

|𝑏𝑏

𝑖𝑖

log

2

𝑝𝑝 𝑎𝑎

𝑖𝑖

|𝑏𝑏

𝑖𝑖 結合エントロピー:

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = − �

𝑖𝑖=1 𝑟𝑟

𝑖𝑖=1 𝑠𝑠

𝑝𝑝 𝑎𝑎

𝑖𝑖

, 𝑏𝑏

𝑖𝑖

log

2

𝑝𝑝 𝑎𝑎

𝑖𝑖

, 𝑏𝑏

𝑖𝑖

※入力 𝑋𝑋

の記号

𝑎𝑎

𝑖𝑖

(𝑖𝑖 = 1, … , 𝑟𝑟)

の生起確率

𝑝𝑝 𝑎𝑎

𝑖𝑖 ,出力

𝑌𝑌

の記号

𝑏𝑏

𝑖𝑖

(𝑗𝑗 = 1, … , 𝑠𝑠)

(20)

(付録) Tunstall-Huffman 符号の効率

練習問題 5.3 の条件のとき,タンストール木の大きさ(使う符号語の 数 𝑁𝑁 )を 𝑁𝑁 = 5 としたときより 𝑁𝑁 = 6 とするほうが,1記号あたりの平 均符号語長が長くなる?

𝑁𝑁 = 5 のとき:

平均ブロック長 𝑛𝑛

5

= 2.36, ブロックあたりの平均符号長 ℓ𝐿

5

= 2.304 よって,1記号あたりの平均符号長 ℓ

5

≅ 0.97627

𝑁𝑁 = 6 のとき:

平均ブロック長 𝑛𝑛

6

= 2.60, ブロックあたりの平均符号長 ℓ𝐿

6

= 2.544 よって,1記号あたりの平均符号長 ℓ

6

≅ 0.97846

< あれぇ?

(21)

(付録) Tunstall-Huffman 符号の効率

実は,そういうことはありうる!!

何故なら,ハフマン符号が(ブロック毎に)2元符号化しているから

(例えば 3.4 個分の長さの符号語とか作れないから)

Tunstall 木を大きくすると平均ブロック長は長くなるが,ハフマン符

号化したときに1記号あたりの平均符号長が短くなるとは限らない 2001 年に理論的な解析結果が発表されていました!

Serap A. Savari and Wojciech Szpankowski, “On the Analysis of Variable-to- Variable Length Codes”

2002年に同タイトルのショートペーパーがIEEE International Symposium on Information Theoryで発表されている)

上記論文内の定理

2:

lim sup

𝑀𝑀→∞

log

2

𝑀𝑀 ⋅ 𝑅𝑅

𝑇𝑇−𝐻𝐻

𝑀𝑀 ≤ ℋ log

2

2 log

2

𝑒𝑒 𝑒𝑒 𝑀𝑀

は符号語の数

は情報源のエントロピー

𝑀𝑀 𝐿𝐿𝑀𝑀

0.086ℋ

2

参照

関連したドキュメント

臨脈講義︐

東京大学 大学院情報理工学系研究科 数理情報学専攻. [email protected]

講義の目標.

情報理工学研究科 情報・通信工学専攻. 2012/7/12

平均的な消費者像の概念について、 欧州裁判所 ( EuGH ) は、 「平均的に情報を得た、 注意力と理解力を有する平均的な消費者 ( durchschnittlich informierter,

、コメント1点、あとは、期末の小 論文で 70 点とします(「全て持ち込 み可」の小論文式で、①最も印象に 残った講義の要約 10 点、②最も印象 に残った Q&amp;R 要約

のうちいずれかに加入している世帯の平均加入金額であるため、平均金額の低い機関の世帯加入金額にひ

とりひとりと同じように。 いま とお むかし みなみ うみ おお りくち いこうずい き ふか うみ そこ