講義「情報理論」

(1)

講義「情報理論」

第３回情報量とエントロピー

情報理工学部門情報知識ネットワーク研究室喜田拓也

2019/6/21

(2)

今日の内容

2.1 情報量

2.2 エントロピー

2.3 エントロピーの性質 2.4 結合エントロピー

2.5 条件付きエントロピー 2.6 相互情報量

2

(3)

情報には量がある！

確率が高いことを知らされても，

そのニュースは価値が低い

私には一人，妹がいます妹は女性です

フーン (´<_｀ ) で？

確率１の結果が知らされる → 得られる情報量は 0

(4)

情報には量がある！

確率が低いことを知らされたら，

そのニュースは価値が高い

4

私には12人，妹がいます (; ﾟ Д ﾟ )( ﾟ Д ﾟ ;( ﾟ，ﾟ ;) ﾅ､ﾅﾝﾀﾞｯﾃｰ !!

確率が 0 に近い事柄を知らされる → 情報量は大！

(5)

一つの結果を知ったときの情報量

確率 𝑝𝑝 の事象の生起を知ったときに得られる情報量を

𝐼𝐼(𝑝𝑝) とすると 𝐼𝐼 (𝑝𝑝) は次のような性質を満たすべき

① 𝐼𝐼 (𝑝𝑝) は 0 < 𝑝𝑝 ≤ 1 で単調減少な関数である

② 確率 𝑝𝑝

₁

, 𝑝𝑝

₂

で起こる二つの互いに独立な事象が同時に起こる確率 𝑝𝑝

₁

𝑝𝑝

₂

について 𝐼𝐼 𝑝𝑝

₁

𝑝𝑝

₂

＝ 𝐼𝐼 𝑝𝑝

₁

＋ 𝐼𝐼 𝑝𝑝

₂

③ 𝐼𝐼 (𝑝𝑝) は 0 < 𝑝𝑝 ≤ 1 で連続な関数であるこれらを満たす関数 𝐼𝐼(𝑝𝑝) は

𝐼𝐼 𝑝𝑝 ＝－ log _𝑎𝑎 𝑝𝑝

という形しかありえない（ただし 𝑎𝑎 > 1 ）

情報量の加法性

証明は省略

(6)

情報量の定義

確率

𝑝𝑝

で生起する事象が起きたことを知ったときに得られる情報量

𝐼𝐼 𝑝𝑝

を自己情報量と呼び，

𝐼𝐼 𝑝𝑝 = − log

_𝑎𝑎

𝑝𝑝

と定義する．ただし，

𝑎𝑎

は

𝑎𝑎 > 1

の定数とする．

6

𝑎𝑎 = 2

の場合，単位はビット（

bit

）という

自然対数で計るときはナット（

nat

）

1 nat ≒ 1.443 bit 10

を底とする対数で計るときはハートレー（

Hartley

）

もしくはディット（

dit

）またはデシット（

decit

）

1 Hartley ≒ 3.322 bit

簡単な例題：サイコロを1回振ったときの出目を知ったときに得られる情報量は何ビットか答えよ．ただし，サイコロの各出目が得られる確率はすべて等しく1/6とする．

定義

2.1

確率

1/2

で生じる結果を知ったときの情報量＝

1 [bit]

(7)

平均情報量

𝑀𝑀

個の互いに排反な事象

𝑎𝑎

₁

, 𝑎𝑎

₂

,

・・・

, 𝑎𝑎

_𝑀𝑀 が起こる確率を

𝑝𝑝

₁

, 𝑝𝑝

₂

,

・・・

, 𝑝𝑝

_𝑀𝑀 とする（ただし，

𝑝𝑝

₁

+ 𝑝𝑝

₂

+ ⋯ + 𝑝𝑝

_𝑀𝑀

= 1

）．

このうち１つの事象が起こったことを知ったときに得る情報量は

－

log

₂

𝑝𝑝

_𝑖𝑖 であるから，これを平均した期待値

̅𝐼𝐼

は，

̅𝐼𝐼 = 𝑝𝑝

₁

− log

₂

𝑝𝑝

₁

+ 𝑝𝑝

₂

− log

₂

𝑝𝑝

₂

+ ⋯ + 𝑝𝑝

_𝑀𝑀

− log

₂

𝑝𝑝

_𝑀𝑀

= − �

𝑖𝑖=1 𝑀𝑀

𝑝𝑝

_𝑖𝑖

log

₂

𝑝𝑝

_𝑖𝑖

となる．これを平均情報量（単位はビット）という．

定義

2.2

(8)

エントロピー

確率変数

𝑋𝑋

がとりうる値が

𝑥𝑥

₁

, 𝑥𝑥

₂

,

・・・

, 𝑥𝑥

_𝑀𝑀 とし，

𝑋𝑋

がそれぞれの値をとる確率が

𝑝𝑝

₁

, 𝑝𝑝

₂

, … , 𝑝𝑝

_𝑀𝑀（ただし，

𝑝𝑝

₁

+ 𝑝𝑝

₂

+ ⋯ + 𝑝𝑝

_𝑀𝑀

= 1

）であるとき，確率変数

𝑋𝑋

のエントロピーを

𝐻𝐻 𝑋𝑋 = − ∑

_𝑖𝑖=1^𝑀𝑀

𝑝𝑝

_𝑖𝑖

log

₂

𝑝𝑝

_𝑖𝑖 ビットと定義する．

8

定義

2.3

例題

2.1

：偏りのないコインを

2

回投げて表の出た枚数を確率変数

𝑋𝑋

とする．このとき，

𝑋𝑋

のエントロピー

𝐻𝐻 𝑋𝑋

は何ビットか？

𝐻𝐻 𝑋𝑋 = − 1

4 log

²

1 4 − 1

2 × log

²

1 2 − 1

4 log

²

1 4

= 2 × 2 4 +

1 2 = 1.5 (

ビット

)

𝑋𝑋 0 1 2

確

率

1 4

1 2

1

4 Try

練習問題

2.1

(9)

エントロピーの性質

𝑀𝑀 個の値をとる確率変数 𝑋𝑋 のエントロピー 𝐻𝐻(𝑋𝑋) は次の性質を満たす．

(1) 0 ≤ 𝐻𝐻 𝑋𝑋 ≤ log ₂ 𝑀𝑀

(2) 𝐻𝐻(𝑋𝑋) が最小値 0 となるのは，ある値をとる確率

が 1 で，他の 𝑀𝑀 − 1 個の値をとる確率がすべて 0 のときに限る．すなわち， 𝑋𝑋 のとる値が初めから確定している場合のみである．

(3) 𝐻𝐻(𝑋𝑋) が最大値 log ₂ 𝑀𝑀 となるのは， 𝑀𝑀 個の値がすべて 1/𝑀𝑀 で等しい場合に限る．

定理 2.1

(10)

エントロピー関数

二つの値

1, 0

をそれぞれ

0.2, 0.8

の確率でとる確率変数

X

𝐻𝐻 (𝑋𝑋)

は，

𝐻𝐻 𝑋𝑋 = − ∑

_𝑖𝑖=1²

𝑝𝑝

_𝑖𝑖

log 𝑝𝑝

_𝑖𝑖

=

－

0.2 log 0.2 − 0.8 log 0.8

= ℋ 0.2

≅ 0.7219

となる．

10

エントロピー関数とは，

0 ≤ 𝑥𝑥 ≤ 1

で定義される関数

ℋ 𝑥𝑥 = −𝑥𝑥 log

₂

𝑥𝑥 − 1 − 𝑥𝑥 log

₂

1 − 𝑥𝑥

のことをいう．

定義

2.4

0.2 0.4 0.6 0.8 1 x

0.2 0.4 0.6 0.8 1 y

エントロピー関数

0.7219

(11)

二つの情報を一度に聞いたときの情報量は？

はたして， 𝐻𝐻( (𝑋𝑋, 𝑌𝑌 ) ) = 𝐻𝐻(𝑋𝑋) + 𝐻𝐻(𝑌𝑌 ) だろうか？

解説好きの

I

君

K

君

𝑋𝑋 : 日経平均株価が下がって 1 万 6000 円を割ったそうだよ

𝑌𝑌 : また円高で， 1 ドル 105 円ほどになったよ

へ，へぇ～～～

(12)

例 2.2

二つの確率変数

𝑋𝑋 , 𝑌𝑌

を考える．

𝑋𝑋

は

𝑥𝑥

₁

, 𝑥𝑥

₂

, … , 𝑥𝑥

_𝑀𝑀_𝑋𝑋の値をとり，

𝑌𝑌

は

𝑦𝑦

₁

, 𝑦𝑦

₂

, … , 𝑦𝑦

_𝑀𝑀_𝑌𝑌の値をとるものとする．確率変数の組

(𝑋𝑋, 𝑌𝑌)

の値が

(𝑥𝑥 , 𝑦𝑦)

となる結合確率分布を

𝑃𝑃(𝑥𝑥, 𝑦𝑦)

と書く

12

𝑃𝑃(𝑥𝑥, 𝑦𝑦) 𝑌𝑌

𝑃𝑃(𝑥𝑥 )

1

万円以上

1

万円未満

𝑋𝑋

晴

0.5 0.1 0.6

雨

0.2 0.2 0.4

𝑃𝑃(𝑦𝑦) 0.7 0.3

表2.1 ある日の天気𝑋𝑋とコンビニのアイスクリームの売上高𝑌𝑌の結合確率分布𝑃𝑃(𝑥𝑥,𝑦𝑦)

組

(𝑋𝑋, 𝑌𝑌)

をまとめて考えると，４つの値をとる確率変数

𝑍𝑍

𝐻𝐻 𝑍𝑍

として考えることができる

(13)

結合エントロピー

確率変数

𝑋𝑋

と

𝑌𝑌

の結合エントロピー

𝐻𝐻 (𝑋𝑋 , 𝑌𝑌)

は，

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = − �

𝑖𝑖=1 𝑀𝑀_𝑋𝑋

�

𝑗𝑗=1 𝑀𝑀_𝑌𝑌

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃(𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

)

により定義される．これを結合エントロピーと呼ぶ．ただし，

{𝑥𝑥

₁

, 𝑥𝑥

₂

, … , 𝑥𝑥

_𝑀𝑀_𝑋𝑋

}

および

{𝑦𝑦

₁

, 𝑦𝑦

₂

, … , 𝑦𝑦

_𝑀𝑀_𝑌𝑌

}

は，それぞれ

𝑋𝑋

と

𝑌𝑌

が取りうる値の集合とする．

表

2.1

から，

(𝑋𝑋, 𝑌𝑌)

の結合エントロピーは，

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = −0.5 × log 0.5 − 0.1 × log 0.1

−0.2 × log 0.2 − 0.2 × log 0.2

≒ 1.76

ビット

.

定義

2.5 Try

練習問題

2.2

(14)

結合エントロピーの性質

14

確率変数

𝑋𝑋

と

𝑌𝑌

の結合エントロピー

𝐻𝐻(𝑋𝑋, 𝑌𝑌)

に対し，

0 ≤ 𝐻𝐻 𝑋𝑋, 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 (𝑌𝑌)

が成り立つ．また

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌

となるのは，

𝑋𝑋

と

𝑌𝑌

が独立のときのみである．

定理

2.2

(15)

ちょっと休憩

(16)

へぇ！さすが王族！

→ エントロピーは小さくなっているはず！

俺には 12 人の妹がいる！

あ，一夫多妻の国の王子様！

こんにちは！

R様

(17)

例 2.2 (p.17)

アイスクリームの売上高が「１万円以上」だったとき，実際の天気についての曖昧さ（エントロピー）は，晴と雨の確率がそれぞれ

5/7

と

2/7

であるから，

𝐻𝐻 𝑋𝑋

１万円以上

= ℋ 5/7 ≒ 0. 8631 (bit).

同様に，売上高が「１万円未満」のときは，

𝐻𝐻 𝑋𝑋

１万円未満

= ℋ 1/3 ≒ 0.9183 (bit).

売上高が「１万円以上」「１万円未満」となる確率は，それぞれ

0.7

と

0.3

なので，

この割合でエントロピーを平均すると，

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≒ 0.7 × 0.8631 + 0.3 × 0.9183

≒ 0.8797 (bit)

となる．これは，

𝑋𝑋

𝐻𝐻 𝑋𝑋 = ℋ 0.6 = 0.9710 (bit)

と比べて確かに小さい．

𝑃𝑃(𝑋𝑋 | 𝑌𝑌) 𝑌𝑌

1

万円以上

1

万円未満

𝑋𝑋

晴

5/7 1/3

雨

2/7 2/3

表2.2 𝑌𝑌 で条件付けた 𝑋𝑋 の確率分布

(18)

条件付きエントロピー

18

確率変数

𝑌𝑌

で条件を付けた

𝑋𝑋

の条件付きエントロピー

𝐻𝐻(𝑋𝑋 |𝑌𝑌)

は，

𝐻𝐻 𝑋𝑋|𝑌𝑌 = − �

𝑃𝑃 (𝑦𝑦

_𝑗𝑗

) �

𝑃𝑃 𝑥𝑥

_𝑖𝑖

| 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃(𝑥𝑥

_𝑖𝑖

|𝑦𝑦

_𝑗𝑗

)

により定義される．ただし，

{𝑥𝑥

₁

, 𝑥𝑥

₂

, … , 𝑥𝑥

_𝑀𝑀_𝑋𝑋

}

および

{𝑦𝑦

₁

, 𝑦𝑦

₂

, … , 𝑦𝑦

_𝑀𝑀_𝑌𝑌

}

は，それぞれ

𝑋𝑋

と

𝑌𝑌

が取りうる値の集合とする．

定義

2.6 Try

練習問題

2.3

(19)

{𝑥𝑥

₁

, 𝑥𝑥

₂

, … , 𝑥𝑥

_𝑀𝑀_𝑋𝑋

}

および

{𝑦𝑦

₁

, 𝑦𝑦

₂

, … , 𝑦𝑦

_𝑀𝑀_𝑌𝑌

}

をとりうる値の集合とする確率変数

𝑋𝑋

および

𝑌𝑌

に関し，以下が成り立つ．

(1) 𝐻𝐻 𝑋𝑋 𝑌𝑌 = − ∑

_𝑖𝑖=1^𝑀𝑀^𝑋𝑋

∑

_𝑗𝑗=1^𝑀𝑀^𝑌𝑌

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑥𝑥

_𝑖𝑖

𝑦𝑦

_𝑗𝑗

(2) 𝐻𝐻(𝑋𝑋, 𝑌𝑌) = 𝐻𝐻(𝑋𝑋) + 𝐻𝐻(𝑌𝑌|𝑋𝑋) = 𝐻𝐻 (𝑌𝑌) + 𝐻𝐻(𝑋𝑋|𝑌𝑌) (3) 0 ≤ 𝐻𝐻 𝑋𝑋 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋

（

𝐻𝐻 𝑋𝑋 𝑌𝑌 = 𝐻𝐻(𝑋𝑋)

は

𝑋𝑋

と

𝑌𝑌

が独立の時のみ成立）

(4) 0 ≤ 𝐻𝐻 𝑌𝑌 𝑋𝑋 ≤ 𝐻𝐻 𝑌𝑌

（

𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐻𝐻(𝑌𝑌)

は

𝑋𝑋

と

𝑌𝑌

が独立の時のみ成立）

定理

2.3

別の情報を得ると，エントロピーは変化しないか減少する

結合エントロピーと条件付きエントロピーの関係

(20)

定理 2.3(2) の証明

[証明] 結合エントロピーと条件付き確率の定義から，

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = − �

�

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

= − �

�

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

𝑃𝑃 𝑥𝑥

_𝑖𝑖

𝑃𝑃 𝑥𝑥

_𝑖𝑖

= − �

�

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑥𝑥

_𝑖𝑖

+ log

₂

𝑃𝑃 𝑦𝑦

_𝑗𝑗

𝑥𝑥

_𝑖𝑖

= 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 𝑋𝑋

が成立する．

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 + 𝐻𝐻 𝑋𝑋 𝑌𝑌

も同様にして証明できる． □

20

ベイズの定理

(21)

相互情報量の定義 [ 定義 2.7]

例

2.2

において，天気

𝑋𝑋

についての曖昧さは，

𝐻𝐻 𝑋𝑋 = − ∑

_𝑖𝑖=1^𝑛𝑛

𝑝𝑝 𝑥𝑥

_𝑖𝑖

log 𝑝𝑝 𝑥𝑥

_𝑖𝑖

≒ 0.9710 (bit).

アイスクリームの売上高

𝑌𝑌

を聞いたとき，残っている曖昧さは，

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≒ 0.8797 (bit).

したがって，売上高

𝑌𝑌

を聞くことで，天気

𝑋𝑋

について

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌

≒ 0.9710 − 0.8797 = 0.0913 (bit)

だけ，曖昧さが減少する．

言い換えると，売上高

𝑌𝑌

を聞くことで天気

𝑋𝑋

に関する情報量が，

（平均として）

𝐼𝐼(𝑋𝑋; 𝑌𝑌) ≒ 0.0913 (bit)

得られることを意味する．

この

𝐼𝐼(𝑋𝑋; 𝑌𝑌)

を

𝑋𝑋

と

𝑌𝑌

の相互情報量（

mutual information

）と呼ぶ．

(22)

相互情報量の性質 (1) [ 定理 2.4(1)]

相互情報量の定義

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌

と，先ほどの結合エントロピーと条件付きエントロピーの関係

𝐻𝐻 𝑋𝑋 , 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐻𝐻 𝑌𝑌 + 𝐻𝐻 𝑋𝑋 𝑌𝑌

から，

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌

= 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑋𝑋, 𝑌𝑌

= 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑌𝑌 𝑋𝑋

= 𝐼𝐼 𝑌𝑌 ; 𝑋𝑋

= ∑

_𝑖𝑖

∑

_𝑗𝑗

𝑝𝑝 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

_{𝑝𝑝 𝑥𝑥}^{𝑝𝑝 𝑥𝑥}^𝑖𝑖^,𝑦𝑦^𝑗𝑗

𝑖𝑖 𝑝𝑝 𝑦𝑦_𝑗𝑗

が成り立つ．

22

𝑋𝑋

と

𝑌𝑌

に関して対称

※ 𝐻𝐻 𝑋𝑋 𝑌𝑌 = − ∑_𝑗𝑗=1^𝑚𝑚 𝑝𝑝 𝑦𝑦_𝑖𝑖 ∑_𝑖𝑖=1^𝑛𝑛 𝑝𝑝 𝑥𝑥_𝑖𝑖 𝑦𝑦_𝑗𝑗 log𝑝𝑝 𝑥𝑥_𝑖𝑖 𝑦𝑦_𝑗𝑗 = − ∑_𝑖𝑖=1^𝑛𝑛 ∑_𝑗𝑗=1^𝑚𝑚 𝑝𝑝 𝑥𝑥_𝑖𝑖,𝑦𝑦_𝑗𝑗 log𝑝𝑝 𝑥𝑥_𝑖𝑖 𝑦𝑦_𝑗𝑗

(23)

相互情報量の性質 (2) [ 定理 2.4(2)]

相互情報量

𝐼𝐼(𝑋𝑋; 𝑌𝑌)

は，

𝑋𝑋

と

𝑌𝑌

に共通して含まれる情報の量を表すと解釈できる．

𝐼𝐼(𝑋𝑋; 𝑌𝑌)

の範囲は，次式のとおりである．

0 ≤ 𝐼𝐼 𝑋𝑋; 𝑌𝑌 ≤ min 𝐻𝐻 𝑋𝑋 , 𝐻𝐻 𝑌𝑌 [

証明

]

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌

と，

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋

の関係から，

左側は明らか．右側の不等式についても，

𝐼𝐼 𝑋𝑋; 𝑌𝑌 =

𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 − 𝐻𝐻(𝑌𝑌|𝑋𝑋)

の関係と，

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≥ 0,

𝐻𝐻 𝑌𝑌 𝑋𝑋 ≥ 0

であることから導ける．

𝐻𝐻(𝑋𝑋) 𝐻𝐻(𝑌𝑌)

𝐻𝐻(𝑋𝑋, 𝑌𝑌)

𝐼𝐼(𝑋𝑋; 𝑌𝑌) 𝐻𝐻 (𝑌𝑌|𝑋𝑋)

𝐻𝐻(𝑋𝑋|𝑌𝑌)

(24)

相互情報量の計算例

前回のガンの検査の例について，ガンである確率変数を

𝑋𝑋

，検査の結果の確率変数を

𝑌𝑌

として相互情報量を計算してみよう．

𝑃𝑃

_{𝑌𝑌|𝑋𝑋}

𝐴𝐴 𝐶𝐶 = 𝑃𝑃

𝐴𝐴

^𝑐𝑐

𝐶𝐶

^𝑐𝑐

= 0.95, 𝑃𝑃

_𝑋𝑋

(𝐶𝐶) = 0.0

1 なので，

𝑃𝑃

_𝑌𝑌

𝐴𝐴 = 𝑃𝑃

𝐴𝐴 𝐶𝐶 𝑃𝑃

_𝑋𝑋

𝐶𝐶 + 𝑃𝑃

𝐴𝐴 𝐶𝐶

^𝑐𝑐

𝑃𝑃

_𝑋𝑋

𝐶𝐶

^𝑐𝑐

= 0.95 × 0.01 + 0.05 × 0.99

= 0.0095 + 0.0495 = 0.059

.

∴ 𝐻𝐻 𝑌𝑌 = ℋ 0.059 ≒ 0.323

.

次に，

𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐶𝐶 = ℋ 0.95 ≒ 0.286

，

𝐻𝐻(𝑌𝑌|𝑋𝑋 = 𝐶𝐶

^𝑐𝑐

) = ℋ(0.05) ≒ 0.286

なので，

𝐻𝐻 𝑌𝑌 𝑋𝑋 ≒ 0.01 × 0.286 + 0.99 × 0.286

= 0.286 .

したがって，相互情報量

𝐼𝐼 (𝑋𝑋; 𝑌𝑌)

は，

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑌𝑌 𝑋𝑋

≒ 0.323 − 0.286

= 0.037 bit .

²⁴

𝑃𝑃(𝑋𝑋, 𝑌𝑌) 𝑋𝑋

𝐶𝐶 𝐶𝐶

^𝑐𝑐

𝑌𝑌 𝐴𝐴 0.0095 0.0495

𝐴𝐴

^𝑐𝑐

0.0005 0.9405

𝑃𝑃(𝑌𝑌|𝑋𝑋) 𝑋𝑋

𝐶𝐶 𝐶𝐶

^𝑐𝑐

𝑌𝑌 𝐴𝐴 0.95 0.05

𝐴𝐴

^𝑐𝑐

0.05 0.95

ちなみに

𝐻𝐻(𝑋𝑋) ≒ 0.0808

(25)

今日のまとめ

2.1

情報量

確率

𝑝𝑝

で起こる事象の自己情報量

𝐼𝐼 𝑝𝑝

＝－

log

_𝑎𝑎

𝑝𝑝 2.2

エントロピー

確率変数

𝑋𝑋

の平均情報量

𝐻𝐻 𝑋𝑋 = − ∑

𝑝𝑝

_𝑖𝑖

log

₂

𝑝𝑝

_𝑖𝑖

2.3

エントロピーの性質

0 ≤ 𝐻𝐻 𝑋𝑋 ≤ log

₂

𝑀𝑀

二つの確率変数に対するエントロピー

2.4

結合エントロピー

𝐻𝐻(𝑋𝑋, 𝑌𝑌)

2.5

条件付きエントロピー

𝐻𝐻 𝑋𝑋 𝑌𝑌 , 𝐻𝐻(𝑌𝑌|𝑋𝑋) 2.6

相互情報量

𝐼𝐼(𝑋𝑋; 𝑌𝑌)

次回

情報源のモデルについて

𝐻𝐻(𝑋𝑋) 𝐻𝐻 (𝑌𝑌)

𝐻𝐻 (𝑋𝑋, 𝑌𝑌)

𝐼𝐼(𝑋𝑋; 𝑌𝑌) 𝐻𝐻(𝑌𝑌|𝑋𝑋 )

𝐻𝐻 (𝑋𝑋|𝑌𝑌)

(26)

補助定理 A.1[ シャノンの補助定理 ]

26

補助定理

A.1 𝑝𝑝

₁

, 𝑝𝑝

₂

,

・・・

, 𝑝𝑝

_𝑀𝑀 および

𝑞𝑞

₁

, 𝑞𝑞

₂

,

・・・

, 𝑞𝑞

_𝑀𝑀 を

𝑝𝑝

₁

+ 𝑝𝑝

₂

+

・・・

+ 𝑝𝑝

_𝑀𝑀

= 1, 𝑞𝑞

₁

+ 𝑞𝑞

₂

+

・・・

+ 𝑞𝑞

_𝑀𝑀

≤ 1

を満たす任意の非負の数とする（ただし，

𝑝𝑝

_𝑖𝑖

≠ 0

のときは

𝑞𝑞

_𝑖𝑖

≠ 0

とする）．このとき，

− ∑

𝑝𝑝

_𝑖𝑖

log

₂

𝑞𝑞

_𝑖𝑖

≥ − ∑

𝑝𝑝

_𝑖𝑖

log

₂

𝑝𝑝

_𝑖𝑖

(A.3)

が成立する．等号は

𝑞𝑞

_𝑖𝑖

= 𝑝𝑝

_𝑖𝑖

( 𝑖𝑖 = 1, 2,

・・・

, 𝑀𝑀)

のとき，またそのときに限って成立する．

つまり，確率分布

𝑃𝑃 = 𝑝𝑝

_𝑖𝑖 _𝑖𝑖=1^𝑀𝑀 とちょっと違う分布

𝑞𝑞

_𝑖𝑖 （ただし総和が

1

以下）を持ってきて，

log

₂ の内側の

𝑝𝑝

_𝑖𝑖 と置き換えると，元よりも少し大きくなる．

証明は教科書を参照

(27)

定理 2.1 の証明

𝑋𝑋

𝐻𝐻(𝑋𝑋)

は

𝐻𝐻 𝑋𝑋

＝－

∑

𝑝𝑝

_𝑖𝑖

log

₂

𝑝𝑝

_𝑖𝑖

.

0 ≤ 𝑝𝑝

_𝑖𝑖

≤ 1

なので，明らかに

0 ≤ 𝐻𝐻 𝑆𝑆

であり，

𝐻𝐻 𝑆𝑆 = 0

が成立するのは，

𝑝𝑝

₁

, 𝑝𝑝

₂

,

・・・

, 𝑝𝑝

_𝑘𝑘 のうち

一つが

1

で他が

0

の場合である．

補助定理

A.1

（シャノンの補助定理）を

𝑞𝑞

_𝑖𝑖

= 1/𝑀𝑀

として適用すると，

𝐻𝐻 𝑋𝑋

＝－

∑

𝑝𝑝

_𝑖𝑖

log

₂

𝑝𝑝

_𝑖𝑖

≤

－

∑

𝑝𝑝

_𝑖𝑖

log

₂ _𝑀𝑀¹

＝

log

₂

𝑀𝑀 .

等号が成立するのは

𝑝𝑝

_𝑖𝑖＝

𝑞𝑞

_𝑖𝑖

= 1/𝑀𝑀

のときのみである． □

補助定理

A.1

より

∑

𝑝𝑝

_𝑖𝑖

= 1

だから

−log

₂

𝑝𝑝

_𝑖𝑖

≥ 0

だから

(28)

定理 2.2 の証明

[証明] 結合エントロピーの定義より

0 ≤ 𝐻𝐻 𝑋𝑋, 𝑌𝑌

は明らかである．

よって，

𝐻𝐻 𝑋𝑋, 𝑌𝑌 ≤ 𝐻𝐻(𝑋𝑋) + 𝐻𝐻 (𝑌𝑌)

を証明する．

𝐻𝐻 𝑋𝑋 = − �

𝑃𝑃 𝑥𝑥

_𝑖𝑖

log

₂

𝑃𝑃 𝑥𝑥

_𝑖𝑖

= − �

�

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑥𝑥

_𝑖𝑖

,

𝐻𝐻 𝑌𝑌 = − �

𝑃𝑃 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑦𝑦

_𝑗𝑗

= − �

�

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑦𝑦

_𝑗𝑗

.

したがって，

𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 = − �

�

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑥𝑥

_𝑖𝑖

𝑃𝑃 𝑦𝑦

_𝑗𝑗

28

(29)

定理 2.2 の証明 ( つづき）

A.1節の補助定理A.1（シャノンの補助定理）を適用すると，

− �

�

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑥𝑥

_𝑖𝑖

𝑃𝑃 𝑦𝑦

_𝑗𝑗

≥ − �

�

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

log

₂

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

が成り立つ．すなわち，

𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 ≥ 𝐻𝐻 𝑋𝑋 , 𝑌𝑌

となる．

等号が成り立つのは，シャノンの補助定理の統合条件より，すべての

𝑖𝑖 , 𝑗𝑗

に対して

𝑃𝑃 𝑥𝑥

_𝑖𝑖

, 𝑦𝑦

_𝑗𝑗

= 𝑃𝑃 𝑥𝑥

_𝑖𝑖

𝑃𝑃 (𝑦𝑦

_𝑗𝑗

)

が成立する場合である．

これは，

𝑋𝑋

と

𝑌𝑌

が独立であるときに他ならない． □

(30)

自己情報量が対数関数である理由 (1/3)

まず，コーシー（

Cauchy

）の関数方程式

𝑓𝑓 𝑥𝑥 + 𝑦𝑦 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓(𝑦𝑦)

を満たす連続関数が

𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥

（

𝑎𝑎

は定数）であることを示す．

𝑥𝑥 = 𝑦𝑦 = 0

を代入すると，

𝑓𝑓 0 = 𝑓𝑓 0 + 𝑓𝑓 0

より，

𝑓𝑓 0 = 0

．次に，

𝑦𝑦 = −𝑥𝑥

を代入すると，

𝑓𝑓 𝑥𝑥 − 𝑥𝑥 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓 −𝑥𝑥 , 0 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓 −𝑥𝑥 .

より，

𝑓𝑓 −𝑥𝑥 = −𝑓𝑓(𝑥𝑥)

が成り立つ（つまり，

𝑓𝑓 𝑥𝑥

は奇関数）．

𝑛𝑛

が自然数のとき，

𝑓𝑓 𝑛𝑛 = 𝑓𝑓 1 + 𝑛𝑛 − 1 = 𝑓𝑓 1 + 𝑓𝑓 𝑛𝑛 − 1

= 𝑓𝑓 1 + 𝑓𝑓 1 + 𝑓𝑓 𝑛𝑛 − 2 = ⋯ = 𝑛𝑛𝑓𝑓 1 .

𝑓𝑓 𝑥𝑥

が奇関数であることから，

𝑓𝑓 −𝑛𝑛 = −𝑛𝑛𝑓𝑓(1)

も成り立つ．すな

わち，任意の整数について

𝑓𝑓 𝑛𝑛 = 𝑛𝑛𝑓𝑓(1)

が成り立つ．

30

(31)

自己情報量が対数関数である理由 (2/3)

同様の考えにより，任意の実数

𝑥𝑥

と自然数

𝑚𝑚

に対して，

𝑓𝑓 𝑚𝑚𝑥𝑥 = 𝑚𝑚𝑓𝑓 𝑥𝑥

が成り立つ．

𝑚𝑚

が自然数，

𝑛𝑛

が整数のとき，

𝑓𝑓 𝑛𝑛 = 𝑓𝑓 𝑛𝑛

𝑚𝑚 × 𝑚𝑚 = 𝑚𝑚𝑓𝑓 𝑛𝑛

より，

𝑚𝑚

𝑓𝑓 𝑛𝑛

𝑚𝑚 = 𝑓𝑓 𝑛𝑛

𝑚𝑚 = 𝑛𝑛

𝑚𝑚 𝑓𝑓 1 .

したがって，任意の有理数

𝑥𝑥

に対して，次が成り立つ．

𝑓𝑓 𝑥𝑥 = 𝑥𝑥𝑓𝑓 1 .

𝑓𝑓 1

は定数なので，これを

𝑎𝑎

と置くと，

𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥

と書ける．

有理数の稠密性から，連続関数に限定するとコーシーの関数方程式を満たす解は

𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥

のみであることが言える．

(32)

自己情報量が対数関数である理由 (3/3)

コーシーの関数方程式の解を応用して，自己情報量の三つの性質を満たす関数

𝐼𝐼(𝑝𝑝)

が対数関数で表されることを示す．

ある実数

𝑎𝑎 > 1

をとり，

𝑔𝑔 𝑥𝑥 = 𝐼𝐼(𝑎𝑎

^𝑥𝑥

)

とおく．このとき，

𝑔𝑔 𝑥𝑥 + 𝑦𝑦 = 𝐼𝐼 𝑎𝑎

^{𝑥𝑥+𝑦𝑦}

= 𝐼𝐼 𝑎𝑎

^𝑥𝑥

⋅ 𝑎𝑎

^𝑦𝑦

= 𝐼𝐼 𝑎𝑎

^𝑥𝑥

+ 𝐼𝐼 𝑎𝑎

^𝑦𝑦

= 𝑔𝑔 𝑥𝑥 + 𝑔𝑔(𝑦𝑦)

が成り立つ．コーシーの関数方程式の解から，

𝑔𝑔 𝑥𝑥 = 𝑏𝑏𝑥𝑥

と書ける（

𝑏𝑏

は定数）．すなわち，

𝑝𝑝 = 𝑎𝑎

^𝑥𝑥 とおくと，

𝐼𝐼 𝑝𝑝 = 𝑔𝑔 log

_𝑎𝑎

𝑝𝑝 = 𝑏𝑏 log

_𝑎𝑎

𝑝𝑝

．

𝐼𝐼 𝑝𝑝

は

0 ≤ 𝑝𝑝 < 1

で単調減少関数なので，

𝑎𝑎 > 1

のとき

𝑏𝑏 < 0

でなければならない．

𝑏𝑏 = −1

とおけば，

𝐼𝐼 𝑝𝑝 = − log

_𝑎𝑎

𝑝𝑝

となる．

32

𝐼𝐼 (𝑝𝑝)

の加法性から

講義「情報理論」