• 検索結果がありません。

講義「情報理論」

N/A
N/A
Protected

Academic year: 2021

シェア "講義「情報理論」"

Copied!
32
0
0

読み込み中.... (全文を見る)

全文

(1)

講義「情報理論」

第3回 情報量とエントロピー

情報理工学部門 情報知識ネットワーク研究室 喜田拓也

2019/6/21

(2)

今日の内容

2.1 情報量

2.2 エントロピー

2.3 エントロピーの性質 2.4 結合エントロピー

2.5 条件付きエントロピー 2.6 相互情報量

2

(3)

情報には量がある!

確率が高いことを知らされても,

そのニュースは価値が低い

私には一人,妹がいます 妹は女性です

フーン (´<_` ) で?

確率1の結果が知らされる → 得られる情報量は 0

(4)

情報には量がある!

確率が低いことを知らされたら,

そのニュースは価値が高い

4

私には12人,妹がいます (; ゚ Д ゚ )( ゚ Д ゚ ;( ゚,゚ ;) ナ、ナンダッテー !!

確率が 0 に近い事柄を知らされる → 情報量は大!

(5)

一つの結果を知ったときの情報量

確率 𝑝𝑝 の事象の生起を知ったときに得られる情報量を

𝐼𝐼(𝑝𝑝) とすると 𝐼𝐼 (𝑝𝑝) は次のような性質を満たすべき

① 𝐼𝐼 (𝑝𝑝) は 0 < 𝑝𝑝 ≤ 1 で単調減少な関数である

② 確率 𝑝𝑝

1

, 𝑝𝑝

2

で起こる二つの互いに独立な事象が同時 に起こる確率 𝑝𝑝

1

𝑝𝑝

2

について 𝐼𝐼 𝑝𝑝

1

𝑝𝑝

2

= 𝐼𝐼 𝑝𝑝

1

+ 𝐼𝐼 𝑝𝑝

2

③ 𝐼𝐼 (𝑝𝑝) は 0 < 𝑝𝑝 ≤ 1 で連続な関数である これらを満たす関数 𝐼𝐼(𝑝𝑝) は

𝐼𝐼 𝑝𝑝 = - log 𝑎𝑎 𝑝𝑝

という形しかありえない(ただし 𝑎𝑎 > 1 )

情報量の 加法性

証明は省略

(6)

情報量の定義

確率

𝑝𝑝

で生起する事象が起きたことを知ったときに 得られる情報量

𝐼𝐼 𝑝𝑝

を自己情報量と呼び,

𝐼𝐼 𝑝𝑝 = − log

𝑎𝑎

𝑝𝑝

と定義する.ただし,

𝑎𝑎

𝑎𝑎 > 1

の定数とする.

6

𝑎𝑎 = 2

の場合,単位はビット(

bit

)という

自然対数で計るときはナット(

nat

1 nat ≒ 1.443 bit 10

を底とする対数で計るときはハートレー(

Hartley

もしくはディット(

dit

)またはデシット(

decit

1 Hartley ≒ 3.322 bit

簡単な例題: サイコロを1回振ったときの出目を知ったとき に得られる情報量は何ビットか答えよ.ただし,サイコロの 各出目が得られる確率はすべて等しく1/6とする.

定義

2.1

確率

1/2

で生じる 結果を知ったときの 情報量 =

1 [bit]

(7)

平均情報量

𝑀𝑀

個の互いに排反な事象

𝑎𝑎

1

, 𝑎𝑎

2

,

・・・

, 𝑎𝑎

𝑀𝑀 が起こる確率を

𝑝𝑝

1

, 𝑝𝑝

2

,

・・・

, 𝑝𝑝

𝑀𝑀 とする(ただし,

𝑝𝑝

1

+ 𝑝𝑝

2

+ ⋯ + 𝑝𝑝

𝑀𝑀

= 1

).

このうち1つの事象が起こったことを知ったときに得る情報量は

log

2

𝑝𝑝

𝑖𝑖 であるから,これを平均した期待値

̅𝐼𝐼

は,

̅𝐼𝐼 = 𝑝𝑝

1

− log

2

𝑝𝑝

1

+ 𝑝𝑝

2

− log

2

𝑝𝑝

2

+ ⋯ + 𝑝𝑝

𝑀𝑀

− log

2

𝑝𝑝

𝑀𝑀

= − �

𝑖𝑖=1 𝑀𝑀

𝑝𝑝

𝑖𝑖

log

2

𝑝𝑝

𝑖𝑖

となる.これを平均情報量(単位はビット)という.

定義

2.2

(8)

エントロピー

確率変数

𝑋𝑋

がとりうる値が

𝑥𝑥

1

, 𝑥𝑥

2

,

・・・

, 𝑥𝑥

𝑀𝑀 とし,

𝑋𝑋

がそれぞれの 値をとる確率が

𝑝𝑝

1

, 𝑝𝑝

2

, … , 𝑝𝑝

𝑀𝑀(ただし,

𝑝𝑝

1

+ 𝑝𝑝

2

+ ⋯ + 𝑝𝑝

𝑀𝑀

= 1

) であるとき,確率変数

𝑋𝑋

のエントロピーを

𝐻𝐻 𝑋𝑋 = − ∑

𝑖𝑖=1𝑀𝑀

𝑝𝑝

𝑖𝑖

log

2

𝑝𝑝

𝑖𝑖 ビットと定義する.

8

定義

2.3

例題

2.1

: 偏りのないコインを

2

回投げて表の出た枚数を確率変数

𝑋𝑋

とする.このとき,

𝑋𝑋

のエントロピー

𝐻𝐻 𝑋𝑋

は何ビットか?

𝐻𝐻 𝑋𝑋 = − 1

4 log

2

1

4 − 1

2 × log

2

1

2 − 1

4 log

2

1 4

= 2 × 2 4 +

1

2 = 1.5 (

ビット

)

𝑋𝑋 0 1 2

1 4

1 2

1

4

Try

練習問題

2.1

(9)

エントロピーの性質

𝑀𝑀 個の値をとる確率変数 𝑋𝑋 のエントロピー 𝐻𝐻(𝑋𝑋) は 次の性質を満たす.

(1) 0 ≤ 𝐻𝐻 𝑋𝑋 ≤ log 2 𝑀𝑀

(2) 𝐻𝐻(𝑋𝑋) が最小値 0 となるのは,ある値をとる確率

が 1 で,他の 𝑀𝑀 − 1 個の値をとる確率がすべて 0 のときに限る.すなわち, 𝑋𝑋 のとる値が初めから 確定している場合のみである.

(3) 𝐻𝐻(𝑋𝑋) が最大値 log 2 𝑀𝑀 となるのは, 𝑀𝑀 個の値が すべて 1/𝑀𝑀 で等しい場合に限る.

定理 2.1

(10)

エントロピー関数

二つの値

1, 0

をそれぞれ

0.2, 0.8

の確率 でとる確率変数

X

のエントロピー

𝐻𝐻 (𝑋𝑋)

は,

𝐻𝐻 𝑋𝑋 = − ∑

𝑖𝑖=12

𝑝𝑝

𝑖𝑖

log 𝑝𝑝

𝑖𝑖

=

0.2 log 0.2 − 0.8 log 0.8

= ℋ 0.2

≅ 0.7219

となる.

10

エントロピー関数とは,

0 ≤ 𝑥𝑥 ≤ 1

で定義される関数

ℋ 𝑥𝑥 = −𝑥𝑥 log

2

𝑥𝑥 − 1 − 𝑥𝑥 log

2

1 − 𝑥𝑥

のことをいう.

定義

2.4

0.2 0.4 0.6 0.8 1 x

0.2 0.4 0.6 0.8 1 y

エントロピー関数

0.7219

(11)

二つの情報を一度に聞いたときの情報量は?

はたして, 𝐻𝐻( (𝑋𝑋, 𝑌𝑌 ) ) = 𝐻𝐻(𝑋𝑋) + 𝐻𝐻(𝑌𝑌 ) だろうか?

解説好きの

I

K

𝑋𝑋 : 日経平均株価が下 がって 1 万 6000 円を割 ったそうだよ

𝑌𝑌 : また円高で, 1 ドル 105 円ほどになったよ

へ,へぇ~~~

(12)

例 2.2

二つの確率変数

𝑋𝑋 , 𝑌𝑌

を考える.

𝑋𝑋

𝑥𝑥

1

, 𝑥𝑥

2

, … , 𝑥𝑥

𝑀𝑀𝑋𝑋の値をとり,

𝑌𝑌

𝑦𝑦

1

, 𝑦𝑦

2

, … , 𝑦𝑦

𝑀𝑀𝑌𝑌の値をとるものとする.確率変数の組

(𝑋𝑋, 𝑌𝑌)

の値が

(𝑥𝑥 , 𝑦𝑦)

となる結合確率分布を

𝑃𝑃(𝑥𝑥, 𝑦𝑦)

と書く

12

𝑃𝑃(𝑥𝑥, 𝑦𝑦) 𝑌𝑌

𝑃𝑃(𝑥𝑥 )

1

万円以上

1

万円未満

𝑋𝑋

0.5 0.1 0.6

0.2 0.2 0.4

𝑃𝑃(𝑦𝑦) 0.7 0.3

2.1 ある日の天気𝑋𝑋とコンビニのアイスクリームの売上高𝑌𝑌の結合確率分布𝑃𝑃(𝑥𝑥,𝑦𝑦)

(𝑋𝑋, 𝑌𝑌)

をまとめて考えると,4つの値をとる確率変数

𝑍𝑍

の エントロピー

𝐻𝐻 𝑍𝑍

として考えることができる

(13)

結合エントロピー

確率変数

𝑋𝑋

𝑌𝑌

の結合エントロピー

𝐻𝐻 (𝑋𝑋 , 𝑌𝑌)

は,

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = − �

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃(𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

)

により定義される.これを結合エントロピーと呼ぶ.ただし,

{𝑥𝑥

1

, 𝑥𝑥

2

, … , 𝑥𝑥

𝑀𝑀𝑋𝑋

}

および

{𝑦𝑦

1

, 𝑦𝑦

2

, … , 𝑦𝑦

𝑀𝑀𝑌𝑌

}

は,それぞれ

𝑋𝑋

𝑌𝑌

が 取りうる値の集合とする.

2.1

から,

(𝑋𝑋, 𝑌𝑌)

の結合エントロピーは,

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = −0.5 × log 0.5 − 0.1 × log 0.1

−0.2 × log 0.2 − 0.2 × log 0.2

≒ 1.76

ビット

.

定義

2.5

Try

練習問題

2.2

(14)

結合エントロピーの性質

14

確率変数

𝑋𝑋

𝑌𝑌

の結合エントロピー

𝐻𝐻(𝑋𝑋, 𝑌𝑌)

に対し,

0 ≤ 𝐻𝐻 𝑋𝑋, 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 (𝑌𝑌)

が成り立つ.また

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌

となるのは,

𝑋𝑋

𝑌𝑌

が独立のときのみである.

定理

2.2

(15)

ちょっと休憩

(16)

関連情報を事前に知っていた時の情報量は?

16

へぇ!さすが王族!

関連する情報が既知だと,驚きは少なくなる

→ エントロピーは小さくなっているはず!

俺には 12 人の 妹がいる!

あ,一夫多妻の 国の王子様!

こんにちは!

R

(17)

例 2.2 (p.17)

アイスクリームの売上高が「1万円以上」だったとき,実際の天気についての曖昧 さ(エントロピー)は,晴と雨の確率がそれぞれ

5/7

2/7

であるから,

𝐻𝐻 𝑋𝑋

1万円以上

= ℋ 5/7 ≒ 0. 8631 (bit).

同様に,売上高が「1万円未満」のときは,

𝐻𝐻 𝑋𝑋

1万円未満

= ℋ 1/3 ≒ 0.9183 (bit).

売上高が「1万円以上」「1万円未満」となる確率は,それぞれ

0.7

0.3

なので,

この割合でエントロピーを平均すると,

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≒ 0.7 × 0.8631 + 0.3 × 0.9183

≒ 0.8797 (bit)

となる.これは,

𝑋𝑋

のエントロピー

𝐻𝐻 𝑋𝑋 = ℋ 0.6 = 0.9710 (bit)

と比べて確かに小さい.

𝑃𝑃(𝑋𝑋 | 𝑌𝑌) 𝑌𝑌

1

万円以上

1

万円未満

𝑋𝑋

5/7 1/3

2/7 2/3

2.2 𝑌𝑌 で条件付けた 𝑋𝑋 の確率分布

(18)

条件付きエントロピー

18

確率変数

𝑌𝑌

で条件を付けた

𝑋𝑋

の条件付きエントロピー

𝐻𝐻(𝑋𝑋 |𝑌𝑌)

は,

𝐻𝐻 𝑋𝑋|𝑌𝑌 = − �

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑃𝑃 (𝑦𝑦

𝑗𝑗

) �

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥

𝑖𝑖

| 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃(𝑥𝑥

𝑖𝑖

|𝑦𝑦

𝑗𝑗

)

により定義される.ただし,

{𝑥𝑥

1

, 𝑥𝑥

2

, … , 𝑥𝑥

𝑀𝑀𝑋𝑋

}

および

{𝑦𝑦

1

, 𝑦𝑦

2

, … , 𝑦𝑦

𝑀𝑀𝑌𝑌

}

は,それぞれ

𝑋𝑋

𝑌𝑌

が取りうる値の集合とす る.

定義

2.6

Try

練習問題

2.3

(19)

{𝑥𝑥

1

, 𝑥𝑥

2

, … , 𝑥𝑥

𝑀𝑀𝑋𝑋

}

および

{𝑦𝑦

1

, 𝑦𝑦

2

, … , 𝑦𝑦

𝑀𝑀𝑌𝑌

}

をとりうる値の集合 とする確率変数

𝑋𝑋

および

𝑌𝑌

に関し,以下が成り立つ.

(1) 𝐻𝐻 𝑋𝑋 𝑌𝑌 = − ∑

𝑖𝑖=1𝑀𝑀𝑋𝑋

𝑗𝑗=1𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑥𝑥

𝑖𝑖

𝑦𝑦

𝑗𝑗

(2) 𝐻𝐻(𝑋𝑋, 𝑌𝑌) = 𝐻𝐻(𝑋𝑋) + 𝐻𝐻(𝑌𝑌|𝑋𝑋) = 𝐻𝐻 (𝑌𝑌) + 𝐻𝐻(𝑋𝑋|𝑌𝑌) (3) 0 ≤ 𝐻𝐻 𝑋𝑋 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋

𝐻𝐻 𝑋𝑋 𝑌𝑌 = 𝐻𝐻(𝑋𝑋)

𝑋𝑋

𝑌𝑌

が独立の時のみ成立)

(4) 0 ≤ 𝐻𝐻 𝑌𝑌 𝑋𝑋 ≤ 𝐻𝐻 𝑌𝑌

𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐻𝐻(𝑌𝑌)

𝑋𝑋

𝑌𝑌

が独立の時のみ成立)

定理

2.3

別の情報を得ると,エントロピーは変化しないか減少する

結合エントロピーと条件付きエントロピーの関係

(20)

定理 2.3(2) の証明

[証明] 結合エントロピーと条件付き確率の定義から,

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = − �

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

= − �

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

𝑃𝑃 𝑥𝑥

𝑖𝑖

𝑃𝑃 𝑥𝑥

𝑖𝑖

= − �

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑥𝑥

𝑖𝑖

+ log

2

𝑃𝑃 𝑦𝑦

𝑗𝑗

𝑥𝑥

𝑖𝑖

= 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 𝑋𝑋

が成立する.

𝐻𝐻 𝑋𝑋, 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 + 𝐻𝐻 𝑋𝑋 𝑌𝑌

も同様にして証明できる. □

20

ベイズの定理

(21)

相互情報量の定義 [ 定義 2.7]

2.2

において,天気

𝑋𝑋

についての曖昧さは,

𝐻𝐻 𝑋𝑋 = − ∑

𝑖𝑖=1𝑛𝑛

𝑝𝑝 𝑥𝑥

𝑖𝑖

log 𝑝𝑝 𝑥𝑥

𝑖𝑖

≒ 0.9710 (bit).

アイスクリームの売上高

𝑌𝑌

を聞いたとき,残っている曖昧さは,

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≒ 0.8797 (bit).

したがって,売上高

𝑌𝑌

を聞くことで,天気

𝑋𝑋

について

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌

≒ 0.9710 − 0.8797 = 0.0913 (bit)

だけ,曖昧さが減少する.

言い換えると,売上高

𝑌𝑌

を聞くことで天気

𝑋𝑋

に関する情報量が,

(平均として)

𝐼𝐼(𝑋𝑋; 𝑌𝑌) ≒ 0.0913 (bit)

得られることを意味する.

この

𝐼𝐼(𝑋𝑋; 𝑌𝑌)

𝑋𝑋

𝑌𝑌

の相互情報量(

mutual information

)と呼ぶ.

(22)

相互情報量の性質 (1) [ 定理 2.4(1)]

相互情報量の定義

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌

と,先ほどの結合エントロピーと条件付きエントロピーの関係

𝐻𝐻 𝑋𝑋 , 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐻𝐻 𝑌𝑌 + 𝐻𝐻 𝑋𝑋 𝑌𝑌

から,

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌

= 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑋𝑋, 𝑌𝑌

= 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑌𝑌 𝑋𝑋

= 𝐼𝐼 𝑌𝑌 ; 𝑋𝑋

= ∑

𝑖𝑖

𝑗𝑗

𝑝𝑝 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

𝑝𝑝 𝑥𝑥𝑝𝑝 𝑥𝑥𝑖𝑖,𝑦𝑦𝑗𝑗

𝑖𝑖 𝑝𝑝 𝑦𝑦𝑗𝑗

が成り立つ.

22

𝑋𝑋

𝑌𝑌

に関して対称

※ 𝐻𝐻 𝑋𝑋 𝑌𝑌 = − ∑𝑗𝑗=1𝑚𝑚 𝑝𝑝 𝑦𝑦𝑖𝑖𝑖𝑖=1𝑛𝑛 𝑝𝑝 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗 log𝑝𝑝 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗 = − ∑𝑖𝑖=1𝑛𝑛𝑗𝑗=1𝑚𝑚 𝑝𝑝 𝑥𝑥𝑖𝑖,𝑦𝑦𝑗𝑗 log𝑝𝑝 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗

(23)

相互情報量の性質 (2) [ 定理 2.4(2)]

相互情報量

𝐼𝐼(𝑋𝑋; 𝑌𝑌)

は,

𝑋𝑋

𝑌𝑌

に共通して含まれる情報の量を 表すと解釈できる.

𝐼𝐼(𝑋𝑋; 𝑌𝑌)

の範囲は,次式のとおりである.

0 ≤ 𝐼𝐼 𝑋𝑋; 𝑌𝑌 ≤ min 𝐻𝐻 𝑋𝑋 , 𝐻𝐻 𝑌𝑌 [

証明

]

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌

と,

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋

の関係から,

左側は明らか.右側の不等式についても,

𝐼𝐼 𝑋𝑋; 𝑌𝑌 =

𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 − 𝐻𝐻(𝑌𝑌|𝑋𝑋)

の関係と,

𝐻𝐻 𝑋𝑋 𝑌𝑌 ≥ 0,

𝐻𝐻 𝑌𝑌 𝑋𝑋 ≥ 0

であることから導ける.

𝐻𝐻(𝑋𝑋) 𝐻𝐻(𝑌𝑌)

𝐻𝐻(𝑋𝑋, 𝑌𝑌)

𝐼𝐼(𝑋𝑋; 𝑌𝑌) 𝐻𝐻 (𝑌𝑌|𝑋𝑋)

𝐻𝐻(𝑋𝑋|𝑌𝑌)

(24)

相互情報量の計算例

前回のガンの検査の例について,ガンである確率変数を

𝑋𝑋

,検査の結果の 確率変数を

𝑌𝑌

として相互情報量を計算してみよう.

𝑃𝑃

𝑌𝑌|𝑋𝑋

𝐴𝐴 𝐶𝐶 = 𝑃𝑃

𝑌𝑌|𝑋𝑋

𝐴𝐴

𝑐𝑐

𝐶𝐶

𝑐𝑐

= 0.95, 𝑃𝑃

𝑋𝑋

(𝐶𝐶) = 0.0

1 なので,

𝑃𝑃

𝑌𝑌

𝐴𝐴 = 𝑃𝑃

𝑌𝑌|𝑋𝑋

𝐴𝐴 𝐶𝐶 𝑃𝑃

𝑋𝑋

𝐶𝐶 + 𝑃𝑃

𝑌𝑌|𝑋𝑋

𝐴𝐴 𝐶𝐶

𝑐𝑐

𝑃𝑃

𝑋𝑋

𝐶𝐶

𝑐𝑐

= 0.95 × 0.01 + 0.05 × 0.99

= 0.0095 + 0.0495 = 0.059

.

∴ 𝐻𝐻 𝑌𝑌 = ℋ 0.059 ≒ 0.323

.

次に,

𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐶𝐶 = ℋ 0.95 ≒ 0.286

𝐻𝐻(𝑌𝑌|𝑋𝑋 = 𝐶𝐶

𝑐𝑐

) = ℋ(0.05) ≒ 0.286

なので,

𝐻𝐻 𝑌𝑌 𝑋𝑋 ≒ 0.01 × 0.286 + 0.99 × 0.286

= 0.286 .

したがって,相互情報量

𝐼𝐼 (𝑋𝑋; 𝑌𝑌)

は,

𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑌𝑌 𝑋𝑋

≒ 0.323 − 0.286

= 0.037 bit .

24

𝑃𝑃(𝑋𝑋, 𝑌𝑌) 𝑋𝑋

𝐶𝐶 𝐶𝐶

𝑐𝑐

𝑌𝑌 𝐴𝐴 0.0095 0.0495

𝐴𝐴

𝑐𝑐

0.0005 0.9405

𝑃𝑃(𝑌𝑌|𝑋𝑋) 𝑋𝑋

𝐶𝐶 𝐶𝐶

𝑐𝑐

𝑌𝑌 𝐴𝐴 0.95 0.05

𝐴𝐴

𝑐𝑐

0.05 0.95

ちなみに

𝐻𝐻(𝑋𝑋) ≒ 0.0808

(25)

今日のまとめ

2.1

情報量

確率

𝑝𝑝

で起こる事象の自己情報量

𝐼𝐼 𝑝𝑝

= -

log

𝑎𝑎

𝑝𝑝 2.2

エントロピー

確率変数

𝑋𝑋

の平均情報量

𝐻𝐻 𝑋𝑋 = − ∑

𝑖𝑖=1𝑀𝑀

𝑝𝑝

𝑖𝑖

log

2

𝑝𝑝

𝑖𝑖

2.3

エントロピーの性質

0 ≤ 𝐻𝐻 𝑋𝑋 ≤ log

2

𝑀𝑀

二つの確率変数に対するエントロピー

2.4

結合エントロピー

𝐻𝐻(𝑋𝑋, 𝑌𝑌)

2.5

条件付きエントロピー

𝐻𝐻 𝑋𝑋 𝑌𝑌 , 𝐻𝐻(𝑌𝑌|𝑋𝑋) 2.6

相互情報量

𝐼𝐼(𝑋𝑋; 𝑌𝑌)

次回

情報源のモデルについて

𝐻𝐻(𝑋𝑋) 𝐻𝐻 (𝑌𝑌)

𝐻𝐻 (𝑋𝑋, 𝑌𝑌)

𝐼𝐼(𝑋𝑋; 𝑌𝑌) 𝐻𝐻(𝑌𝑌|𝑋𝑋 )

𝐻𝐻 (𝑋𝑋|𝑌𝑌)

(26)

補助定理 A.1[ シャノンの補助定理 ]

26

補助定理

A.1

𝑝𝑝

1

, 𝑝𝑝

2

,

・・・

, 𝑝𝑝

𝑀𝑀 および

𝑞𝑞

1

, 𝑞𝑞

2

,

・・・

, 𝑞𝑞

𝑀𝑀

𝑝𝑝

1

+ 𝑝𝑝

2

+

・・・

+ 𝑝𝑝

𝑀𝑀

= 1, 𝑞𝑞

1

+ 𝑞𝑞

2

+

・・・

+ 𝑞𝑞

𝑀𝑀

≤ 1

を満たす任意の非負の数とする(ただし,

𝑝𝑝

𝑖𝑖

≠ 0

のときは

𝑞𝑞

𝑖𝑖

≠ 0

とする).このとき,

− ∑

𝑖𝑖=1𝑀𝑀

𝑝𝑝

𝑖𝑖

log

2

𝑞𝑞

𝑖𝑖

≥ − ∑

𝑖𝑖=1𝑀𝑀

𝑝𝑝

𝑖𝑖

log

2

𝑝𝑝

𝑖𝑖

(A.3)

が成立する.等号は

𝑞𝑞

𝑖𝑖

= 𝑝𝑝

𝑖𝑖

( 𝑖𝑖 = 1, 2,

・・・

, 𝑀𝑀)

のとき,またその ときに限って成立する.

つまり,確率分布

𝑃𝑃 = 𝑝𝑝

𝑖𝑖 𝑖𝑖=1𝑀𝑀 とちょっと違う分布

𝑞𝑞

𝑖𝑖 (ただし総和が

1

以下)を持ってきて,

log

2 の内側の

𝑝𝑝

𝑖𝑖 と置き換えると,元よりも 少し大きくなる.

証明は教科書を参照

(27)

定理 2.1 の証明

𝑋𝑋

のエントロピー

𝐻𝐻(𝑋𝑋)

𝐻𝐻 𝑋𝑋

=-

𝑖𝑖=1𝑀𝑀

𝑝𝑝

𝑖𝑖

log

2

𝑝𝑝

𝑖𝑖

.

0 ≤ 𝑝𝑝

𝑖𝑖

≤ 1

なので,明らかに

0 ≤ 𝐻𝐻 𝑆𝑆

であり,

𝐻𝐻 𝑆𝑆 = 0

が成立 するのは,

𝑝𝑝

1

, 𝑝𝑝

2

,

・・・

, 𝑝𝑝

𝑘𝑘 のうち

一つが

1

で他が

0

の場合である.

補助定理

A.1

(シャノンの補助定理)を

𝑞𝑞

𝑖𝑖

= 1/𝑀𝑀

として適用すると,

𝐻𝐻 𝑋𝑋

= -

𝑖𝑖=1𝑀𝑀

𝑝𝑝

𝑖𝑖

log

2

𝑝𝑝

𝑖𝑖

𝑖𝑖=1𝑀𝑀

𝑝𝑝

𝑖𝑖

log

2 𝑀𝑀1

log

2

𝑀𝑀 .

等号が成立するのは

𝑝𝑝

𝑖𝑖

𝑞𝑞

𝑖𝑖

= 1/𝑀𝑀

のときのみである. □

補助定理

A.1

より

𝑖𝑖=1𝑀𝑀

𝑝𝑝

𝑖𝑖

= 1

だから

−log

2

𝑝𝑝

𝑖𝑖

≥ 0

だから

(28)

定理 2.2 の証明

[証明] 結合エントロピーの定義より

0 ≤ 𝐻𝐻 𝑋𝑋, 𝑌𝑌

は明らかである.

よって,

𝐻𝐻 𝑋𝑋, 𝑌𝑌 ≤ 𝐻𝐻(𝑋𝑋) + 𝐻𝐻 (𝑌𝑌)

を証明する.

𝐻𝐻 𝑋𝑋 = − �

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥

𝑖𝑖

log

2

𝑃𝑃 𝑥𝑥

𝑖𝑖

= − �

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑥𝑥

𝑖𝑖

,

𝐻𝐻 𝑌𝑌 = − �

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑃𝑃 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑦𝑦

𝑗𝑗

= − �

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑦𝑦

𝑗𝑗

.

したがって,

𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 = − �

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑥𝑥

𝑖𝑖

𝑃𝑃 𝑦𝑦

𝑗𝑗

28

(29)

定理 2.2 の証明 ( つづき)

A.1節の補助定理A.1(シャノンの補助定理)を適用すると,

− �

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑥𝑥

𝑖𝑖

𝑃𝑃 𝑦𝑦

𝑗𝑗

≥ − �

𝑗𝑗=1 𝑀𝑀𝑌𝑌

𝑖𝑖=1 𝑀𝑀𝑋𝑋

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

log

2

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

が成り立つ.すなわち,

𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 ≥ 𝐻𝐻 𝑋𝑋 , 𝑌𝑌

となる.

等号が成り立つのは,シャノンの補助定理の統合条件より,すべ ての

𝑖𝑖 , 𝑗𝑗

に対して

𝑃𝑃 𝑥𝑥

𝑖𝑖

, 𝑦𝑦

𝑗𝑗

= 𝑃𝑃 𝑥𝑥

𝑖𝑖

𝑃𝑃 (𝑦𝑦

𝑗𝑗

)

が成立する場合である.

これは,

𝑋𝑋

𝑌𝑌

が独立であるときに他ならない. □

(30)

自己情報量が対数関数である理由 (1/3)

まず,コーシー(

Cauchy

)の関数方程式

𝑓𝑓 𝑥𝑥 + 𝑦𝑦 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓(𝑦𝑦)

を満たす連続関数が

𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥

𝑎𝑎

は定数)であることを示す.

𝑥𝑥 = 𝑦𝑦 = 0

を代入すると,

𝑓𝑓 0 = 𝑓𝑓 0 + 𝑓𝑓 0

より,

𝑓𝑓 0 = 0

. 次に,

𝑦𝑦 = −𝑥𝑥

を代入すると,

𝑓𝑓 𝑥𝑥 − 𝑥𝑥 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓 −𝑥𝑥 , 0 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓 −𝑥𝑥 .

より,

𝑓𝑓 −𝑥𝑥 = −𝑓𝑓(𝑥𝑥)

が成り立つ(つまり,

𝑓𝑓 𝑥𝑥

は奇関数).

𝑛𝑛

が自然数のとき,

𝑓𝑓 𝑛𝑛 = 𝑓𝑓 1 + 𝑛𝑛 − 1 = 𝑓𝑓 1 + 𝑓𝑓 𝑛𝑛 − 1

= 𝑓𝑓 1 + 𝑓𝑓 1 + 𝑓𝑓 𝑛𝑛 − 2 = ⋯ = 𝑛𝑛𝑓𝑓 1 .

𝑓𝑓 𝑥𝑥

が奇関数であることから,

𝑓𝑓 −𝑛𝑛 = −𝑛𝑛𝑓𝑓(1)

も成り立つ.すな

わち,任意の整数について

𝑓𝑓 𝑛𝑛 = 𝑛𝑛𝑓𝑓(1)

が成り立つ.

30

(31)

自己情報量が対数関数である理由 (2/3)

同様の考えにより,任意の実数

𝑥𝑥

と自然数

𝑚𝑚

に対して,

𝑓𝑓 𝑚𝑚𝑥𝑥 = 𝑚𝑚𝑓𝑓 𝑥𝑥

が成り立つ.

𝑚𝑚

が自然数,

𝑛𝑛

が整数のとき,

𝑓𝑓 𝑛𝑛 = 𝑓𝑓 𝑛𝑛

𝑚𝑚 × 𝑚𝑚 = 𝑚𝑚𝑓𝑓 𝑛𝑛

より,

𝑚𝑚

𝑓𝑓 𝑛𝑛

𝑚𝑚 = 𝑓𝑓 𝑛𝑛

𝑚𝑚 = 𝑛𝑛

𝑚𝑚 𝑓𝑓 1 .

したがって,任意の有理数

𝑥𝑥

に対して,次が成り立つ.

𝑓𝑓 𝑥𝑥 = 𝑥𝑥𝑓𝑓 1 .

𝑓𝑓 1

は定数なので,これを

𝑎𝑎

と置くと,

𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥

と書ける.

有理数の稠密性から,連続関数に限定するとコーシーの関数方 程式を満たす解は

𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥

のみであることが言える.

(32)

自己情報量が対数関数である理由 (3/3)

コーシーの関数方程式の解を応用して,自己情報量の三つの性質 を満たす関数

𝐼𝐼(𝑝𝑝)

が対数関数で表されることを示す.

ある実数

𝑎𝑎 > 1

をとり,

𝑔𝑔 𝑥𝑥 = 𝐼𝐼(𝑎𝑎

𝑥𝑥

)

とおく.このとき,

𝑔𝑔 𝑥𝑥 + 𝑦𝑦 = 𝐼𝐼 𝑎𝑎

𝑥𝑥+𝑦𝑦

= 𝐼𝐼 𝑎𝑎

𝑥𝑥

⋅ 𝑎𝑎

𝑦𝑦

= 𝐼𝐼 𝑎𝑎

𝑥𝑥

+ 𝐼𝐼 𝑎𝑎

𝑦𝑦

= 𝑔𝑔 𝑥𝑥 + 𝑔𝑔(𝑦𝑦)

が成り立つ.コーシーの関数方程式の解から,

𝑔𝑔 𝑥𝑥 = 𝑏𝑏𝑥𝑥

と書ける(

𝑏𝑏

は定数).すなわち,

𝑝𝑝 = 𝑎𝑎

𝑥𝑥 とおくと,

𝐼𝐼 𝑝𝑝 = 𝑔𝑔 log

𝑎𝑎

𝑝𝑝 = 𝑏𝑏 log

𝑎𝑎

𝑝𝑝

𝐼𝐼 𝑝𝑝

0 ≤ 𝑝𝑝 < 1

で単調減少関数なので,

𝑎𝑎 > 1

のとき

𝑏𝑏 < 0

で なければならない.

𝑏𝑏 = −1

とおけば,

𝐼𝐼 𝑝𝑝 = − log

𝑎𝑎

𝑝𝑝

となる.

32

𝐼𝐼 (𝑝𝑝)

の加法性から

参照

関連したドキュメント

[r]

機械物理研究室では,光などの自然現象を 活用した高速・知的情報処理の創成を目指 した研究に取り組んでいます。応用物理学 会の「光

全国の 研究者情報 各大学の.

事務情報化担当職員研修(クライアント) 情報処理事務担当職員 9月頃

東京大学 大学院情報理工学系研究科 数理情報学専攻. [email protected]

情報理工学研究科 情報・通信工学専攻. 2012/7/12

理工学部・情報理工学部・生命科学部・薬学部 AO 英語基準入学試験【4 月入学】 国際関係学部・グローバル教養学部・情報理工学部 AO

出典 : Indian Ports Association &amp; DG Shipping, Report on development of coastal shipping 2003.. International Container Transshipment Terminal (ICTT), Vallardpadam