講義「情報理論」
第3回 情報量とエントロピー
情報理工学部門 情報知識ネットワーク研究室 喜田拓也
2019/6/21
今日の内容
2.1 情報量
2.2 エントロピー
2.3 エントロピーの性質 2.4 結合エントロピー
2.5 条件付きエントロピー 2.6 相互情報量
2
情報には量がある!
確率が高いことを知らされても,
そのニュースは価値が低い
私には一人,妹がいます 妹は女性です
フーン (´<_` ) で?
確率1の結果が知らされる → 得られる情報量は 0
情報には量がある!
確率が低いことを知らされたら,
そのニュースは価値が高い
4
私には12人,妹がいます (; ゚ Д ゚ )( ゚ Д ゚ ;( ゚,゚ ;) ナ、ナンダッテー !!
確率が 0 に近い事柄を知らされる → 情報量は大!
一つの結果を知ったときの情報量
確率 𝑝𝑝 の事象の生起を知ったときに得られる情報量を
𝐼𝐼(𝑝𝑝) とすると 𝐼𝐼 (𝑝𝑝) は次のような性質を満たすべき
① 𝐼𝐼 (𝑝𝑝) は 0 < 𝑝𝑝 ≤ 1 で単調減少な関数である
② 確率 𝑝𝑝
1, 𝑝𝑝
2で起こる二つの互いに独立な事象が同時 に起こる確率 𝑝𝑝
1𝑝𝑝
2について 𝐼𝐼 𝑝𝑝
1𝑝𝑝
2= 𝐼𝐼 𝑝𝑝
1+ 𝐼𝐼 𝑝𝑝
2③ 𝐼𝐼 (𝑝𝑝) は 0 < 𝑝𝑝 ≤ 1 で連続な関数である これらを満たす関数 𝐼𝐼(𝑝𝑝) は
𝐼𝐼 𝑝𝑝 = - log 𝑎𝑎 𝑝𝑝
という形しかありえない(ただし 𝑎𝑎 > 1 )
情報量の 加法性
証明は省略
情報量の定義
確率
𝑝𝑝
で生起する事象が起きたことを知ったときに 得られる情報量𝐼𝐼 𝑝𝑝
を自己情報量と呼び,𝐼𝐼 𝑝𝑝 = − log
𝑎𝑎𝑝𝑝
と定義する.ただし,
𝑎𝑎
は𝑎𝑎 > 1
の定数とする.6
𝑎𝑎 = 2
の場合,単位はビット(bit
)という自然対数で計るときはナット(
nat
)1 nat ≒ 1.443 bit 10
を底とする対数で計るときはハートレー(Hartley
)もしくはディット(
dit
)またはデシット(decit
)1 Hartley ≒ 3.322 bit
簡単な例題: サイコロを1回振ったときの出目を知ったとき に得られる情報量は何ビットか答えよ.ただし,サイコロの 各出目が得られる確率はすべて等しく1/6とする.
定義
2.1
確率
1/2
で生じる 結果を知ったときの 情報量 =1 [bit]
平均情報量
𝑀𝑀
個の互いに排反な事象𝑎𝑎
1, 𝑎𝑎
2,
・・・, 𝑎𝑎
𝑀𝑀 が起こる確率を𝑝𝑝
1, 𝑝𝑝
2,
・・・, 𝑝𝑝
𝑀𝑀 とする(ただし,𝑝𝑝
1+ 𝑝𝑝
2+ ⋯ + 𝑝𝑝
𝑀𝑀= 1
).このうち1つの事象が起こったことを知ったときに得る情報量は
-
log
2𝑝𝑝
𝑖𝑖 であるから,これを平均した期待値̅𝐼𝐼
は,̅𝐼𝐼 = 𝑝𝑝
1− log
2𝑝𝑝
1+ 𝑝𝑝
2− log
2𝑝𝑝
2+ ⋯ + 𝑝𝑝
𝑀𝑀− log
2𝑝𝑝
𝑀𝑀= − �
𝑖𝑖=1 𝑀𝑀
𝑝𝑝
𝑖𝑖log
2𝑝𝑝
𝑖𝑖となる.これを平均情報量(単位はビット)という.
定義
2.2
エントロピー
確率変数
𝑋𝑋
がとりうる値が𝑥𝑥
1, 𝑥𝑥
2,
・・・, 𝑥𝑥
𝑀𝑀 とし,𝑋𝑋
がそれぞれの 値をとる確率が𝑝𝑝
1, 𝑝𝑝
2, … , 𝑝𝑝
𝑀𝑀(ただし,𝑝𝑝
1+ 𝑝𝑝
2+ ⋯ + 𝑝𝑝
𝑀𝑀= 1
) であるとき,確率変数𝑋𝑋
のエントロピーを𝐻𝐻 𝑋𝑋 = − ∑
𝑖𝑖=1𝑀𝑀𝑝𝑝
𝑖𝑖log
2𝑝𝑝
𝑖𝑖 ビットと定義する.8
定義
2.3
例題
2.1
: 偏りのないコインを2
回投げて表の出た枚数を確率変数𝑋𝑋
とする.このとき,𝑋𝑋
のエントロピー𝐻𝐻 𝑋𝑋
は何ビットか?𝐻𝐻 𝑋𝑋 = − 1
4 log
21
4 − 1
2 × log
21
2 − 1
4 log
21 4
= 2 × 2 4 +
1
2 = 1.5 (
ビット)
𝑋𝑋 0 1 2
確率
1 4
1 2
1
4
Try
練習問題2.1
エントロピーの性質
𝑀𝑀 個の値をとる確率変数 𝑋𝑋 のエントロピー 𝐻𝐻(𝑋𝑋) は 次の性質を満たす.
(1) 0 ≤ 𝐻𝐻 𝑋𝑋 ≤ log 2 𝑀𝑀
(2) 𝐻𝐻(𝑋𝑋) が最小値 0 となるのは,ある値をとる確率
が 1 で,他の 𝑀𝑀 − 1 個の値をとる確率がすべて 0 のときに限る.すなわち, 𝑋𝑋 のとる値が初めから 確定している場合のみである.
(3) 𝐻𝐻(𝑋𝑋) が最大値 log 2 𝑀𝑀 となるのは, 𝑀𝑀 個の値が すべて 1/𝑀𝑀 で等しい場合に限る.
定理 2.1
エントロピー関数
二つの値
1, 0
をそれぞれ0.2, 0.8
の確率 でとる確率変数X
のエントロピー𝐻𝐻 (𝑋𝑋)
は,𝐻𝐻 𝑋𝑋 = − ∑
𝑖𝑖=12𝑝𝑝
𝑖𝑖log 𝑝𝑝
𝑖𝑖=
-0.2 log 0.2 − 0.8 log 0.8
= ℋ 0.2
≅ 0.7219
となる.10
エントロピー関数とは,
0 ≤ 𝑥𝑥 ≤ 1
で定義される関数ℋ 𝑥𝑥 = −𝑥𝑥 log
2𝑥𝑥 − 1 − 𝑥𝑥 log
21 − 𝑥𝑥
のことをいう.
定義
2.4
0.2 0.4 0.6 0.8 1 x
0.2 0.4 0.6 0.8 1 y
エントロピー関数
0.7219
二つの情報を一度に聞いたときの情報量は?
はたして, 𝐻𝐻( (𝑋𝑋, 𝑌𝑌 ) ) = 𝐻𝐻(𝑋𝑋) + 𝐻𝐻(𝑌𝑌 ) だろうか?
解説好きの
I
君K
君𝑋𝑋 : 日経平均株価が下 がって 1 万 6000 円を割 ったそうだよ
𝑌𝑌 : また円高で, 1 ドル 105 円ほどになったよ
へ,へぇ~~~
例 2.2
二つの確率変数
𝑋𝑋 , 𝑌𝑌
を考える.𝑋𝑋
は𝑥𝑥
1, 𝑥𝑥
2, … , 𝑥𝑥
𝑀𝑀𝑋𝑋の値をとり,𝑌𝑌
は𝑦𝑦
1, 𝑦𝑦
2, … , 𝑦𝑦
𝑀𝑀𝑌𝑌の値をとるものとする.確率変数の組(𝑋𝑋, 𝑌𝑌)
の値が(𝑥𝑥 , 𝑦𝑦)
となる結合確率分布を𝑃𝑃(𝑥𝑥, 𝑦𝑦)
と書く12
𝑃𝑃(𝑥𝑥, 𝑦𝑦) 𝑌𝑌
𝑃𝑃(𝑥𝑥 )
1
万円以上1
万円未満𝑋𝑋
晴0.5 0.1 0.6
雨
0.2 0.2 0.4
𝑃𝑃(𝑦𝑦) 0.7 0.3
表2.1 ある日の天気𝑋𝑋とコンビニのアイスクリームの売上高𝑌𝑌の結合確率分布𝑃𝑃(𝑥𝑥,𝑦𝑦)
組
(𝑋𝑋, 𝑌𝑌)
をまとめて考えると,4つの値をとる確率変数𝑍𝑍
の エントロピー𝐻𝐻 𝑍𝑍
として考えることができる結合エントロピー
確率変数
𝑋𝑋
と𝑌𝑌
の結合エントロピー𝐻𝐻 (𝑋𝑋 , 𝑌𝑌)
は,𝐻𝐻 𝑋𝑋, 𝑌𝑌 = − �
𝑖𝑖=1 𝑀𝑀𝑋𝑋
�
𝑗𝑗=1 𝑀𝑀𝑌𝑌
𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃(𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗)
により定義される.これを結合エントロピーと呼ぶ.ただし,
{𝑥𝑥
1, 𝑥𝑥
2, … , 𝑥𝑥
𝑀𝑀𝑋𝑋}
および{𝑦𝑦
1, 𝑦𝑦
2, … , 𝑦𝑦
𝑀𝑀𝑌𝑌}
は,それぞれ𝑋𝑋
と𝑌𝑌
が 取りうる値の集合とする.表
2.1
から,(𝑋𝑋, 𝑌𝑌)
の結合エントロピーは,𝐻𝐻 𝑋𝑋, 𝑌𝑌 = −0.5 × log 0.5 − 0.1 × log 0.1
−0.2 × log 0.2 − 0.2 × log 0.2
≒ 1.76
ビット.
定義2.5
Try
練習問題2.2
結合エントロピーの性質
14
確率変数
𝑋𝑋
と𝑌𝑌
の結合エントロピー𝐻𝐻(𝑋𝑋, 𝑌𝑌)
に対し,0 ≤ 𝐻𝐻 𝑋𝑋, 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 (𝑌𝑌)
が成り立つ.また
𝐻𝐻 𝑋𝑋, 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌
となるのは,𝑋𝑋
と𝑌𝑌
が独立のときのみである.定理
2.2
ちょっと休憩
関連情報を事前に知っていた時の情報量は?
16
へぇ!さすが王族!
関連する情報が既知だと,驚きは少なくなる
→ エントロピーは小さくなっているはず!
俺には 12 人の 妹がいる!
あ,一夫多妻の 国の王子様!
こんにちは!
R様
例 2.2 (p.17)
アイスクリームの売上高が「1万円以上」だったとき,実際の天気についての曖昧 さ(エントロピー)は,晴と雨の確率がそれぞれ
5/7
と2/7
であるから,𝐻𝐻 𝑋𝑋
1万円以上= ℋ 5/7 ≒ 0. 8631 (bit).
同様に,売上高が「1万円未満」のときは,
𝐻𝐻 𝑋𝑋
1万円未満= ℋ 1/3 ≒ 0.9183 (bit).
売上高が「1万円以上」「1万円未満」となる確率は,それぞれ
0.7
と0.3
なので,この割合でエントロピーを平均すると,
𝐻𝐻 𝑋𝑋 𝑌𝑌 ≒ 0.7 × 0.8631 + 0.3 × 0.9183
≒ 0.8797 (bit)
となる.これは,
𝑋𝑋
のエントロピー𝐻𝐻 𝑋𝑋 = ℋ 0.6 = 0.9710 (bit)
と比べて確かに小さい.𝑃𝑃(𝑋𝑋 | 𝑌𝑌) 𝑌𝑌
1
万円以上1
万円未満𝑋𝑋
晴5/7 1/3
雨
2/7 2/3
表2.2 𝑌𝑌 で条件付けた 𝑋𝑋 の確率分布
条件付きエントロピー
18
確率変数
𝑌𝑌
で条件を付けた𝑋𝑋
の条件付きエントロピー𝐻𝐻(𝑋𝑋 |𝑌𝑌)
は,𝐻𝐻 𝑋𝑋|𝑌𝑌 = − �
𝑗𝑗=1 𝑀𝑀𝑌𝑌
𝑃𝑃 (𝑦𝑦
𝑗𝑗) �
𝑖𝑖=1 𝑀𝑀𝑋𝑋
𝑃𝑃 𝑥𝑥
𝑖𝑖| 𝑦𝑦
𝑗𝑗log
2𝑃𝑃(𝑥𝑥
𝑖𝑖|𝑦𝑦
𝑗𝑗)
により定義される.ただし,{𝑥𝑥
1, 𝑥𝑥
2, … , 𝑥𝑥
𝑀𝑀𝑋𝑋}
および{𝑦𝑦
1, 𝑦𝑦
2, … , 𝑦𝑦
𝑀𝑀𝑌𝑌}
は,それぞれ𝑋𝑋
と𝑌𝑌
が取りうる値の集合とす る.定義
2.6
Try
練習問題2.3
{𝑥𝑥
1, 𝑥𝑥
2, … , 𝑥𝑥
𝑀𝑀𝑋𝑋}
および{𝑦𝑦
1, 𝑦𝑦
2, … , 𝑦𝑦
𝑀𝑀𝑌𝑌}
をとりうる値の集合 とする確率変数𝑋𝑋
および𝑌𝑌
に関し,以下が成り立つ.(1) 𝐻𝐻 𝑋𝑋 𝑌𝑌 = − ∑
𝑖𝑖=1𝑀𝑀𝑋𝑋∑
𝑗𝑗=1𝑀𝑀𝑌𝑌𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑥𝑥
𝑖𝑖𝑦𝑦
𝑗𝑗(2) 𝐻𝐻(𝑋𝑋, 𝑌𝑌) = 𝐻𝐻(𝑋𝑋) + 𝐻𝐻(𝑌𝑌|𝑋𝑋) = 𝐻𝐻 (𝑌𝑌) + 𝐻𝐻(𝑋𝑋|𝑌𝑌) (3) 0 ≤ 𝐻𝐻 𝑋𝑋 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋
(
𝐻𝐻 𝑋𝑋 𝑌𝑌 = 𝐻𝐻(𝑋𝑋)
は𝑋𝑋
と𝑌𝑌
が独立の時のみ成立)(4) 0 ≤ 𝐻𝐻 𝑌𝑌 𝑋𝑋 ≤ 𝐻𝐻 𝑌𝑌
(
𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐻𝐻(𝑌𝑌)
は𝑋𝑋
と𝑌𝑌
が独立の時のみ成立)定理
2.3
別の情報を得ると,エントロピーは変化しないか減少する
結合エントロピーと条件付きエントロピーの関係
定理 2.3(2) の証明
[証明] 結合エントロピーと条件付き確率の定義から,
𝐻𝐻 𝑋𝑋, 𝑌𝑌 = − �
𝑖𝑖=1 𝑀𝑀𝑋𝑋
�
𝑗𝑗=1 𝑀𝑀𝑌𝑌
𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗= − �
𝑖𝑖=1 𝑀𝑀𝑋𝑋
�
𝑗𝑗=1 𝑀𝑀𝑌𝑌
𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗𝑃𝑃 𝑥𝑥
𝑖𝑖𝑃𝑃 𝑥𝑥
𝑖𝑖= − �
𝑖𝑖=1 𝑀𝑀𝑋𝑋
�
𝑗𝑗=1 𝑀𝑀𝑌𝑌
𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑥𝑥
𝑖𝑖+ log
2𝑃𝑃 𝑦𝑦
𝑗𝑗𝑥𝑥
𝑖𝑖= 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 𝑋𝑋
が成立する.𝐻𝐻 𝑋𝑋, 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 + 𝐻𝐻 𝑋𝑋 𝑌𝑌
も同様にして証明できる. □20
ベイズの定理
相互情報量の定義 [ 定義 2.7]
例
2.2
において,天気𝑋𝑋
についての曖昧さは,𝐻𝐻 𝑋𝑋 = − ∑
𝑖𝑖=1𝑛𝑛𝑝𝑝 𝑥𝑥
𝑖𝑖log 𝑝𝑝 𝑥𝑥
𝑖𝑖≒ 0.9710 (bit).
アイスクリームの売上高
𝑌𝑌
を聞いたとき,残っている曖昧さは,𝐻𝐻 𝑋𝑋 𝑌𝑌 ≒ 0.8797 (bit).
したがって,売上高
𝑌𝑌
を聞くことで,天気𝑋𝑋
について𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌
≒ 0.9710 − 0.8797 = 0.0913 (bit)
だけ,曖昧さが減少する.言い換えると,売上高
𝑌𝑌
を聞くことで天気𝑋𝑋
に関する情報量が,(平均として)
𝐼𝐼(𝑋𝑋; 𝑌𝑌) ≒ 0.0913 (bit)
得られることを意味する.この
𝐼𝐼(𝑋𝑋; 𝑌𝑌)
を𝑋𝑋
と𝑌𝑌
の相互情報量(mutual information
)と呼ぶ.相互情報量の性質 (1) [ 定理 2.4(1)]
相互情報量の定義
𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌
と,先ほどの結合エントロピーと条件付きエントロピーの関係
𝐻𝐻 𝑋𝑋 , 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐻𝐻 𝑌𝑌 + 𝐻𝐻 𝑋𝑋 𝑌𝑌
から,
𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌
= 𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑋𝑋, 𝑌𝑌
= 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑌𝑌 𝑋𝑋
= 𝐼𝐼 𝑌𝑌 ; 𝑋𝑋
= ∑
𝑖𝑖∑
𝑗𝑗𝑝𝑝 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
𝑝𝑝 𝑥𝑥𝑝𝑝 𝑥𝑥𝑖𝑖,𝑦𝑦𝑗𝑗𝑖𝑖 𝑝𝑝 𝑦𝑦𝑗𝑗
が成り立つ.
22
𝑋𝑋
と𝑌𝑌
に関して対称※ 𝐻𝐻 𝑋𝑋 𝑌𝑌 = − ∑𝑗𝑗=1𝑚𝑚 𝑝𝑝 𝑦𝑦𝑖𝑖 ∑𝑖𝑖=1𝑛𝑛 𝑝𝑝 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗 log𝑝𝑝 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗 = − ∑𝑖𝑖=1𝑛𝑛 ∑𝑗𝑗=1𝑚𝑚 𝑝𝑝 𝑥𝑥𝑖𝑖,𝑦𝑦𝑗𝑗 log𝑝𝑝 𝑥𝑥𝑖𝑖 𝑦𝑦𝑗𝑗
相互情報量の性質 (2) [ 定理 2.4(2)]
相互情報量
𝐼𝐼(𝑋𝑋; 𝑌𝑌)
は,𝑋𝑋
と𝑌𝑌
に共通して含まれる情報の量を 表すと解釈できる.𝐼𝐼(𝑋𝑋; 𝑌𝑌)
の範囲は,次式のとおりである.0 ≤ 𝐼𝐼 𝑋𝑋; 𝑌𝑌 ≤ min 𝐻𝐻 𝑋𝑋 , 𝐻𝐻 𝑌𝑌 [
証明]
𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌
と,𝐻𝐻 𝑋𝑋 𝑌𝑌 ≤ 𝐻𝐻 𝑋𝑋
の関係から,左側は明らか.右側の不等式についても,
𝐼𝐼 𝑋𝑋; 𝑌𝑌 =
𝐻𝐻 𝑋𝑋 − 𝐻𝐻 𝑋𝑋 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 − 𝐻𝐻(𝑌𝑌|𝑋𝑋)
の関係と,𝐻𝐻 𝑋𝑋 𝑌𝑌 ≥ 0,
𝐻𝐻 𝑌𝑌 𝑋𝑋 ≥ 0
であることから導ける.𝐻𝐻(𝑋𝑋) 𝐻𝐻(𝑌𝑌)
𝐻𝐻(𝑋𝑋, 𝑌𝑌)
𝐼𝐼(𝑋𝑋; 𝑌𝑌) 𝐻𝐻 (𝑌𝑌|𝑋𝑋)
𝐻𝐻(𝑋𝑋|𝑌𝑌)
相互情報量の計算例
前回のガンの検査の例について,ガンである確率変数を
𝑋𝑋
,検査の結果の 確率変数を𝑌𝑌
として相互情報量を計算してみよう.𝑃𝑃
𝑌𝑌|𝑋𝑋𝐴𝐴 𝐶𝐶 = 𝑃𝑃
𝑌𝑌|𝑋𝑋𝐴𝐴
𝑐𝑐𝐶𝐶
𝑐𝑐= 0.95, 𝑃𝑃
𝑋𝑋(𝐶𝐶) = 0.0
1 なので,𝑃𝑃
𝑌𝑌𝐴𝐴 = 𝑃𝑃
𝑌𝑌|𝑋𝑋𝐴𝐴 𝐶𝐶 𝑃𝑃
𝑋𝑋𝐶𝐶 + 𝑃𝑃
𝑌𝑌|𝑋𝑋𝐴𝐴 𝐶𝐶
𝑐𝑐𝑃𝑃
𝑋𝑋𝐶𝐶
𝑐𝑐= 0.95 × 0.01 + 0.05 × 0.99
= 0.0095 + 0.0495 = 0.059
.∴ 𝐻𝐻 𝑌𝑌 = ℋ 0.059 ≒ 0.323
.次に,
𝐻𝐻 𝑌𝑌 𝑋𝑋 = 𝐶𝐶 = ℋ 0.95 ≒ 0.286
,𝐻𝐻(𝑌𝑌|𝑋𝑋 = 𝐶𝐶
𝑐𝑐) = ℋ(0.05) ≒ 0.286
なので,𝐻𝐻 𝑌𝑌 𝑋𝑋 ≒ 0.01 × 0.286 + 0.99 × 0.286
= 0.286 .
したがって,相互情報量
𝐼𝐼 (𝑋𝑋; 𝑌𝑌)
は,𝐼𝐼 𝑋𝑋; 𝑌𝑌 = 𝐻𝐻 𝑌𝑌 − 𝐻𝐻 𝑌𝑌 𝑋𝑋
≒ 0.323 − 0.286
= 0.037 bit .
24𝑃𝑃(𝑋𝑋, 𝑌𝑌) 𝑋𝑋
𝐶𝐶 𝐶𝐶
𝑐𝑐𝑌𝑌 𝐴𝐴 0.0095 0.0495
𝐴𝐴
𝑐𝑐0.0005 0.9405
𝑃𝑃(𝑌𝑌|𝑋𝑋) 𝑋𝑋
𝐶𝐶 𝐶𝐶
𝑐𝑐𝑌𝑌 𝐴𝐴 0.95 0.05
𝐴𝐴
𝑐𝑐0.05 0.95
ちなみに
𝐻𝐻(𝑋𝑋) ≒ 0.0808
今日のまとめ
2.1
情報量確率
𝑝𝑝
で起こる事象の自己情報量𝐼𝐼 𝑝𝑝
= -log
𝑎𝑎𝑝𝑝 2.2
エントロピー確率変数
𝑋𝑋
の平均情報量𝐻𝐻 𝑋𝑋 = − ∑
𝑖𝑖=1𝑀𝑀𝑝𝑝
𝑖𝑖log
2𝑝𝑝
𝑖𝑖2.3
エントロピーの性質0 ≤ 𝐻𝐻 𝑋𝑋 ≤ log
2𝑀𝑀
二つの確率変数に対するエントロピー
2.4
結合エントロピー𝐻𝐻(𝑋𝑋, 𝑌𝑌)
2.5
条件付きエントロピー𝐻𝐻 𝑋𝑋 𝑌𝑌 , 𝐻𝐻(𝑌𝑌|𝑋𝑋) 2.6
相互情報量𝐼𝐼(𝑋𝑋; 𝑌𝑌)
次回情報源のモデルについて
𝐻𝐻(𝑋𝑋) 𝐻𝐻 (𝑌𝑌)
𝐻𝐻 (𝑋𝑋, 𝑌𝑌)
𝐼𝐼(𝑋𝑋; 𝑌𝑌) 𝐻𝐻(𝑌𝑌|𝑋𝑋 )
𝐻𝐻 (𝑋𝑋|𝑌𝑌)
補助定理 A.1[ シャノンの補助定理 ]
26
補助定理
A.1
𝑝𝑝
1, 𝑝𝑝
2,
・・・, 𝑝𝑝
𝑀𝑀 および𝑞𝑞
1, 𝑞𝑞
2,
・・・, 𝑞𝑞
𝑀𝑀 を𝑝𝑝
1+ 𝑝𝑝
2+
・・・+ 𝑝𝑝
𝑀𝑀= 1, 𝑞𝑞
1+ 𝑞𝑞
2+
・・・+ 𝑞𝑞
𝑀𝑀≤ 1
を満たす任意の非負の数とする(ただし,
𝑝𝑝
𝑖𝑖≠ 0
のときは𝑞𝑞
𝑖𝑖≠ 0
とする).このとき,− ∑
𝑖𝑖=1𝑀𝑀𝑝𝑝
𝑖𝑖log
2𝑞𝑞
𝑖𝑖≥ − ∑
𝑖𝑖=1𝑀𝑀𝑝𝑝
𝑖𝑖log
2𝑝𝑝
𝑖𝑖(A.3)
が成立する.等号は𝑞𝑞
𝑖𝑖= 𝑝𝑝
𝑖𝑖( 𝑖𝑖 = 1, 2,
・・・, 𝑀𝑀)
のとき,またその ときに限って成立する.つまり,確率分布
𝑃𝑃 = 𝑝𝑝
𝑖𝑖 𝑖𝑖=1𝑀𝑀 とちょっと違う分布𝑞𝑞
𝑖𝑖 (ただし総和が1
以下)を持ってきて,log
2 の内側の𝑝𝑝
𝑖𝑖 と置き換えると,元よりも 少し大きくなる.証明は教科書を参照
定理 2.1 の証明
𝑋𝑋
のエントロピー𝐻𝐻(𝑋𝑋)
は𝐻𝐻 𝑋𝑋
=-∑
𝑖𝑖=1𝑀𝑀𝑝𝑝
𝑖𝑖log
2𝑝𝑝
𝑖𝑖.
0 ≤ 𝑝𝑝
𝑖𝑖≤ 1
なので,明らかに0 ≤ 𝐻𝐻 𝑆𝑆
であり,𝐻𝐻 𝑆𝑆 = 0
が成立 するのは,𝑝𝑝
1, 𝑝𝑝
2,
・・・, 𝑝𝑝
𝑘𝑘 のうち一つが
1
で他が0
の場合である.補助定理
A.1
(シャノンの補助定理)を𝑞𝑞
𝑖𝑖= 1/𝑀𝑀
として適用すると,𝐻𝐻 𝑋𝑋
= -∑
𝑖𝑖=1𝑀𝑀𝑝𝑝
𝑖𝑖log
2𝑝𝑝
𝑖𝑖≤
-∑
𝑖𝑖=1𝑀𝑀𝑝𝑝
𝑖𝑖log
2 𝑀𝑀1=
log
2𝑀𝑀 .
等号が成立するのは
𝑝𝑝
𝑖𝑖=𝑞𝑞
𝑖𝑖= 1/𝑀𝑀
のときのみである. □補助定理
A.1
より∑
𝑖𝑖=1𝑀𝑀𝑝𝑝
𝑖𝑖= 1
だから−log
2𝑝𝑝
𝑖𝑖≥ 0
だから定理 2.2 の証明
[証明] 結合エントロピーの定義より
0 ≤ 𝐻𝐻 𝑋𝑋, 𝑌𝑌
は明らかである.よって,
𝐻𝐻 𝑋𝑋, 𝑌𝑌 ≤ 𝐻𝐻(𝑋𝑋) + 𝐻𝐻 (𝑌𝑌)
を証明する.𝐻𝐻 𝑋𝑋 = − �
𝑖𝑖=1 𝑀𝑀𝑋𝑋
𝑃𝑃 𝑥𝑥
𝑖𝑖log
2𝑃𝑃 𝑥𝑥
𝑖𝑖= − �
𝑖𝑖=1 𝑀𝑀𝑋𝑋
�
𝑗𝑗=1 𝑀𝑀𝑌𝑌
𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑥𝑥
𝑖𝑖,
𝐻𝐻 𝑌𝑌 = − �
𝑗𝑗=1 𝑀𝑀𝑌𝑌
𝑃𝑃 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑦𝑦
𝑗𝑗= − �
𝑗𝑗=1 𝑀𝑀𝑌𝑌
�
𝑖𝑖=1 𝑀𝑀𝑋𝑋
𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑦𝑦
𝑗𝑗.
したがって,
𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 = − �
𝑗𝑗=1 𝑀𝑀𝑌𝑌
�
𝑖𝑖=1 𝑀𝑀𝑋𝑋
𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑥𝑥
𝑖𝑖𝑃𝑃 𝑦𝑦
𝑗𝑗28
定理 2.2 の証明 ( つづき)
A.1節の補助定理A.1(シャノンの補助定理)を適用すると,
− �
𝑗𝑗=1 𝑀𝑀𝑌𝑌
�
𝑖𝑖=1 𝑀𝑀𝑋𝑋
𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑥𝑥
𝑖𝑖𝑃𝑃 𝑦𝑦
𝑗𝑗≥ − �
𝑗𝑗=1 𝑀𝑀𝑌𝑌
�
𝑖𝑖=1 𝑀𝑀𝑋𝑋
𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗log
2𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗が成り立つ.すなわち,
𝐻𝐻 𝑋𝑋 + 𝐻𝐻 𝑌𝑌 ≥ 𝐻𝐻 𝑋𝑋 , 𝑌𝑌
となる.等号が成り立つのは,シャノンの補助定理の統合条件より,すべ ての
𝑖𝑖 , 𝑗𝑗
に対して𝑃𝑃 𝑥𝑥
𝑖𝑖, 𝑦𝑦
𝑗𝑗= 𝑃𝑃 𝑥𝑥
𝑖𝑖𝑃𝑃 (𝑦𝑦
𝑗𝑗)
が成立する場合である.これは,
𝑋𝑋
と𝑌𝑌
が独立であるときに他ならない. □自己情報量が対数関数である理由 (1/3)
まず,コーシー(
Cauchy
)の関数方程式𝑓𝑓 𝑥𝑥 + 𝑦𝑦 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓(𝑦𝑦)
を満たす連続関数が
𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥
(𝑎𝑎
は定数)であることを示す.𝑥𝑥 = 𝑦𝑦 = 0
を代入すると,𝑓𝑓 0 = 𝑓𝑓 0 + 𝑓𝑓 0
より,𝑓𝑓 0 = 0
. 次に,𝑦𝑦 = −𝑥𝑥
を代入すると,𝑓𝑓 𝑥𝑥 − 𝑥𝑥 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓 −𝑥𝑥 , 0 = 𝑓𝑓 𝑥𝑥 + 𝑓𝑓 −𝑥𝑥 .
より,
𝑓𝑓 −𝑥𝑥 = −𝑓𝑓(𝑥𝑥)
が成り立つ(つまり,𝑓𝑓 𝑥𝑥
は奇関数).𝑛𝑛
が自然数のとき,𝑓𝑓 𝑛𝑛 = 𝑓𝑓 1 + 𝑛𝑛 − 1 = 𝑓𝑓 1 + 𝑓𝑓 𝑛𝑛 − 1
= 𝑓𝑓 1 + 𝑓𝑓 1 + 𝑓𝑓 𝑛𝑛 − 2 = ⋯ = 𝑛𝑛𝑓𝑓 1 .
𝑓𝑓 𝑥𝑥
が奇関数であることから,𝑓𝑓 −𝑛𝑛 = −𝑛𝑛𝑓𝑓(1)
も成り立つ.すなわち,任意の整数について
𝑓𝑓 𝑛𝑛 = 𝑛𝑛𝑓𝑓(1)
が成り立つ.30
自己情報量が対数関数である理由 (2/3)
同様の考えにより,任意の実数
𝑥𝑥
と自然数𝑚𝑚
に対して,𝑓𝑓 𝑚𝑚𝑥𝑥 = 𝑚𝑚𝑓𝑓 𝑥𝑥
が成り立つ.𝑚𝑚
が自然数,𝑛𝑛
が整数のとき,𝑓𝑓 𝑛𝑛 = 𝑓𝑓 𝑛𝑛
𝑚𝑚 × 𝑚𝑚 = 𝑚𝑚𝑓𝑓 𝑛𝑛
より,𝑚𝑚
𝑓𝑓 𝑛𝑛
𝑚𝑚 = 𝑓𝑓 𝑛𝑛
𝑚𝑚 = 𝑛𝑛
𝑚𝑚 𝑓𝑓 1 .
したがって,任意の有理数
𝑥𝑥
に対して,次が成り立つ.𝑓𝑓 𝑥𝑥 = 𝑥𝑥𝑓𝑓 1 .
𝑓𝑓 1
は定数なので,これを𝑎𝑎
と置くと,𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥
と書ける.有理数の稠密性から,連続関数に限定するとコーシーの関数方 程式を満たす解は
𝑓𝑓 𝑥𝑥 = 𝑎𝑎𝑥𝑥
のみであることが言える.自己情報量が対数関数である理由 (3/3)
コーシーの関数方程式の解を応用して,自己情報量の三つの性質 を満たす関数
𝐼𝐼(𝑝𝑝)
が対数関数で表されることを示す.ある実数
𝑎𝑎 > 1
をとり,𝑔𝑔 𝑥𝑥 = 𝐼𝐼(𝑎𝑎
𝑥𝑥)
とおく.このとき,𝑔𝑔 𝑥𝑥 + 𝑦𝑦 = 𝐼𝐼 𝑎𝑎
𝑥𝑥+𝑦𝑦= 𝐼𝐼 𝑎𝑎
𝑥𝑥⋅ 𝑎𝑎
𝑦𝑦= 𝐼𝐼 𝑎𝑎
𝑥𝑥+ 𝐼𝐼 𝑎𝑎
𝑦𝑦= 𝑔𝑔 𝑥𝑥 + 𝑔𝑔(𝑦𝑦)
が成り立つ.コーシーの関数方程式の解から,
𝑔𝑔 𝑥𝑥 = 𝑏𝑏𝑥𝑥
と書ける(
𝑏𝑏
は定数).すなわち,𝑝𝑝 = 𝑎𝑎
𝑥𝑥 とおくと,𝐼𝐼 𝑝𝑝 = 𝑔𝑔 log
𝑎𝑎𝑝𝑝 = 𝑏𝑏 log
𝑎𝑎𝑝𝑝
.𝐼𝐼 𝑝𝑝
は0 ≤ 𝑝𝑝 < 1
で単調減少関数なので,𝑎𝑎 > 1
のとき𝑏𝑏 < 0
で なければならない.𝑏𝑏 = −1
とおけば,𝐼𝐼 𝑝𝑝 = − log
𝑎𝑎𝑝𝑝
となる.32