IT教育訓練パパの研究日誌

育児や、データサイエンス系のノウハウや記事、学生へのかかわりで得たこと等、感動したことを書いていきたいです。よろしくお願いいたします。

平均情報量の平均って書いてあるけど、式を見ると期待値じゃない。。違いは?

この記事を読むとわかること

基本情報技術者試験の基礎理論の情報量で、

平均情報量がでてくるけど式を見ると期待値だった。

なぜ平均と呼ぶのか(呼んでいいのか)、自分なりの解釈をまとめた。

平均情報量

 \displaystyle
平均情報量H = \sum_{k=1}^n {P(J_k) \times I(J_k)} \tag{1}

 P(J_k) は事象 (J_k) の生起確率
 I(J_k) は事象 (J_k) の情報量

 (1) 式をみると、各事象の生起確率に情報量を乗算しているので、
期待値ではないかと疑問がでる。
平均値は、実は、ある状況下では、期待値に等しくなる。

期待値と平均値は?

ある標本サイズ Nの観測データ x_1, x_2, x_3,..... x_Nにおいて、
期待値と平均がどのように定義されるか見ていくと
母集団より、 X=x_i という値が観測される確率を p_iとする。
また、 N 回の観測において  X=X_i が観測される回数を N_iと置き、 期待値 m と平均 \bar{x} とする。

 \displaystyle
m = \sum_{i=1} {x_i p_i}\tag{2}

 \displaystyle
\bar{x} = \sum_{i=1} {\frac{x_i N_i}{N}}\tag{3}

ここで、大数の法則から標本サイズ N \inftyまで大きくなる時、

 p_i = \frac{N_i}{N}となる。つまり、標本数が \inftyの時、  m \bar{x}が等しくなる。

結論

算術平均も期待値も、大数の法則にのっとって、式を変形すれば、等しい。

そのため各事象の情報量の期待値を求めている平均情報量 Hは、

平均っていう言葉を使っても何ら不思議ではない。