stMind

about Tech, Computer vision and Machine learning

ビショップ本 確率密度・期待値

再開

しばらく間があいてしまったけれど、ビショップ本の学習をゆるりと再開したいと思う。
先は長いが、1章は基礎的な内容なので、書籍の内容を読んで理解できたところを、極力自分なりの言葉で
まとめていこうと思う。

1.2.1 確率密度

実数値をとる連続変数xを考える。
変数xが区間(x, x+\delta x)に入る確率が、\delta x \rightarrow 0のときp(x)\delta xで与えられるとき、p(x)x上の確率密度と呼ぶ。

このとき、xが区間(a,b)にある確率は以下の式で与えられる。
p(x \in (a,b)) = \int_{a}^{b} p(x)dx

また、確率は非負でxは実数値上でどこかの値をとらなければならないので、
p(x) \geq 0
\int_{-\infty}^{\infty} p(x)dx = 1
を満たす必要がある。

1.2.2 期待値と分散

ある関数f(x)に対して、確率分布p(x)の下での平均値をf(x)の期待値と呼び、\mbox{E}[f]と書く。
離散分布の場合には以下のように書ける。
\mbox{E}[f]=\sum_{x} p(x)f(x)
サイコロをふった時の出る目の期待値であれば、\frac{1}{6} \times 1 +     \frac{1}{6} \times 2 + \frac{1}{6} \times 3 + \frac{1}{6} \times 4 + \frac{1}{6} \times 5 + \frac{1}{6} \times 6 = \frac{21}{6} = 3.5となる。

また連続変数の場合には以下のように書ける。
\mbox{E}[f] = \int p(x)f(x)dx
これは確率密度に関する積分になる。

離散変数、連続変数のどちらの場合でも、確率分布や確率密度から得られた有限個のN点を用いて、
期待値は有限和で近似出来る。
\mbox{E}[f] \simeq \frac{1}{N} \sum_{n=1}^{N} f(x_n)

多変数関数の場合には、どの変数について平均をとるかを示すのに添字を使い、例えば
\mbox{E}_x [f(x,y)]
は関数f(x,y)xの分布に関する平均を表す。
条件付き分布についても、条件付き期待値を考えることが出来る。
\mbox{E}_x [f|y]=\sum_{x} p(x|y)f(x)