ビショップ本　確率論 p11-17

確率論

パターン認識の分野で鍵となる概念は不確実性で、確率論とは不確実性に関する定量化と操作に関して一貫性を与え、パターン認識の中心を担う。

確率の加法定理と乗法定理の導出

確率の加法定理と乗法定理を導く為に、二つの確率変数XとYからなる、一般的な設定を考える。

$X$ は $x_i (i=1, \ldots, M)$ 、 $Y$ は $y_j (j=1, \ldots, L)$ をとれるものとする。
$X$ と $Y$ についてサンプルをとり、全部で $N$ 回の試行を行う。そのうち $X=x_i , Y=y_j$ となる回数を $n_{ij}$ とする。
$X$ が値 $x_i$ をとる回数を $c_i$ 、 $Y$ が値 $y_j$ をとる回数を $r_j$ とする。

このとき、 $X$ が $x_i$ 、 $Y$ が $y_j$ をとる確率を $p(X=x_i, Y=y_j)$ と書き、同時確率と呼ぶ。
これは、上記の図で言うと、 $i,j$ という枠の中にある点の個数を総数で割ったものであるから、 $p(X=x_i, Y=y_j) = \frac{n_{ij}}{N}$ で与えられる（N→∞）。
$X$ が $x_i$ をとる確率を、 $p(X=x_i)$ と書くと、 $i$ 列にある点の数を総数で割った数で $p(X=x_i)=\frac{c_i}{N}$ となる。
さらに、 $i$ 列の事例数は、単にその列にある枠内の事例数の総和になるので、 $\sum_{j} n_{ij}$ であり、従って最終的に $p(X=x_i) = \sum_{j=1}^{L} p(X=x_i, Y=y_j)$ となる。
これが確率の加法定理である。Yについての足し合わせであり、周辺確率と呼ばれる事もある。

次に、 $X=x_i$ の事例だけを考える。
その中での、 $Y=y_j$ の事例の比率は $p(Y=y_j | X=x_i)$ と記述、 $X=x_i$ が与えられた下での $Y=y_j$ の条件付き確率と呼ぶ。これは、i列の点の中でi, jにある点の数の比率なので、 $p(Y=y_j | X=x_i) = \frac{n_{ij}}{c_i}$
さらに、これまでの式を組み合わせて以下の関係が得られる。これが確率の乗法定理。
$p(X=x_i, Y=y_j) = \frac{n_{ij}}{N} = \frac{n_{ij}}{c_i} \cdot \frac{c_i}{N} = p(Y=y_j | X=x_i) p(X=x_i)$

確率の加法定理と乗法定理のまとめ

確率変数Bの確率分布を $P(B)$ 、その分布が特定の値rをとるときの確率を $p(r)$ と書く。
加法定理と乗法定理は以下のようになる。

加法定理 $p(X) = \sum{Y} p(X, Y)$
乗法定理 $p(X, Y) = p(Y|X) p(X)$

ベイズの定理

$p(Y, X)=\frac{n_{ij}}{N} = \frac{n_{ij}}{r_j} \cdot \frac{r_j}{N} = p(X|Y) p(Y)$
また対称性 $p(X,Y)=p(Y,X)$ と上記の乗法定理から、以下が得られる。
$p(Y|X) = \frac{p(X|Y) p(Y)}{p(X)}$
これをベイズの定理と呼ぶ。