Probabilistic Model, 概率模型, Aka. Statistical Model, 描述不同随机变量之间关系的数学模型。
我们将数据的抽象成对应的概率模型
Probability Density Formula:
我们可以认为上图为 3 个高斯分布(正态分布)形成的,其可能是三个高斯分布的混合(Mixture)
- 假设数据是由 一组 高斯分布组成的
- 可能性密度(Probability Density)是他们之间的混合
- 寻找高斯分布的参数以及每个分布之间是如何构建数据的
- 这就是 GMM
Supervised Learning: $$ p(x, z) = p(x|z)p(z) $$
Unsupervised Learning: $$ p(x) = \sum_z {p(x, z)} = \sum_z {p(x|z)p(z)} $$
我们将原来的 x 拆分为 x 和 z 两个 dataset,因此我们就存在了两组
Formula: $$ p(x)=\sum^K_{k=1}\pi_k\mathcal{N}(x;\mu_k,\Sigma_k) $$
为了让模型适配数据,我们需要最大化下列的似然函数
Expectation: If we know
Maximization: If we know
Step a, b is E-step, others are M-step
E step:
M step:
$$ \begin{aligned} \mu_k &= \frac{1}{N_k} \sum^N_{n=1} \gamma_k^{(n)} x^{(n)} \ \Sigma_k &= \frac{1}{N_k} \sum^N_{n=1} \gamma_k^{(n)} (x^{(n)}-\mu_k) (x^{(n)}-\mu_k) ^T \ \pi_k &= \frac{N_k}{N} \
\N_k &=
\sum^N_{n=1}
\gamma_k^{(n)}
\end{aligned} $$