引言

前面我们介绍了EM算法，EM算法是对含有隐变量的参数估计的一种有效的迭代算法，EM算法的一个最重要的应用就是高斯混合模型的参数估计。高斯混合模型也是机器学习中一个极其重要的模型，可被用于估计数据的分布。

高斯混合模型

高斯混合模型是指具有下面概率分布的模型：

$P(y|\theta) = \sum_{k=1}^K \alpha_k \phi (y|\theta_k)$

其中 $\alpha_k$ 是系数, $\sum_{k=1}^K \alpha_k = 1, \alpha_k \geq 0$ , $\phi (y|\theta_k)$ 为高斯分布， $\theta_k = (\mu_k,\sigma^2)$ .

其中 $\phi (y|\theta_k) = \frac{1}{\sqrt{2\pi} \sigma} exp(- \frac{(y-\mu_k)^2}{2\sigma_k^2})$

高斯混合模型告诉我们样本点是怎么生成的，即由k个高斯分布的值的和生成的。

EM算法进行参数估计

假设观测数据 $y_1,...,y_N$ 是由高斯混合模型 $P(y|\theta) = \sum_{k=1}^K \alpha_k \phi (y|\theta_k)$ 生成的，那么要估计的参数为 $\theta = (\alpha_1,...,\alpha_K,\theta_1,...,\theta_K)$ 。

如果要用EM算法的话，那么首先就要先明确隐变量是什么。在这个模型里面是没有隐变量的，因此我们需要对模型进行一定的解释与变换。

假设样本 $y_j$ 是依概率 $\alpha_k$ 选择第k个高斯分布 $\phi (y|\theta_k)$ 产生的，那么样本是由那个高斯分布产生的我们是未知的，因此隐变量 $\gamma_{jk}$ 可以定义如下：

$\gamma_{jk} =\left\{\begin{matrix} 1, if \ y_j \ is \ generated \ by \ \phi(y|\theta_k) \\ 0,\ else \end{matrix}\right.$ $j= 1,..,N;k=1,...K$

到目前未知我们有了观测数据 $y_j$ ，隐变量 $\gamma_{jk}$ ，就可以利用EM算法来进行参数估计了。

首先需要写出完全数据的概率分布：

完全数据为 $(y_j,\gamma_{j1},...,\gamma_{jk},...\gamma_{jK})$

则完全数据的概率分布为

$P(y,r|\theta) = P(y_1,...,y_N|\theta) = \prod_{j=1}^{N}P(y_j,\gamma_{j1},...,\gamma_{jK}|\theta)$ $= \prod_{j=1}^{N} \prod_{k=1}^{K}[\alpha_k \phi(y_j|\theta_k)]^{\gamma_{jk}} = \prod_{k=1}^{K}\alpha_k^{n_k} \prod_{j=1}^{N} [ \phi(y_j|\theta_k)]^{\gamma_{jk}}$

其中 $n_k = \sum_{j=1}^{N} \gamma_{jk}$

完全数据的对数似然函数为：

$logP(y,\gamma|\theta) = \sum_{k=1}^{K} \left \{ n_klog\alpha_k + \sum_{j=1}^{N}\gamma_{jk}[log\frac{1}{\sqrt{2\pi}} -log\sigma_k - \frac{1}{2\sigma_k^2}(y_j -\mu_k)^2] \right \}$

确定Q函数：

$Q(\theta,\theta^i) = E_{\gamma}[logP(y,\gamma|\theta)|y,\theta^i]$ $= \sum_{k=1}^{K} \left \{ \sum_{j=1}^{N}E(\gamma_{jk}) log \alpha_k + \sum_{j=1}^{N}E(\gamma_{jk})[log\frac{1}{\sqrt{2\pi}} -log\sigma_k - \frac{1}{2\sigma_k^2}(y_j -\mu_k)^2] \right \}$

现在问题需要求取 $E(\gamma_{jk})$ ，可知：

$\hat{\gamma_{jk}} = E(\gamma_{jk}|y,\theta) = P(\gamma_{jk}=1|y_j,\theta) = \frac{P(\gamma_{jk}=1|y,\theta)}{\sum_{k=1}^{K}P(\gamma_{jk}=1|y_j,\theta)}$ $= \frac{P(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)}{\sum_{k=1}^{K}P(y_j|\gamma_{jk}=1,\theta)P(\gamma_{jk}=1|\theta)} =\frac{\alpha_k \phi(y_j|\theta_k)}{\sum_{k=1}^{K} \alpha_k \phi(y_j|\theta_k)}$

令 $\hat{\gamma_{jk}} = E(\gamma_{jk}|y,\theta)$ 以及 $n_k = \sum_{k=1}^{K}E(\gamma_{jk}|y,\theta)$ ,则Q函数可以写为：

$Q(\theta,\theta^i) = \sum_{k=1}^{K} \left \{ n_k log \alpha_k + \sum_{j=1}^{N}\hat{\gamma_{jk}}[log\frac{1}{\sqrt{2\pi}} -log\sigma_k - \frac{1}{2\sigma_k^2}(y_j -\mu_k)^2] \right \}$

最大化Q函数，有：

$\theta^{i+1} = arg \ max_{\theta} Q(\theta,\theta^i)$

对Q函数求偏导，可以得到参数的估计值：

$\hat{\mu_k} = \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}y_j}}{\sum_{j=1}^{N}\hat{\gamma_{jk}}}$ $\hat{\sigma_k^2} = \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}(y_j - \mu_k)^2}}{\sum_{j=1}^{N}\hat{\gamma_{jk}}}$ $\hat{\alpha_k} = \frac{n_k}{N}= \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}}}{N}$

高斯混合模型算法

有了上面的计算公式，就可以很轻易的得到混合高斯模型的参数估计算法了。

输入初始值 $\theta = (\alpha_1,...,\alpha_K,\mu_1,...,\mu_K,\sigma_1,...,\sigma_K)$

计算 $\hat{\gamma_{jk}} = \frac{\alpha_k \phi(y_j|\theta_k)}{\sum_{k=1}^{K} \alpha_k \phi(y_j|\theta_k)}$

更新参数

$\hat{\mu_k} = \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}y_j}}{\sum_{j=1}^{N}\hat{\gamma_{jk}}}$ $\hat{\sigma_k^2} = \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}(y_j - \mu_k)^2}}{\sum_{j=1}^{N}\hat{\gamma_{jk}}}$ $\hat{\alpha_k} = \frac{n_k}{N}= \frac{\sum_{j=1}^{N}\hat{\gamma_{jk}}}{N}$

迭代直到问题收敛

高斯混合聚类

高斯混合模型的一个重要应用就是高斯混合聚类。高斯混合聚类的原理就是假设样本是由高斯混合分布产生，每个单独的样本都是由高斯混合分布中的某一个高斯分布产生，因此可以根据其具体生成的高斯函数将样本聚类为K个簇。

给定初始参数 $\theta = (\alpha_1,...,\alpha_K,\mu_1,...,\mu_K,\sigma_1,...,\sigma_K)$ 以及样本 $D = \left \{ x_1,...,x_N \right \}$ 利用上面的高斯混合模型估计高斯混合模型的参数。

针对每一个样本，利用公式 $\lambda_j = arg\ max ( \frac{\alpha_k \phi(y_j|\theta_k)}{\sum_{k=1}^{K} \alpha_k \phi(y_j|\theta_k)})$ 将样本聚类到相应的簇。