引言
在机器学习任务中,最最经常遇到的一个问题就是给定一组训练样本,学习到生成这组样本的模型的参数,这也是统计学习的根本任务。我们知道统计学上分频率学派和贝叶斯学派,那么自然的,对这个问题的解决就有两种模型,一种是频率学派推崇的极大似然估计,一种是贝叶斯学派主张的贝叶斯估计,下面我们就来介绍下这两种估计
极大似然估计
频率学派认为给定一个模型,她的参数是一个固定值,因此可以直接根据训练数据估计出参数的值。其思想如下:我们之所以能够得到目前的训练数据,那是因为通过函数生成这组数据的概率最大。因此,给定训练集,即是最大的。因此我们需要计算得到 使得最大,即:
而我们假设样本都是独立生成的,因此有:
为了解决连乘的问题,我们求对数,就可以得到参数的极大似然函数:
通过求导,既可以求得参数的最大值。
贝叶斯估计
频率学派认为参数是一个固定值,而贝叶斯学派认为参数也是有分布的,这就是他们两个的矛盾。这个矛盾不可调和啊。
针对贝叶斯学派,给定输入x,他的输出并不是一个确定的值,而是一个期望,即:
而:
分母不影响,因此:
也就是说贝叶斯估计和极大似然估计之间差一个。
在实际问题中,需要以超参数的形式给出。
在训练数据有限时,贝叶斯估计的泛化能力强。
当数据量极大时,这两种方法结果是一致的。