机器学习(第2版)
上QQ阅读APP看书,第一时间看更新

2.1.3 参数估计

参数估计(Parameter Estimation)是统计推断的一种基本形式,它用样本统计量去估计总体的参数,即根据样本数据选择统计量去推断总体的分布或数字特征。估计参数的目的是希望用较少的样本去描述数据的总体分布,前提是要了解样本总体分布(如正态分布),这样就只需要估计其中参数的值。如果无法确认总体分布,就要采用非参数估计的方法。

参数估计最早是在18世纪末由德国数学家高斯提出的,其中有多种方法,除了最基本的最小二乘法和极大似然法、贝叶斯估计、最大后验估计,还有矩估计、一致最小方差无偏估计、最小风险估计、最小二乘法、最小风险法和极小化极大熵法等。随着统计分析应用越来越广,参数估计得到了飞速的发展。

点估计(Point Estimate)是用一个样本点的估计量直接作为某一参数的估计值。

区间估计(Interval Estimation)是在点估计的基础上,给出总体参数的一个估计区间,该区间由样本统计量加减估计误差而得到,区间估计就是样本统计量与总体参数的接近程度的一个概率度量,而这个区间就称为置信区间。

参数估计的目标是获取一个估计函数,向估计函数输入测量数据,输出相应参数的估计值/区间。通常希望得到的估计函数是最优的,即所有的信息都被提取出来了,最大化代表了整体数据的特征。一般来说,求解估计函数需要以下3步。

① 确定系统的模型,建模过程中不确定性和噪声也会混进来。

② 确定估计器及其限制条件。

③ 验证是否为最优估计器。

所谓的估计器可以理解为损失函数(Loss Function),上述过程不断迭代,直到找到最优估计器,此时的模型就具有最优的置信度。

下面介绍最大(极大)似然估计(Maximum Likelihood Estimate,MLE)、贝叶斯估计(Bayes Estimate)和最大后验(Maximum A Posteriori,MAP)估计。假设观察的变量是x,观察的变量取值(样本)为X ={x,…,xn},要估计的参数是θ,x的分布函数是p(x|θ),这里使用条件概率来说明这个分布是依赖于θ取值的。这里将其用标量表示,在实际中 xθ都可以是由几个变量组成的向量。

(1)最大似然估计中的“似然”就是“事件发生的可能性”,最大似然估计就是要找到参数θ的一个估计值,使“事件发生的可能性”最大,也就是使p(X|θ)最大。一般来说,可以认为多次取样得到的x是独立分布的:

( | )pX θ 1=i=∏n px θ( | )i

由于p(xi)一般都比较小,且n一般都比较大,连乘容易造成浮点运算下溢,因此通常都取最大化对应的对数形式,将公式转化为:

MLθ*=arg max∑n log ( | )2 ipx θ i=1

具体求解时,可对θ求导数,然后令导数为0,求出θ*ML

最大似然估计属于点估计,这种方法只能得到单个参数的估计值。很多时候,除了求解的值外,还需要求解θ在数据X 中的概率分布情况p(θ|X)。由于最大似然估计是根据样本子集对总体分布情况进行估计,在样本子集数据量较少时结果并不准确。

(2)贝叶斯估计解决的是概率估计问题。即已知一些样本,并且它们满足某种分布,需要估计这种分布的参数或者新数据出现的概率。最大似然估计是在对被估计量没有任何先验知识的前提下求得的。使用贝叶斯公式,可以把关于θ的先验知识以及观察数据结合起来,用以确定θ的后验概率p(θ|X):

Xθ( | )p =1 pX( | ) ( )θ θp XZ

其中,ZX=∫p(X|θ)p(θ)dθ是累积因子,以保证p(θ|X)的和等于1。前提条件是需要知道关于θ的先验知识,即不同取值的概率p(θ),例如θ=1表示考试及格,θ=0表示不及格,可以根据学习情况大体估计θ=1的可能性为80%,即p(θ=1)=0.8,而p(θ=0)=0.2。

在某个确定的θ取值下,事件x发生的概率就是p(x|θ),这是关于θ的函数,其中X集合中的各样本是相互独立的,p(X|θ)就可以展开成连乘形式,从而得到p(θ|X)的表达式,不同的θ对应不同的后验概率。这样就可以选取一个θ,使p(θ|X)的值最大。贝叶斯估计对所有θ的取值都进行了计算,有时只希望获得一个使p(θ|X)最大化的θ即可。

(3)最大后验估计运用了贝叶斯估计的思想,从贝叶斯估计的公式可以看到ZXθ是无关的,要得到使p(θ|X)最大的θ,等价于求解下面的式子:

MAP*θ =maxθ{p(θ|X)}=maxθ{p(X|θ)p(θ)}

与最大似然估计一样,通常最大化对应的对数形式是将上述式子转化为:

MAP*θ =maxθ{log2p(X|θ)}+log2p(θ)

这样就C:\Users\ADMINI~1\AppData\Local\Temp\pdf2stream\figure-0039-0036.jpg可以不用计算ZX,也不需要求所有的样本概率p(θ|X)的值,就可以求得最大化的。

上述3种方法的应用场合不同,在先验概率p(θ)很确定的情况下,可以使用最大后验估计或贝叶斯估计,其中贝叶斯估计可以取得后验概率的分布情况,而最大后验估计只关心最大化结果的θ值。当然,如果对先验知识没有信心,可以使用最大似然估计。