问题来源
在学习模式分类过程中,我们会用到极大似然估计,最常见的是用它来估计期望和方差,而概率论中有这个结论,就是极大似然估计得到的方差是有偏的,那么为什么呢?
估计的无偏性
如果 θ^\hat{\theta}θ^ 是我们对θ\thetaθ 的估计,则满足 E(θ^)=θE(\hat\theta)=\thetaE(θ^)=θ 时我们说该估计是无偏的.
极大似然估计
假设样本集DDD中有nnn个样本:x1,x2,…xnx_1,x_2,\ldots x_nx1,x2,…xn.我们需要估计的参数是θ\thetaθ,由于这些样本是独立抽取的,所以有下式成立:
p(D∣θ)=∏k=1np(xk∣θ) p(D|\theta)=\prod_{k=1}^{n}p(x_k|\theta) p(D∣θ)=k=1∏np(xk∣θ)
为简化计算,使用对数似然函数:
l(θ)=ln(p(D∣θ))=∑k=1nln(p(xk∣θ)l(\theta)=\ln(p(D|\theta))=\sum_{k=1}^n \ln (p(x_k|\theta)l(θ)=ln(p(D∣θ))=k=1∑nln(p(xk∣θ)
我们要求其极大值,对其求梯度,梯度为零的地方就是可能的极大值处:
∇θ=∑k=1n∇θln(p(xk∣θ)) \nabla_\theta=\sum_{k=1}^{n}\nabla_\theta \ln(p(x_k|\theta)) ∇θ=k=1∑n∇θln(p(xk∣θ))
对于一维的正态分布,有:
lnp(x)=−122πσ−12σ(x−μ)2 \ln p(x)= -\frac{1}{2}2\pi\sigma-\frac{1}{2\sigma}(x-\mu)^2lnp(x)=−212πσ−

本文探讨了极大似然估计中方差估计的有偏性问题,并通过一维正态分布的例子进行了详细的数学推导,展示了为什么极大似然估计得到的方差是有偏的。

2733

被折叠的 条评论
为什么被折叠?



