MLE最大似然估计：数据驱动的概率模型参数推断基石

最新推荐文章于 2026-06-21 22:01:11 发布

原创最新推荐文章于 2026-06-21 22:01:11 发布 · 1k 阅读

25 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#数据挖掘 #人工智能 #机器学习 #算法 #MLE

人工智能同时被 3 个专栏收录

385 篇文章

订阅专栏

Python

352 篇文章

订阅专栏

OTHER

204 篇文章

订阅专栏

从样本中还原未知分布的本质规律

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

一、核心思想与数学定义

最大似然估计（Maximum Likelihood Estimation, MLE） 是频率学派的参数估计方法，其核心思想为：

选择使观测数据出现概率最大的参数值。
给定独立同分布样本 $\{x_1, x_2, \dots, x_n\}$ 和概率模型 $\mid \theta)$ ，MLE的目标函数为：
$\hat{\theta}_{MLE} = \arg\max_{\theta} \mathcal{L}(\theta; X) = \arg\max_{\theta} P(X \mid \theta)$
其中 $\mathcal{L}(\theta; X)$ 称为似然函数。

关键特性：

数据驱动：完全依赖观测数据，无需先验知识
渐进一致性：样本量 $\to \infty$ 时，估计值收敛于真实参数
渐进正态性：估计误差服从正态分布 $\mathcal{N}(0, I^{-1}(\theta))$ （ $I$ 为Fisher信息矩阵）

往期文章推荐:

二、算法流程与计算示例

1. 通用求解步骤

步骤	操作	数学表达
1. 构建似然函数	联合概率密度乘积	$\mathcal{L}(\theta) = \prod_{i=1}^n p(x_i \mid \theta)$
2. 取对数似然	避免连乘下溢	$\ell(\theta) = \log \mathcal{L}(\theta) = \sum_{i=1}^n \log p(x_i \mid \theta)$
3. 求导优化	解似然方程	$\frac{\partial \ell(\theta)}{\partial \theta} = 0$
4. 验证二阶导	确认最大值	$\frac{\partial^2 \ell(\theta)}{\partial \theta^2} < 0$

2. 经典案例：伯努利分布的MLE

模型：硬币正面概率 $\theta$ （数据： $k$ 次正面， $n - k$ 次反面）
似然函数：
$\mathcal{L}(\theta) = \theta^k (1-\theta)^{n-k}$
对数似然：
$\ell(\theta) = k \log \theta + (n-k) \log (1-\theta)$
求导解方程：
$\frac{\partial \ell}{\partial \theta} = \frac{k}{\theta} - \frac{n-k}{1-\theta} = 0 \quad \Rightarrow \quad \hat{\theta}_{MLE} = \frac{k}{n}$

三、实际应用场景

1. 金融风险管理：损失分布拟合

问题：估计极端损失事件概率（如VaR计算）

模型：使用广义帕累托分布（GPD）建模尾部损失

# Scipy库实现GPD参数MLE估计
from scipy.stats import genpareto
losses = [2.1, 3.5, 1.8, 4.9, 0.7]  # 极端损失样本

# MLE拟合形状参数ξ与尺度参数σ
ξ, loc, σ = genpareto.fit(losses, floc=0)  
print(f"估计参数: ξ={ξ:.3f}, σ={σ:.3f}")  # 输出示例: ξ=0.12, σ=1.85

2. 自然语言处理：语言模型训练

目标：估计n-gram概率 $P(w_i \mid w_{i-1})$
MLE解：
$\hat{P}(w_i \mid w_{i-1}) = \frac{\text{count}(w_{i-1}, w_i)}{\text{count}(w_{i-1})}$
其中 $\text{count}$ 为语料库中词序列出现频次

四、优势与局限性

优势

特性	说明
计算高效	通常有解析解或凸优化问题
统计性质优良	满足相合性、渐进无偏性
直观易解释	参数意义直接关联数据分布

局限性及解决方案

问题	原因	解决方案
小样本过拟合	数据不足时估计偏差大	贝叶斯方法（引入先验）
多峰分布失效	似然函数存在多个极值点	全局优化算法（如EM算法）
离群点敏感	对数似然受极端值影响	鲁棒MLE（如Huber损失）

五、与其他估计方法对比

方法	哲学基础	是否需要先验	适用场景
MLE	频率学派	否	大数据量、分布形式已知
MAP	贝叶斯学派	是	中小样本、有领域知识
矩估计	数字特征匹配	否	解析形式复杂的分布