从样本中还原未知分布的本质规律
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
一、核心思想与数学定义
最大似然估计(Maximum Likelihood Estimation, MLE) 是频率学派的参数估计方法,其核心思想为:
选择使观测数据出现概率最大的参数值。
给定独立同分布样本 X = { x 1 , x 2 , … , x n } X = \{x_1, x_2, \dots, x_n\} X={x1,x2,…,xn} 和概率模型 P ( X ∣ θ ) P(X \mid \theta) P(X∣θ),MLE的目标函数为:
θ ^ M L E = arg max θ L ( θ ; X ) = arg max θ P ( X ∣ θ ) \hat{\theta}_{MLE} = \arg\max_{\theta} \mathcal{L}(\theta; X) = \arg\max_{\theta} P(X \mid \theta) θ^MLE=argθmaxL(θ;X)=argθmaxP(X∣θ)
其中 L ( θ ; X ) \mathcal{L}(\theta; X) L(θ;X) 称为似然函数。
关键特性:
- 数据驱动:完全依赖观测数据,无需先验知识
- 渐进一致性:样本量 n → ∞ n \to \infty n→∞ 时,估计值收敛于真实参数
- 渐进正态性:估计误差服从正态分布 N ( 0 , I − 1 ( θ ) ) \mathcal{N}(0, I^{-1}(\theta)) N(0,I−1(θ))( I I I 为Fisher信息矩阵)
往期文章推荐:
- 20.PageRank:互联网的马尔可夫链平衡态
- 19.隐马尔可夫模型(HMM):观测背后的状态解码艺术
- 18.马尔可夫链:随机过程的记忆法则与演化密码
- 17.MCMC:高维概率采样的“随机游走”艺术
- 16.蒙特卡洛方法:随机抽样的艺术与科学
- 15.贝叶斯深度学习:赋予AI不确定性感知的认知革命
- 14.贝叶斯回归:从概率视角量化预测的不确定性
- 13.动手实践:如何提取Python代码中的字符串变量的值
- 12.深度解析基于贝叶斯的垃圾邮件分类
- 11.先验与后验:贝叶斯框架下的认知进化论
- 10.条件概率:不确定性决策的基石
- 9.深度解读概率与证据权重 -Probability and the Weighing of Evidence
- 8.WOE值:风险建模中的“证据权重”量化术——从似然比理论到FICO评分卡实践
- 7.KS值:风控模型的“风险照妖镜”
- 6.如何量化违约风险?信用评分卡的开发全流程拆解
- 5.CatBoost:征服类别型特征的梯度提升王者
- 4.XGBoost:梯度提升的终极进化——统治Kaggle的算法之王
- 3.LightGBM:极速梯度提升机——结构化数据建模的终极武器
- 2.PAC 学习框架:机器学习的可靠性工程
- 1.Boosting:从理论到实践——集成学习中的偏差征服者
二、算法流程与计算示例
1. 通用求解步骤
| 步骤 | 操作 | 数学表达 |
|---|---|---|
| 1. 构建似然函数 | 联合概率密度乘积 | L ( θ ) = ∏ i = 1 n p ( x i ∣ θ ) \mathcal{L}(\theta) = \prod_{i=1}^n p(x_i \mid \theta) L(θ)=∏i=1np(xi∣θ) |
| 2. 取对数似然 | 避免连乘下溢 | ℓ ( θ ) = log L ( θ ) = ∑ i = 1 n log p ( x i ∣ θ ) \ell(\theta) = \log \mathcal{L}(\theta) = \sum_{i=1}^n \log p(x_i \mid \theta) ℓ(θ)=logL(θ)=∑i=1nlogp(xi∣θ) |
| 3. 求导优化 | 解似然方程 | ∂ ℓ ( θ ) ∂ θ = 0 \frac{\partial \ell(\theta)}{\partial \theta} = 0 ∂θ∂ℓ(θ)=0 |
| 4. 验证二阶导 | 确认最大值 | ∂ 2 ℓ ( θ ) ∂ θ 2 < 0 \frac{\partial^2 \ell(\theta)}{\partial \theta^2} < 0 ∂θ2∂2ℓ(θ)<0 |
2. 经典案例:伯努利分布的MLE
- 模型:硬币正面概率 θ \theta θ(数据: k k k 次正面, n − k n-k n−k 次反面)
- 似然函数:
L ( θ ) = θ k ( 1 − θ ) n − k \mathcal{L}(\theta) = \theta^k (1-\theta)^{n-k} L(θ)=θk(1−θ)n−k - 对数似然:
ℓ ( θ ) = k log θ + ( n − k ) log ( 1 − θ ) \ell(\theta) = k \log \theta + (n-k) \log (1-\theta) ℓ(θ)=klogθ+(n−k)log(1−θ) - 求导解方程:
∂ ℓ ∂ θ = k θ − n − k 1 − θ = 0 ⇒ θ ^ M L E = k n \frac{\partial \ell}{\partial \theta} = \frac{k}{\theta} - \frac{n-k}{1-\theta} = 0 \quad \Rightarrow \quad \hat{\theta}_{MLE} = \frac{k}{n} ∂θ∂ℓ=θk−1−θn−k=0⇒θ^MLE=nk
三、实际应用场景
1. 金融风险管理:损失分布拟合
- 问题:估计极端损失事件概率(如VaR计算)
- 模型:使用广义帕累托分布(GPD)建模尾部损失
# Scipy库实现GPD参数MLE估计 from scipy.stats import genpareto losses = [2.1, 3.5, 1.8, 4.9, 0.7] # 极端损失样本 # MLE拟合形状参数ξ与尺度参数σ ξ, loc, σ = genpareto.fit(losses, floc=0) print(f"估计参数: ξ={ξ:.3f}, σ={σ:.3f}") # 输出示例: ξ=0.12, σ=1.85
2. 自然语言处理:语言模型训练
- 目标:估计n-gram概率 P ( w i ∣ w i − 1 ) P(w_i \mid w_{i-1}) P(wi∣wi−1)
- MLE解:
P ^ ( w i ∣ w i − 1 ) = count ( w i − 1 , w i ) count ( w i − 1 ) \hat{P}(w_i \mid w_{i-1}) = \frac{\text{count}(w_{i-1}, w_i)}{\text{count}(w_{i-1})} P^(wi∣wi−1)=count(wi−1)count(wi−1,wi)
其中 count \text{count} count 为语料库中词序列出现频次
四、优势与局限性
优势
| 特性 | 说明 |
|---|---|
| 计算高效 | 通常有解析解或凸优化问题 |
| 统计性质优良 | 满足相合性、渐进无偏性 |
| 直观易解释 | 参数意义直接关联数据分布 |
局限性及解决方案
| 问题 | 原因 | 解决方案 |
|---|---|---|
| 小样本过拟合 | 数据不足时估计偏差大 | 贝叶斯方法(引入先验) |
| 多峰分布失效 | 似然函数存在多个极值点 | 全局优化算法(如EM算法) |
| 离群点敏感 | 对数似然受极端值影响 | 鲁棒MLE(如Huber损失) |
五、与其他估计方法对比
| 方法 | 哲学基础 | 是否需要先验 | 适用场景 |
|---|---|---|---|
| MLE | 频率学派 | 否 | 大数据量、分布形式已知 |
| MAP | 贝叶斯学派 | 是 | 中小样本、有领域知识 |
| 矩估计 | 数字特征匹配 | 否 | 解析形式复杂的分布 |
结论:MLE的普适性价值
MLE是连接数据与模型的桥梁:
- 在深度学习(如交叉熵损失的本质是MLE)、计量经济学、生物统计等领域不可替代
- 其变体(条件对数似然)驱动逻辑回归、CRF等经典模型
核心信条:“数据即真理”——当样本充分时,似然函数揭示了生成数据的底层机制。
关键公式总结:
θ ^ M L E = arg max θ ∑ i = 1 n log p ( x i ∣ θ ) \boxed{\hat{\theta}_{MLE} = \arg\max_{\theta} \sum_{i=1}^n \log p(x_i \mid \theta)} θ^MLE=argθmaxi=1∑nlogp(xi∣θ)
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!


596

被折叠的 条评论
为什么被折叠?



