统计信号处理中的似然函数与最大似然估计

本文深入探讨了最大似然估计的原理,包括似然函数的定义、如何从观测数据的概率密度函数推导似然函数,以及似然函数与对数似然函数的关系。同时,文章解释了在独立观测条件下,如何将似然函数简化为单次观测概率密度的乘积形式,便于进行最大似然估计。

假设条件

1、参数为标量形式,θθθ
2、加性模型(x[n]=s[n;θ]+w[n],n=0,1,…N−1x[n]=s[n;θ]+w[n],n=0,1,…N-1x[n]=s[n;θ]+w[n],n=0,1,N1) :观测数据x[n]x[n]x[n]、信号模型s[n;θ]s[n;θ]s[n;θ]、噪声w[n]w[n]w[n],这里的观测数据x[n]x[n]x[n]并不是代表一个具体的实现,而是一个随机变量。
3、噪声的概率密度pw(w[n])p_w (w[n])pw(w[n])。这个概率密度的意思是w[n]w[n]w[n]取不同值的概率密度是多少。这里的pw(∙)p_w (∙)pw()是概率密度的形状,比如说如果是高斯分布,这个形状就是钟形
4、本文中没有严格区分概率分布列和概率密度函数之间的区别

概述

  如果我们把待估计参数θθθ看作是确定性的未知常数,有一特定真值,并不具有随机性。说θ=θ0θ=θ_0θ=θ0的可能性是不正确的,这里只能做出判断,即等式成立或等式不成立。
  那么我们通常说的θ=θ0θ=θ_0θ=θ0的可能性的意义是什么呢?这涉及到“似然”的概念。这个可能性就是“似然”,是指参数θ=θ0θ=θ_0θ=θ0时,观测数据x可能出现的概率。比如说,高斯电平的估计(x[n]=A+w[n]x[n]=A+w[n]x[n]=A+w[n])中,噪声服从零均值高斯分布。比如参数AAA的真值为222(这个222是我们不知道的),而且我们测量得到的数据x[n]x[n]x[n]222的附近比较集中,那么我们此时会说A=2A=2A=2的可能性很大,实际意思是如果A=2A=2A=2时测量数据,那么得到现在手上的数据的可能性很大。
  自然而然,我们想知道让观测数据xxx可能出现的概率最大的参数值是多少。这样的思想指导下的估计就是最大似然估计。
  最大似然估计就是要找到这样一个估计,基于已知的观测数据,θθθ取该估计值时可使这组观测数据最可能出现。通俗一点说,令取得手上数据x[n]x[n]x[n]的可能性取最大,看看此时的参数θθθ应该取什么值。翻译成数学语言就是使得似然函数取得最大值的参数值θ^\hat{θ}θ^,作为对未知参数θ的估计。这里涉及到了似然函数,似然函数与观测的概率密度函数有关系,所以我们先看一下观测的概率密度函数。

观测的概率密度函数

  当被估计参数θθθ为确定性的未知常数时,观测数据x[n]x[n]x[n]呈现的随机特性是由噪声w[n]w[n]w[n]带来的,每个单次观测的概率密度,如果抛去确定性的部分,就和剩余的噪声项的概率密度是一样的。也就是说x[n]−s[n;θ]x[n]-s[n;θ]x[n]s[n;θ],呈现出和w[n]w[n]w[n]一样的随机特性
p(x[n]−s[n;θ])=pw(x[n]−s[n;θ])p(x[n]-s[n;θ])=p_w (x[n]-s[n;θ])p(x[n]s[n;θ])=pw(x[n]s[n;θ])
p(x[n]−s[n;θ])p(x[n]-s[n;θ])p(x[n]s[n;θ])这样的函数,可以统一写为p(x[n];θ)p(x[n];θ)p(x[n];θ),这就是观测的概率密度函数。实际上,是用观测数据和信号模型表示噪声,进而体现随机性。
  我们可以从两方面来看这个函数,一方面,固定θθθ,则p(x[n];θ)p(x[n];θ)p(x[n];θ)是观测的概率密度函数;另一方面,固定x[n]x[n]x[n],则是不同θθθ取值下,观测数据x[n]可能出现的概率。还是用高斯电平的估计(x[n]=A+w[n]x[n]=A+w[n]x[n]=A+w[n])来举例,参数A的每个不同的值对应一个观测数据的概率密度函数p(x[n];A)p(x[n];A)p(x[n];A),如A=2A=2A=2时,x[n]∼N(2,σ2)x[n]\sim N(2,σ^2 )x[n]N(2,σ2)A=3A=3A=3时,x[n]∼N(3,σ2)x[n]\sim N(3,σ^2 )x[n]N(3,σ2)。那么,当AAA固定时,比如A=2A=2A=2,则p(x[n];A)=p(x[n];2)p(x[n];A)=p(x[n];2)p(x[n];A)=p(x[n];2),它的图像就在x=2x=2x=2附近呈现左右对称的钟形高斯分布的随机特性;如果固定x[n]=2x[n]=2x[n]=2,则p(x[n];A)=p(x[n]=2;A)p(x[n];A)=p(x[n]=2;A)p(x[n];A)=p(x[n]=2;A),它的自变量为AAA,因变量是不同的概率密度函数p(x[n];A)p(x[n];A)p(x[n];A)中,x[n]=2x[n]=2x[n]=2时的概率p(x[n]=2;A)p(x[n]=2;A)p(x[n]=2;A),这也就是单次观测的似然函数。

似然函数

  通过之前讨论的“似然”,我们可以理解什么叫做似然函数。似然函数是在参数θθθ的函数,反映了不同的θθθ取值下,取得当前这组观测数据的概率。那么,似然函数和观测数据的概率密度函数有什么关系呢?
  首先,似然函数表示的是取得当前这组观测数据的概率,那么一组数据出现的概率我们用什么来描述呢?离散情况下,我们用联合概率分布列来描述
pX(x[0],x[1],…,x[N−1])p_X (x[0],x[1],…,x[N-1])pX(x[0],x[1],,x[N1])
  其次,这个联合概率分布列是受参数θ影响的,从而改写成
pX(x[0],x[1],…,x[N−1];θ)p_X (x[0],x[1],…,x[N-1];θ)pX(x[0],x[1],,x[N1];θ)
  这样,我们得到了似然函数。总结一下,它是不同θ取值下,观测数据的联合概率分布列。为了简化数学计算,我们再通过加上独立观测的条件,就可以将似然函数与单次观测的概率密度函数联系起来,将联合分布列写成单次观测概率密度乘积的形式
pX(x[0],x[1],…,x[N−1];θ)=∏n=0N−1pX(x[n];θ)p_X (x[0],x[1],…,x[N-1];θ)=\prod_{n=0}^{N-1}p_X (x[n];θ)pX(x[0],x[1],,x[N1];θ)=n=0N1pX(x[n];θ)
  如此,我们得到了似然函数的最终形式
∏n=0N−1pX(x[n];θ)\prod_{n=0}^{N-1}p_X (x[n];θ)n=0N1pX(x[n];θ)
  为了简化计算(将乘除化为加减),通常也会对似然函数取对数,得到对数似然函数
∑n=0N−1ln⁡⁡pX(x[n];θ)\sum_{n=0}^{N-1} \ln{⁡p_X (x[n];θ)}n=0N1lnpX(x[n];θ)

最大似然估计

  之前已经讨论了,最大似然估计是使得似然函数取得最大值的参数值θ^\hat{θ}θ^,作为对未知参数θθθ的估计。函数取得最大值是一个函数极値问题,一般的处理方法是如果可以写出似然函数的解析表达式,可以用似然函数对参数θθθ求一阶导数,令一阶导数为零的参数值θ^\hat{θ}θ^作为参数的估计。如果这种方法行不通,我们可以画出似然函数的图像,从而找到最大值,进而确定最大似然估计。
通过这种方法我们能够得到最大似然估计,那么最大似然估计的性能怎么样呢?它有着什么样的优点和弊端呢?

进一步完善:

1、最大似然估计的性质
2、矢量参数情况

问题:
  1. 如何得到独立的观测?
  2. 加性模型代表什么意思?有没有其他的模型?
参考文献

[1] Kay S , 罗鹏飞. 统计信号处理基础[M]. 电子工业出版社, 2014.
[2] Tsitsiklis D B J N . 概率导论(第2版)(图灵数学统计学丛书40)[M]. 人民邮电出版社, 2009.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值