第四章---《实时语音处理实践指南》单通道降噪笔记

本文详细介绍了单通道语音降噪的几种方法,包括谱减法、维纳滤波和基于子空间的降噪策略。谱减法利用非语音段估计噪声并减去,但易产生音乐噪声;维纳滤波基于最小均方误差准则,能有效减少噪声,而子空间方法假设语音和噪声在各自子空间正交。此外,文章还提及了深度学习在降噪中的应用,如rnnnoise网络,通过神经网络计算掩码进行频域降噪,实现高效且实时的降噪效果。
一、单通道降噪方法
  • 谱减法

    谱减法基于人类语音时/频域的稀疏性,在非语音段估计噪声,在带噪的语音段减去非语音段的估计的噪声得到纯净的语音。该方法只有幅度谱受影响,而相位谱并不受影响,这种方法要求噪声谱是静态的或者准静态的,当估计的背景噪声过小时,会有噪声残留,残余的噪声会形成音乐噪声,如果估计的背景噪声过大,则会导致语音被消掉。

  • 维纳滤波法

该方法基于语音和噪声的统计独立性,使用MMSE准则降噪。

  • 基于最大似然(ML)、最大后验(MAP)、最小均方估计(MMSE)的统计模型法
  • 贝叶斯估计法
  • 基于特征值和奇异值分解(SVD/EVD)的子空间法

子空间法基于语音和噪声在各自的子空间是正交的这一假设, 实际上是近似相交,该方法受单帧正交性波动影响较大。

二、谱减法原理

设带噪语音、 纯净语音和加性噪声分别表示为y(t)y(t)y(t)x(t)x(t)x(t)u(t)u(t)u(t),则它们满足公式:
y(t)=x(t)+u(t)y(t)=x(t)+u(t)y(t)=x(t)+u(t)
其频域等价表达式为:
Y(w)=X(w)+U(w)=∣Y(w)∣ejϕd(w)Y(w)=X(w)+U(w)=|Y(w)|e^{j\phi_d(w)}Y(w)=X(w)+U(w)=Y(w)ejϕd(w)
其中,幅度谱和相位谱分别用|Y(w)|和ϕy(w)\phi_y(w)ϕy(w)
噪声谱的极坐标表示为:
U(w)=∣U(w)∣ejϕd(m)U(w)=|U(w)|e^{j\phi_d(m)}U(w)=U(w)ejϕd(m)
噪声的幅度谱是未知的,但可以用非语音段的统计平均作为近似估计,噪声的相位谱可以用带噪语音的相位谱替代,这是因为相位信息影响的是语音质量而非可懂度,这样可以得到干净的语音信号的近似求解:
X^(w)=[∣Y(w)∣−∣U^(w)∣]ejϕy(w)\hat{X}(w)=[|Y(w)|-|\hat{U}(w)|]e^{j\phi_y(w)}X^(w)=[Y(w)U^(w)]ejϕy(w)
其中,U^(w)\hat{U}(w)U^(w)是根据非语音段估计得到的噪声幅度谱,通过对谱减后的语音谱X^(w)\hat{X}(w)X^(w)进行傅里叶逆变换,得到时域语音信号,这是谱减法的核心思想。
由于估计存在误差,因而会出现X^(w)\hat{X}(w)

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值