一、单通道降噪方法
- 谱减法
谱减法基于人类语音时/频域的稀疏性,在非语音段估计噪声,在带噪的语音段减去非语音段的估计的噪声得到纯净的语音。该方法只有幅度谱受影响,而相位谱并不受影响,这种方法要求噪声谱是静态的或者准静态的,当估计的背景噪声过小时,会有噪声残留,残余的噪声会形成音乐噪声,如果估计的背景噪声过大,则会导致语音被消掉。
- 维纳滤波法
该方法基于语音和噪声的统计独立性,使用MMSE准则降噪。
- 基于最大似然(ML)、最大后验(MAP)、最小均方估计(MMSE)的统计模型法
- 贝叶斯估计法
- 基于特征值和奇异值分解(SVD/EVD)的子空间法
子空间法基于语音和噪声在各自的子空间是正交的这一假设, 实际上是近似相交,该方法受单帧正交性波动影响较大。
二、谱减法原理
设带噪语音、 纯净语音和加性噪声分别表示为y(t)y(t)y(t)、x(t)x(t)x(t)、u(t)u(t)u(t),则它们满足公式:
y(t)=x(t)+u(t)y(t)=x(t)+u(t)y(t)=x(t)+u(t)
其频域等价表达式为:
Y(w)=X(w)+U(w)=∣Y(w)∣ejϕd(w)Y(w)=X(w)+U(w)=|Y(w)|e^{j\phi_d(w)}Y(w)=X(w)+U(w)=∣Y(w)∣ejϕd(w)
其中,幅度谱和相位谱分别用|Y(w)|和ϕy(w)\phi_y(w)ϕy(w)
噪声谱的极坐标表示为:
U(w)=∣U(w)∣ejϕd(m)U(w)=|U(w)|e^{j\phi_d(m)}U(w)=∣U(w)∣ejϕd(m)
噪声的幅度谱是未知的,但可以用非语音段的统计平均作为近似估计,噪声的相位谱可以用带噪语音的相位谱替代,这是因为相位信息影响的是语音质量而非可懂度,这样可以得到干净的语音信号的近似求解:
X^(w)=[∣Y(w)∣−∣U^(w)∣]ejϕy(w)\hat{X}(w)=[|Y(w)|-|\hat{U}(w)|]e^{j\phi_y(w)}X^(w)=[∣Y(w)∣−∣U^(w)∣]ejϕy(w)
其中,U^(w)\hat{U}(w)U^(w)是根据非语音段估计得到的噪声幅度谱,通过对谱减后的语音谱X^(w)\hat{X}(w)X^(w)进行傅里叶逆变换,得到时域语音信号,这是谱减法的核心思想。
由于估计存在误差,因而会出现X^(w)\hat{X}(w)

本文详细介绍了单通道语音降噪的几种方法,包括谱减法、维纳滤波和基于子空间的降噪策略。谱减法利用非语音段估计噪声并减去,但易产生音乐噪声;维纳滤波基于最小均方误差准则,能有效减少噪声,而子空间方法假设语音和噪声在各自子空间正交。此外,文章还提及了深度学习在降噪中的应用,如rnnnoise网络,通过神经网络计算掩码进行频域降噪,实现高效且实时的降噪效果。

1600

被折叠的 条评论
为什么被折叠?



