第四章---《实时语音处理实践指南》单通道降噪笔记

最新推荐文章于 2026-04-14 03:16:44 发布

原创

最新推荐文章于 2026-04-14 03:16:44 发布 · 1.8k 阅读

标签

#神经网络 #算法

本文详细介绍了单通道语音降噪的几种方法，包括谱减法、维纳滤波和基于子空间的降噪策略。谱减法利用非语音段估计噪声并减去，但易产生音乐噪声；维纳滤波基于最小均方误差准则，能有效减少噪声，而子空间方法假设语音和噪声在各自子空间正交。此外，文章还提及了深度学习在降噪中的应用，如rnnnoise网络，通过神经网络计算掩码进行频域降噪，实现高效且实时的降噪效果。

一、单通道降噪方法

谱减法

谱减法基于人类语音时/频域的稀疏性，在非语音段估计噪声，在带噪的语音段减去非语音段的估计的噪声得到纯净的语音。该方法只有幅度谱受影响，而相位谱并不受影响，这种方法要求噪声谱是静态的或者准静态的，当估计的背景噪声过小时，会有噪声残留，残余的噪声会形成音乐噪声，如果估计的背景噪声过大，则会导致语音被消掉。
维纳滤波法

该方法基于语音和噪声的统计独立性，使用MMSE准则降噪。

基于最大似然（ML）、最大后验（MAP）、最小均方估计（MMSE）的统计模型法
贝叶斯估计法
基于特征值和奇异值分解（SVD/EVD）的子空间法

子空间法基于语音和噪声在各自的子空间是正交的这一假设，实际上是近似相交，该方法受单帧正交性波动影响较大。

二、谱减法原理

设带噪语音、纯净语音和加性噪声分别表示为 $y (t)$ 、 $x (t)$ 、 $u (t)$ ，则它们满足公式：
$y (t) = x (t) + u (t)$
其频域等价表达式为：
$Y(w)=X(w)+U(w)=∣Y(w)∣ejϕd(w)Y(w)=X(w)+U(w)=|Y(w)|e^{j\phi_d(w)}$
其中，幅度谱和相位谱分别用|Y(w)|和 $ϕy(w)\phi_y(w)$
噪声谱的极坐标表示为：
$U(w)=∣U(w)∣ejϕd(m)U(w)=|U(w)|e^{j\phi_d(m)}$
噪声的幅度谱是未知的，但可以用非语音段的统计平均作为近似估计，噪声的相位谱可以用带噪语音的相位谱替代，这是因为相位信息影响的是语音质量而非可懂度，这样可以得到干净的语音信号的近似求解：
$X^(w)=[∣Y(w)∣−∣U^(w)∣]ejϕy(w)\hat{X}(w)=[|Y(w)|-|\hat{U}(w)|]e^{j\phi_y(w)}$
其中， $U^(w)\hat{U}(w)$ 是根据非语音段估计得到的噪声幅度谱，通过对谱减后的语音谱 $X^(w)\hat{X}(w)$ 进行傅里叶逆变换，得到时域语音信号，这是谱减法的核心思想。
由于估计存在误差，因而会出现 $X^(w)\hat{X}(w)$

最低0.47元/天解锁文章