基于卷积神经网络的语音降噪模型研究
在语音处理领域,如何有效去除语音中的噪声和混响,提高语音质量和可懂度一直是研究的热点。本文将介绍基于卷积神经网络(CNN)的语音降噪模型,包括GCT - Net和CTS - Net的结构、损失函数、实验设置以及结果分析。
1. GCT - Net模型结构与损失函数
GCT - Net模型在编码器和解码器中,主要涉及到步长(Stride)、通道数(ChannelNum)等参数,在S - TCMs模块中,涉及核大小(KernelSize)、膨胀率(DilationRate)和通道数(ChannelNum)。输入通道数用δ表示。
在每个Conv - GLU块中,时间轴上的核大小设置为2,频率轴上的核大小在第一个块中设置为5,后续块中设置为3。步长设置为(1, 2),这样可以逐渐将频率大小减半,而时间大小保持不变。每个卷积层的通道数为64,并且在每个卷积层之后采用实例归一化和PReLU层。
解码器的架构与编码器类似,将所有的Conv - GLUs替换为Deconv - GLUs,并且在每个Conv - GLU和Deconv - GLU对之间引入了跳跃连接。
在GCT - Net的瓶颈部分,采用了三组堆叠的S - TCMs来逐步捕获长范围的时间信息,每组有六个S - TCM单元,其膨胀率呈指数增加,即(1, 2, 4, 8, 16, 32)。需要注意的是,由堆叠S - TCMs组成的模块是因果的,因为推断当前帧输出不需要未来帧。
损失函数方面,采用了均方误差(MSE)与幅度约束和复谱约束相结合的方式。具体损失函数如下:
[
L_{gct}=\alpha L_{gct}^{RI
超级会员免费看
订阅专栏 解锁全文

974

被折叠的 条评论
为什么被折叠?



