语音去混响与汽车发动机声音模拟技术研究
在语音处理和汽车模拟领域,分别有语音去混响和发动机声音模拟这两个重要的研究方向。下面将详细介绍相关技术和实验结果。
语音去混响技术
在语音识别中,混响会严重干扰识别效果。为了解决这个问题,研究人员提出了多种方法,其中包括基于生成对抗网络(GAN)的去混响模型。
实验设置
- 特征提取 :从混响和干净语音中提取MFCC特征,帧长为512,帧移为256。将混响和干净语音的MFCC特征作为DNN声学模型的输入。
- 解码阶段 :使用具有明确发音和静音概率建模的三元语言模型。
对比实验
进行了一系列对比实验,包括未处理、传统GAN、BU - GAN和任务自适应GAN(Task - Adaptive GAN),具体如下:
|实验类型|描述|
| ---- | ---- |
|未处理|将13维混响MFCC特征直接输入后端语音识别系统,不进行去混响前端处理。|
|GAN|使用基于DNN的GAN模型进行语音去混响前端处理。DNN模型由三个隐藏层组成,每个隐藏层有512个隐藏单元,输入特征为13维混响MFCC。|
|BU - GAN|将传统GAN的生成器部分替换为任务自适应GAN的生成器,生成的特征是增强MFCC特征、BNF和无监督特征的41维拼接。|
|任务自适应GAN|提出的任务自适应生成对抗网络,对生成器和适配器损失函数中不同目标的权重值进行了多次不同实验。|
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



