语音处理与冲突升级检测技术研究
在语音处理和冲突升级检测领域,近期有许多前沿的研究成果。本文将介绍两种不同但相关的技术:多置信门用于语音增强(SE)和自动语音识别(ASR)的联合训练,以及基于声学 - 语言信息融合和迁移学习的语音冲突升级检测。
多置信门用于 SE 和 ASR 联合训练
在语音处理中,SE 和 ASR 的联合训练一直是一个具有挑战性的问题。传统方法可能会在联合训练过程中遇到兼容性问题,导致识别性能下降。为了解决这个问题,研究人员提出了多置信门增强方法。
损失函数
该框架的损失函数由四个部分组成:
[L = L_G + L_R + L_O + L_{CTC}]
其中:
- (L_G) 用于衡量预测的置信门,计算公式为 [L_G = \sum_{i=1}^{n} ||G_n - \dot{G} n||_1],这里的 (||\cdot||_1) 表示 1 范数。
- (L_R) 用于加强模块对噪声的过滤能力,通过计算干净语音和嘈杂语音过滤结果的差异得到,公式为 [L_R = \sum {i=1}^{n} ||R_n - \dot{R} n||_1]。
- (L_O) 用于减少 SE 给 ASR 带来的与噪声相关的变化,计算干净语音和嘈杂语音计算得到的 (\dot{O}) 之间的差异,即 [L_O = ||O - \dot{O}||_1],并且所有干净语音处理的梯度都会被丢弃。
- (L {CTC}) 是用于 ASR 的连接主义时间分类。
实验设置
- 数据集
超级会员免费看
订阅专栏 解锁全文

1033

被折叠的 条评论
为什么被折叠?



