44、声学建模与语音识别技术综述

最新推荐文章于 2026-06-20 17:03:26 发布

原创最新推荐文章于 2026-06-20 17:03:26 发布 · 79 阅读

标签

#声学建模 #语音识别 #HMM

探索口语处理技术的奥秘专栏收录该内容

95 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

声学建模与语音识别技术综述

1. 声学建模评估

在声学建模中，评估会在每个音素边界进行。这种重叠评估意味着每个音素在整体得分中会被评估两次。更重要的是，重叠评估对重叠区域施加约束，以确保轨迹过渡的一致性。这是一个重要特性，因为轨迹混合可以防止片段单元内出现虚假轨迹，但目前仍缺乏防止相邻片段单元间任意轨迹过渡的机制。

当某些音素对的训练数据不足，或者包含静音的单元由于静音时长的任意性而导致轨迹模糊时，一个音素对单元 (ei - 1, ei) 可以回退为两个音素单元。回退段模型评估公式如下：
[
p(q_{i}|X_{t_{i - 1}}^{t_{i + 1}}) = \beta * p(e_{i - 1}|X_{t_{i - 1}}^{t_{i}}) * p(e_{i}|X_{t_{i}}^{t_{i + 1}})
]
其中，β 是回退权重，通常小于 1.0。使用回退权重的效果是，相较于基于两个音素的回退段模型，更倾向于使用音素对段模型。

在音素对分类实验中，音素对段模型的表现比音素对隐马尔可夫模型（HMM）高出 20% 以上。与基于 HMM 的 Whisper 相比，统一框架在华尔街日报（WSJ）听写任务上使单词错误率降低了约 8%。