44、声学建模与语音识别技术综述

声学建模与语音识别技术综述

1. 声学建模评估

在声学建模中,评估会在每个音素边界进行。这种重叠评估意味着每个音素在整体得分中会被评估两次。更重要的是,重叠评估对重叠区域施加约束,以确保轨迹过渡的一致性。这是一个重要特性,因为轨迹混合可以防止片段单元内出现虚假轨迹,但目前仍缺乏防止相邻片段单元间任意轨迹过渡的机制。

当某些音素对的训练数据不足,或者包含静音的单元由于静音时长的任意性而导致轨迹模糊时,一个音素对单元 (ei - 1, ei) 可以回退为两个音素单元。回退段模型评估公式如下:
[
p(q_{i}|X_{t_{i - 1}}^{t_{i + 1}}) = \beta * p(e_{i - 1}|X_{t_{i - 1}}^{t_{i}}) * p(e_{i}|X_{t_{i}}^{t_{i + 1}})
]
其中,β 是回退权重,通常小于 1.0。使用回退权重的效果是,相较于基于两个音素的回退段模型,更倾向于使用音素对段模型。

在音素对分类实验中,音素对段模型的表现比音素对隐马尔可夫模型(HMM)高出 20% 以上。与基于 HMM 的 Whisper 相比,统一框架在华尔街日报(WSJ)听写任务上使单词错误率降低了约 8%。

2. Whisper 系统案例研究

Microsoft 的 Whisper 引擎提供通用的、与说话者无关的连续语音识别功能,可用于命令控制、听写和对话应用等。它具有连续语音识别、支持说话者自适应以及动态词汇等特点,并且拥有统一架构,可根据不同应用和平台需求进行扩展。

Whisper 系统使用梅尔频率倒谱系数(MFCC)表示法,以及一阶和二阶 de

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值