1. 英语G2P优化与多语言ASR性能提升概述
语音识别技术(Automatic Speech Recognition, ASR)的核心挑战之一在于处理不同语言间的音素差异。特别是在处理英语等语言的爆破音(plosives)时,传统的音素到字位转换(Grapheme-to-Phoneme, G2P)系统往往无法准确捕捉实际发音中的细微特征。我们通过规则优化英语G2P系统,调整爆破音清浊对立、送气特征等关键参数,显著提升了跨语言识别的准确率。
在初步实验中,我们发现英语G2P数据对未见过语言的爆破音起始时间(voice-onset times)造成了混淆。例如,英语中/bat/的/b/在主流美式英语中实际发音更接近[p],但传统音标标注仍使用/b/。这种标注与实际发音的不匹配,会导致模型在处理其他语言时产生错误的音素映射。
2. 英语G2P规则优化详解
2.1 爆破音清浊对立优化
英语中的爆破音清浊对立(voicing contrast)在实际发音中往往表现为送气与否的差异,而非真正的声带振动差异。我们实施了以下规则优化:
-
词首清爆破音送气化 :将词首的/p/, /t/, /k/标记为送气音。例如"pat"中的/p/实际发音为[pʰ]。
-
词首浊爆破音清音化 :将词首的/b/, /d/, /g/标记为不送气清音。例如"bat"中的/b/实际发音接近[p]。
注意:这一调整特别重要,因为英语词首浊爆破音的实际发音与法语、西班牙语等语言的真正浊音有本质区别。忽略这一点会导致模型在处理其他语言时产生系统性错误。
2.2 其他音系特征优化
除了爆破音外,我们还优化了以下音系特征:
-
音节尾/l/的软腭化 :英语中音节尾的/l/(如"bell")实际发音是软腭化的


1313

被折叠的 条评论
为什么被折叠?



