语音合成之二十三 现代TTS技术发展族谱


TTS领域的发展简直是日新月异,当前TTS技术俨然已发展成了一棵大树,树根是早期的技术,这篇博客来看看,为了解决不同问题而演化出的各种AI模型。

第一阶段:奠基时代 - 自回归模型的“黄金组合” (约 2017 - 2020)

这个时代的目标是:追求最高的语音合成自然度,不惜牺牲速度。

主干:Tacotron 2 + WaveNet

这个组合可以说是现代高质量TTS的“亚当和夏娃”,它奠定了“两阶段”合成的基本范式,直到今天仍然有深远影响。

  • 声学模型 (Acoustic Model): Tacotron 2
    负责理解文本,解决文本和语音之间“对齐”的古老难题,并生成高质量的中间表示——梅尔频谱图 (Mel-spectrogram)

    计算机怎么知道 “hello” 这个词里,‘h’ 发音多长,‘e’ 发音多长,‘llo’ 又该怎么连起来?之前的模型要么需要一个独立的、复杂的对齐模型,要么效果很生硬。其技术细节主要如下:

    1. Encoder (文本理解模块): CNN + Bi-LSTM 的组合拳
      CNN非常擅长捕捉局部模式。在文本中,这意味着它可以学习到像 “ch”, “sh”, “ing” 这样的字符组合的特征,这比单独看一个字符 ‘c’ 或 ‘h’ 要有意义得多。它像一个初级分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shichaog

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值