语音合成之二十三现代TTS技术发展族谱

原创已于 2025-09-02 09:45:40 修改 · 674 阅读

·

0

·

标签

#人工智能 #语音合成

于 2025-08-18 21:34:33 首次发布

神经网络&人工智能同时被 2 个专栏收录

32 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

25 篇文章

订阅专栏

现代TTS技术发展族谱

第一阶段：奠基时代 - 自回归模型的“黄金组合” (约 2017 - 2020)
- 主干：Tacotron 2 + WaveNet
第二阶段演化与分化 (约 2019 - 2022)
- 分支一：速度革命 - 非自回归 (Non-Autoregressive) 模型
- 分之二：优雅的统一 - 端到端（End-to-End)模型
第三阶段：表现力的新纪元 - 扩散 (Diffusion) 模型 (约 2021 - 2024)
第四阶段：范式革命 - 大语言模型 (LLM) for TTS (约 2023 - 至今)

TTS领域的发展简直是日新月异，当前TTS技术俨然已发展成了一棵大树，树根是早期的技术，这篇博客来看看，为了解决不同问题而演化出的各种AI模型。

第一阶段：奠基时代 - 自回归模型的“黄金组合” (约 2017 - 2020)

这个时代的目标是：追求最高的语音合成自然度，不惜牺牲速度。

主干：Tacotron 2 + WaveNet

这个组合可以说是现代高质量TTS的“亚当和夏娃”，它奠定了“两阶段”合成的基本范式，直到今天仍然有深远影响。

声学模型 (Acoustic Model): Tacotron 2
负责理解文本，解决文本和语音之间“对齐”的古老难题，并生成高质量的中间表示——梅尔频谱图 (Mel-spectrogram)。

计算机怎么知道 “hello” 这个词里，‘h’ 发音多长，‘e’ 发音多长，‘llo’ 又该怎么连起来？之前的模型要么需要一个独立的、复杂的对齐模型，要么效果很生硬。其技术细节主要如下：
1. Encoder (文本理解模块): CNN + Bi-LSTM 的组合拳
  CNN非常擅长捕捉局部模式。在文本中，这意味着它可以学习到像 “ch”, “sh”, “ing” 这样的字符组合的特征，这比单独看一个字符 ‘c’ 或 ‘h’ 要有意义得多。它像一个初级分

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shichaog 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。