现代TTS技术发展族谱
TTS领域的发展简直是日新月异,当前TTS技术俨然已发展成了一棵大树,树根是早期的技术,这篇博客来看看,为了解决不同问题而演化出的各种AI模型。
第一阶段:奠基时代 - 自回归模型的“黄金组合” (约 2017 - 2020)
这个时代的目标是:追求最高的语音合成自然度,不惜牺牲速度。
主干:Tacotron 2 + WaveNet
这个组合可以说是现代高质量TTS的“亚当和夏娃”,它奠定了“两阶段”合成的基本范式,直到今天仍然有深远影响。
-
声学模型 (Acoustic Model): Tacotron 2
负责理解文本,解决文本和语音之间“对齐”的古老难题,并生成高质量的中间表示——梅尔频谱图 (Mel-spectrogram)。计算机怎么知道 “hello” 这个词里,‘h’ 发音多长,‘e’ 发音多长,‘llo’ 又该怎么连起来?之前的模型要么需要一个独立的、复杂的对齐模型,要么效果很生硬。其技术细节主要如下:
-
Encoder (文本理解模块): CNN + Bi-LSTM 的组合拳
CNN非常擅长捕捉局部模式。在文本中,这意味着它可以学习到像 “ch”, “sh”, “ing” 这样的字符组合的特征,这比单独看一个字符 ‘c’ 或 ‘h’ 要有意义得多。它像一个初级分
-

订阅专栏 解锁全文

940

被折叠的 条评论
为什么被折叠?



