实战指南：用Python搞定中文语音合成的文本归一化（附WeTextProcessing代码）

最新推荐文章于 2026-03-17 00:39:28 发布

原创

最新推荐文章于 2026-03-17 00:39:28 发布 · 401 阅读

标签

#语音合成 #文本归一化 #Python #TTS

收录于

实战指南：用Python搞定中文语音合成的文本归一化（附WeTextProcessing代码）

在构建中文语音合成系统时，开发者常会遇到一个看似简单却影响深远的问题：如何让TTS引擎正确读出"2024年GDP增长5.2%"这样的文本？数字、日期、货币等非标准文本的规范化处理，直接决定了合成语音的专业度和自然感。本文将带你用Python打造工业级的中文文本归一化方案，重点解决TTS场景下的特殊文本转换难题。

1. 文本归一化的核心挑战

中文文本中存在大量需要特殊处理的非标准词汇(NSW)，主要包括以下几类：

数字类：基数词("123")、序数词("第1")、分数("1/2")、百分比("5.2%")
时空表达：日期("2024-01-01")、时间("14:30")、持续时间("2小时30分")
计量单位：货币("¥100")、温度("36.5°C")、尺寸("5x7cm")
特殊序列：电话号码("10086")、车牌号("京A12345")、身份证号

这些文本如果直接送入TTS引擎，通常会产生不符合预期的读音。例如：

# 错误读音示例
"2024-01-01" → "二零二四杠零一杠零一"  # 期望："二零二四年一月一日"
"¥100" → "人民币符号一百"  # 期望："一百元"

更复杂的是，同一数字在不同语境下读音规则不同：

"房间号201" → "二零一"
"201路公交车" → "二零一"
"201不锈钢" → "二零一"  # 行业特殊读法

2. WeTextProcessing实战配置

WeTextProcessing是当前中文TTS领域使用最广泛的文本归一化工具，基于Pynini的加权有限状态转换器(WFST)实现。以下是完整安装指南：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

algae

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

text_normalization

04-30

text_normalization 用于将文本规范化为规范形式的Python模块。安装 pip install normalization 例子 import normalization ## Whitespace Normalization # Output: "This is not a normal sentence structure. The spaces are incoherant." normalization . whitespace ( "This is not a normal sentence structure . The spaces are incoherant ." ) ## Capitalization Normalization # Output: "This is not capitalized. It should be

参与评论您还未登录，请先登录后发表或查看评论

语音合成之十三中文文本归一化在现代语音合成系统中的应用与实践

shichaog的专栏

05-11

1780

中文文本归一化在现代语音合成系统（TTS）中扮演着关键角色，旨在将书面文本转换为标准化的口语化形式，以确保合成语音的准确性和自然度。中文由于其复杂的语言特性，如多音字、数字、日期等非标准词（NSW）的多样性，对文本归一化提出了挑战。归一化过程包括预处理、非标准词识别与转换、后处理三个主要阶段，涉及字符宽度转换、Unicode标准化、繁简转换等步骤。主流TTS系统如SparkTTS和CosyVoice虽然依赖大型语言模型（LLM）处理文本，但仍需显式的文本归一化模块来确保复杂中文输入下的语音合成质量。

WeTextProcessing 开源项目教程

gitblog_00599的博客

08-16

716

`WeTextProcessing` 的目录结构通常包括以下几个关键部分： - **src**：核心代码存放的地方，可能有子目录分别存储不同功能模块。 - **docs**：项目的文档资料，一般使用Markdown或 Sphinx 格式。 - **tests**：测试代码，用于验证项目功能的正确性。 - **config**：配置文件夹，包含运行项目所需的设置文件。 - **requiremen...

pip 错误整理

09-04

6969

安装报错，编译环境出现问题解决方案：从conda安装注意一点要选conda-forge库，其他地方无法下载到。

WeNet 丨 WeTextProcessing

weixin_48827824的博客

10-08

5457

站在这些优秀开源项目的肩膀上，WeTextProcessing秉承简单易用和Production First & Production Ready 的原则，为中文专门设计和实现一款开源易用的 TN / ITN 工具，它不仅仅包含了包含一套完整的中文 TN / ITN 规则语法，同时也提供了一个可以一键 pip install 使用的 py工具包以及比Sparrowhawk 依赖项更少（生产环境下仅依赖 OpenFst ）的整体更轻量化的 C++ 规则处理引擎。另一个较为成熟的项目是英伟达公司开源的。

怎么将中文数字转为阿拉伯数字？

Twinkle_sone的博客

03-26

931

最近实现了一个b站插件，可以通过语音来控制播放页面上指定的视频，在语音识别的过程中遇到了需要将中文数字转为阿拉伯数字的情况，在这里分享一下具体事例和处理过程。

【亲测免费】探索文本标准化与逆向文本标准化的利器：WeTextProcessing

gitblog_00071的博客

05-08

2271

[WeTextProcessing](https://mp.weixin.qq.com/s/q_11lck78qcjylHCi6wVsQ) 是一款以生产应用为导向的文本处理工具包，专注于文本标准化（Text Normalization）和逆向文本标准化（Inverse Text Normalization）。这个项目旨在为自然语言处理任务提供高质量的预处理工具，无论是在语音识别、机器翻译还是搜索引...

Windows+IndexTTS+WeTextProcessing 编译失败解决方法！

TonyNotes的博客

04-02

1983

先通过conda安装pynini==2.1.6，然后在安装WeTextProcessing，一切就迎刃而解了。最近在Windows安装声音克隆项目IndexTSS的时候遇到了一个问题，记录下！这个项目的依赖文件中有一个有一个叫做WeTextProcessing的包。安装的时候时候会build失败，即便本地有VS环境。

突破语音合成瓶颈：CosyVoice文本归一化技术全解析

gitblog_00827的博客

09-11

403

你是否还在为语音合成中数字、符号、特殊格式文本的发音问题烦恼？是否遇到过"2025年"被读成"两千零二十五年"还是"二零二五年"的纠结？本文将深入解析CosyVoice项目中的文本归一化技术演进，从基础处理到高级优化，带你一文掌握让AI语音更自然的核心秘诀。读完本文你将获得： - 文本归一化（Text Normalization）在TTS（文本转语音）中的关键作用 - CosyVoice项目中...

程序报错无tn.chinese,后win10安装WeTextProcessing库报错解决

weixin_43305945的博客

09-19

3475

在安装WeTextProcessing库时报错ERROR:Could not build wheels for pynini, which is required to install pyproject.toml-based时先安装pynini:conda install -c conda-forge pynini,成功后即可pip install WeTextProcessing，该库就安装成功了。

SenseVoice-small-onnx开源模型生态：与FunASR、WeTextProcessing协同工作流

最新发布

weixin_36382073的博客

03-17

981

本文介绍了如何在星图GPU平台自动化部署sensevoice-small-语音识别-onnx模型(带量化后)，实现高效的多语言语音识别。该模型结合FunASR引擎和WeTextProcessing后处理工具，可广泛应用于实时会议转录、多语言音频内容转写等场景，显著提升语音处理效率。

在 Windows 中安装 wetextprocessing的记录

love530love的博客

05-03

2503

工作记录在 Windows 系统中安装 WeTextProcessing 及其依赖项时，您可能会遇到需要手动下载并安装某些包的情况。

Python3中对时间的处理（持续更新ing...）

诸神缄默不语的博客

06-02

1290

本文介绍Python3中对时间对象的处理

python文本分析的开源工具_重磅开源:TN文本分析语言

weixin_39829497的博客

11-26

589

tn是desert(沙漠之鹰)和tan共同开发的一种用于匹配，转写和抽取文本的语言（DSL）。并为其开发和优化了专用的编译器。基于递归下降方法和正则表达式，能解析自然文本并转换为树和字典，识别时间，地址，数量等复杂序列模式。github地址：https://github.com/ferventdesert/tnpy0.设计理由字符串分析和处理几乎是每个员程序必备的工作，简单到分割类似"1,2,3,...

语音识别语料归一化处理的方法

DOT小文哥的博客

09-25

7372

在进行语音识别模型的训练和测试语料收集的过程中，我们需要对收集到的语料进行归一化处理。收集到的语料应每个命令词或句子单个截下来，对其进行归一化处理。因为即使是同一个人，在读不同的命令词的时候，音量也会不一样。特别是在语料录制的过程中，由于志愿者的逐渐疲惫，后面录的命令词的声音，可能会偏弱一些。对语料进行归一化处理的基本原理是：取一段语料中幅度最大的点将其幅度拉大到接近1，记录拉大的比例，再...

TTS实现过程（大白话）

qq_34171593的博客

02-24

1629

实现TTS先了解数据wav文件不知道童鞋们知不知道scipy这个函数（看，有童鞋举爪了），这个函数实现了读取wav文件的过程，具体是：scipy.io.wavefile这个函数，这个函数读取wav文件之后表现为数组的形式，这样就明了多了，wav文件通过scipy转码成为了数组的形式，同样数组也可以通过scipy.io.wavefile实现存为wav文件。好了，有了对数据的基础认识，接下来聊聊TTS TTS实现目前主流的方法大家应该也都了解过是将文字转化为拼音再转化为id，然后通过训练获得模型。浅了