Pybind11实战：C++与Python互调中的字符串编码避坑指南（附完整代码）

原创

于 2026-03-25 00:59:33 发布 · 162 阅读

标签

#Pybind11 #C++ #Python #字符串编码

Pybind11实战：C++与Python互调中的字符串编码避坑指南（附完整代码）

在跨语言开发中，C++与Python的交互越来越常见，而字符串编码问题往往是开发者最容易踩坑的地方。本文将深入探讨Pybind11框架下C++与Python互调时的字符串编码处理技巧，特别是中文字符串的传递与转换问题。

1. 理解字符串编码的基础

在开始解决编码问题之前，我们需要明确几个关键概念：

ASCII：最早的字符编码标准，仅支持128个字符
Unicode：旨在包含所有语言字符的统一编码标准
UTF-8：Unicode的一种可变长度编码实现，兼容ASCII
GBK：主要用于简体中文的编码标准

在C++和Python交互时，最常见的编码问题是：

字符串在传递过程中被错误解码
中文字符显示为乱码
字符串长度计算错误
跨平台编码不一致

提示：始终明确你的字符串在内存中的实际编码格式，这是解决编码问题的第一步。

2. Pybind11中的字符串处理机制

Pybind11提供了多种字符串处理方式，我们需要根据具体场景选择最合适的方案。

2.1 基本字符串传递

最简单的字符串传递方式是直接使用std::string：

// C++端
m.def("greet", [](const std::string& name) {
    return "Hello, " + name;
});

# Python端
print(greet("世界"))  # 输出: Hello, 世界

这种简单方式在纯ASCII字符下工作良好，但处理非ASCII字符时可能出问题。

2.2 确保UTF-8编码

为了确保中文字符正确传递，我们需要显式处理UTF-8编码：

// 将宽字符串转换为UTF-8
std::string to_utf8(const std::wstring& str) {
    std::wstring_convert<std::codecvt_utf8<wchar_t>> converter;
    return converter.to_bytes(str);
}

// 将UTF-8转换为宽字符串
std::wstring from_utf8(const std::string& str) {
    std::wst