string,wstring,u16string,u32string相互转换

最新推荐文章于 2024-01-20 11:14:29 发布

原创最新推荐文章于 2024-01-20 11:14:29 发布 · 1.3w 阅读

17 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#类型转换 #字符编码

杂专栏收录该内容

5 篇文章

订阅专栏

本文详细介绍了C++中不同字符编码格式之间的转换方法，包括从UTF-8到UTF-16、UTF-32以及宽字符编码的转换，并提供了具体的代码实现。

1.各种编码格式

参考：

针对C++中文会乱码的问题

1.各种编码格式

中文操作系统默认ansi编码

不同的国家和地区制定了不同的标准，由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文Windows操作系统中，ANSI 编码代表 GBK 编码；在繁体中文Windows操作系统中，ANSI编码代表Big5；在日文Windows操作系统中，ANSI 编码代表 Shift_JIS 编码。

ANSI编码表示英文字符时用一个字节，表示中文用两个或四个字节。

unicode是国际通用编码

每个字母或汉字都是两个字节

utf-8编码是unicode编码在网络之间（主要是网页）传输时的一种“变通”和“桥梁”编码。

英文字母为一个字节，中文为三个字节，处理中文很不方便，将string转为u16string则每个字母或汉字为两个字节，处理起来比较方便。

#include <string>
#include <codecvt>
#include <locale>
#include <iostream>
 
std::u16string to_utf16( std::string str ) // utf-8 to utf16
{ return std::wstring_convert< std::codecvt_utf8_utf16<char16_t>, char16_t >{}.from_bytes(str); }
 
std::string to_utf8( std::u16string str16 )
{ return std::wstring_convert< std::codecvt_utf8_utf16<char16_t>, char16_t >{}.to_bytes(str16); }
 
std::u32string to_utf32( std::string str )
{ return std::wstring_convert< std::codecvt_utf8<char32_t>, char32_t >{}.from_bytes(str); }
 
std::string to_utf8( std::u32string str32 )
{ return std::wstring_convert< std::codecvt_utf8<char32_t>, char32_t >{}.to_bytes(str32); }
 
std::wstring to_wchar_t( std::string str )
{ return std::wstring_convert< std::codecvt_utf8<wchar_t>, wchar_t >{}.from_bytes(str); }
 
std::string to_utf8( std::wstring wstr )
{ return std::wstring_convert< std::codecvt_utf8<wchar_t>, wchar_t >{}.to_bytes(wstr); }
 
int main()
{
    const std::string utf8 = "hello world!\n" ;
 
    const std::u16string utf16 = to_utf16( utf8 ) ;
    std::cout << to_utf8(utf16) ;
 
    const std::u32string utf32 = to_utf32( utf8 ) ;
    std::cout << to_utf8(utf32) ;
    
    const std::wstring wstr = to_wchar_t(utf8) ;
    std::wcout << wstr ;
    std::cout << to_utf8(wstr) << "---------------------\n" ;
}