目录
针对C++中文会乱码的问题
1.各种编码格式
- 中文操作系统默认ansi编码
不同的国家和地区制定了不同的标准,由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码。在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码;在繁体中文Windows操作系统中,ANSI编码代表Big5;在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码。
ANSI编码表示英文字符时用一个字节,表示中文用两个或四个字节。
- unicode是国际通用编码
每个字母或汉字都是两个字节
- utf-8编码是unicode编码在网络之间(主要是网页)传输时的一种“变通”和“桥梁”编码。
英文字母为一个字节,中文为三个字节,处理中文很不方便,将string转为u16string则每个字母或汉字为两个字节,处理起来比较方便。
#include <string>
#include <codecvt>
#include <locale>
#include <iostream>
std::u16string to_utf16( std::string str ) // utf-8 to utf16
{ return std::wstring_convert< std::codecvt_utf8_utf16<char16_t>, char16_t >{}.from_bytes(str); }
std::string to_utf8( std::u16string str16 )
{ return std::wstring_convert< std::codecvt_utf8_utf16<char16_t>, char16_t >{}.to_bytes(str16); }
std::u32string to_utf32( std::string str )
{ return std::wstring_convert< std::codecvt_utf8<char32_t>, char32_t >{}.from_bytes(str); }
std::string to_utf8( std::u32string str32 )
{ return std::wstring_convert< std::codecvt_utf8<char32_t>, char32_t >{}.to_bytes(str32); }
std::wstring to_wchar_t( std::string str )
{ return std::wstring_convert< std::codecvt_utf8<wchar_t>, wchar_t >{}.from_bytes(str); }
std::string to_utf8( std::wstring wstr )
{ return std::wstring_convert< std::codecvt_utf8<wchar_t>, wchar_t >{}.to_bytes(wstr); }
int main()
{
const std::string utf8 = "hello world!\n" ;
const std::u16string utf16 = to_utf16( utf8 ) ;
std::cout << to_utf8(utf16) ;
const std::u32string utf32 = to_utf32( utf8 ) ;
std::cout << to_utf8(utf32) ;
const std::wstring wstr = to_wchar_t(utf8) ;
std::wcout << wstr ;
std::cout << to_utf8(wstr) << "---------------------\n" ;
}
本文详细介绍了C++中不同字符编码格式之间的转换方法,包括从UTF-8到UTF-16、UTF-32以及宽字符编码的转换,并提供了具体的代码实现。

451

被折叠的 条评论
为什么被折叠?



