发现了微软 UCRT 的一个BUG

本文发现并分析了微软UCRT中_wsetlocale函数的一个BUG,该BUG会导致形如zh-Hans-CN.abc-8的参数被错误地解析为UTF-8。问题出现在C:ProgramFiles(x86)WindowsKits10Source10.0.22621.0ucrtlocalewsetlocale.cpp文件的函数_expandlocale中,通过修改逻辑运算符的优先级可以修复此问题。

@UCRT 的一个 BUG

发现了微软 UCRT 的一个BUG

_wsetlocale 会接收形如 zh-Hans-CN.abc-8 的参数,其中 abc-8 会被解析成 utf-8,其原因在于 C:\Program Files (x86)\Windows Kits\10\Source\10.0.22621.0\ucrt\locale\wsetlocale.cpp 文件的函数_expandlocale 中,第 1268、1269 行 的判断语句中少了一对括号。函数的代码片段如下:

// Allow .utf8/.utf-8 for BCP-47 tags.
                if (   __ascii_towlower(cp[0]) == L'u'
                    && __ascii_towlower(cp[1]) == L't'
                    && __ascii_towlower(cp[2]) == L'f'
                    &&     (cp[3] == L'8' && cp[4] == L'\0')
                        || (cp[3] == L'-' && cp[4] == L'8' && cp[5] == L'\0'))
                {
                    iCodePage = CP_UTF8;
                }

后面的 || 应该用括号括起来,改成下面这样:

// Allow .utf8/.utf-8 for BCP-47 tags.
                if (   __ascii_towlower(cp[0]) == L'u'
                    && __ascii_towlower(cp[1]) == L't'
                    && __ascii_towlower(cp[2]) == L'f'
                    &&    ( (cp[3] == L'8' && cp[4] == L'\0')
                        || (cp[3] == L'-' && cp[4] == L'8' && cp[5] == L'\0')) )
                {
                    iCodePage = CP_UTF8;
                }

在改动之前,代码页只要是以 -8 结尾的长度为 5 的字符串,就会被识别成 CP_UTF8。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dowhileprogramming

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值