发现了微软 UCRT 的一个BUG

原创已于 2022-09-28 13:17:25 修改 · 258 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#c++ #mvc

于 2022-09-28 11:53:47 首次发布

本文发现并分析了微软UCRT中_wsetlocale函数的一个BUG，该BUG会导致形如zh-Hans-CN.abc-8的参数被错误地解析为UTF-8。问题出现在C:ProgramFiles(x86)WindowsKits10Source10.0.22621.0ucrtlocalewsetlocale.cpp文件的函数_expandlocale中，通过修改逻辑运算符的优先级可以修复此问题。

@UCRT 的一个 BUG

发现了微软 UCRT 的一个BUG

_wsetlocale 会接收形如 zh-Hans-CN.abc-8 的参数，其中 abc-8 会被解析成 utf-8，其原因在于 C:\Program Files (x86)\Windows Kits\10\Source\10.0.22621.0\ucrt\locale\wsetlocale.cpp 文件的函数_expandlocale 中，第 1268、1269 行的判断语句中少了一对括号。函数的代码片段如下：

// Allow .utf8/.utf-8 for BCP-47 tags.
                if (   __ascii_towlower(cp[0]) == L'u'
                    && __ascii_towlower(cp[1]) == L't'
                    && __ascii_towlower(cp[2]) == L'f'
                    &&     (cp[3] == L'8' && cp[4] == L'\0')
                        || (cp[3] == L'-' && cp[4] == L'8' && cp[5] == L'\0'))
                {
                    iCodePage = CP_UTF8;
                }

后面的 || 应该用括号括起来，改成下面这样：

// Allow .utf8/.utf-8 for BCP-47 tags.
                if (   __ascii_towlower(cp[0]) == L'u'
                    && __ascii_towlower(cp[1]) == L't'
                    && __ascii_towlower(cp[2]) == L'f'
                    &&    ( (cp[3] == L'8' && cp[4] == L'\0')
                        || (cp[3] == L'-' && cp[4] == L'8' && cp[5] == L'\0')) )
                {
                    iCodePage = CP_UTF8;
                }

在改动之前，代码页只要是以 -8 结尾的长度为 5 的字符串，就会被识别成 CP_UTF8。