让我先声明一下:我绝不是 Windows 程序员。请帮助我纠正我可能有的任何误解。
我的理解是,Windows 既有(传统的)单字节字符串接口(interface),也有现代化的 Unicode 接口(interface)。
我的目标是仔细检查 Windows 内核中实现的 cp1252。我将从 Windows XP 开始,但我计划检查尽可能多的版本。
我打算让这样一个程序的输出格式类似于:https://encoding.spec.whatwg.org/index-windows-1252.txt
我的问题主要是:我将使用哪些 Windows API 函数来完成上述任务?我认为是 mbstowcs_s .
其次:我必须写C才能检查相关接口(interface)吗?如果是这样,我会使用什么编译器?我认为 Visual Studio Express 2010 很适合,但我找不到任何(合法)下载它的地方。
对于那些必须知道 X 和 Y 的人来说,cp1252 有两个相互竞争的标准和实现。它们只是略有不同,但确实不同,这对我来说很重要。
WHATWG 指定,所有浏览器都执行此标准: https://encoding.spec.whatwg.org/index-windows-1252.txt
微软规定,python实现了这个标准: http://unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1252.TXT
区别在于五个不可打印的字符。在 Windows 规范中,它们是完全未定义的,因此这些字节不能通过 cp1252 来回传输。在 WHATWG 规范(和所有浏览器)中,这些字节映射到具有相同值的非打印字符,如在 latin1 中,这意味着这些字节可以通过 cp1252 成功往返。
我强烈怀疑 Microsoft 的实现实际上符合 WHATWG 规范和浏览器的实现,而不是他们发布的规范。这就是我在上面试图证明/反驳的内容。
最佳答案
在@abernert 的帮助下,我想到了这个。总之,正如我所怀疑的那样,Microsoft 的规范与他们的实现不匹配:
from ctypes import cdll, windll, c_char_p
c = cdll.msvcrt
k = windll.kernel32
LC_ALL = 0 # from locale.h
# reference: https://msdn.microsoft.com/en-US/library/x99tb11d.aspx
c.setlocale.restype = c_char_p
result = c.setlocale(LC_ALL, '.1252')
assert result == 'English_United States.1252', result
from ctypes import create_string_buffer
# cp1252 is classified as "multi-byte" by the msapi along with utf8
mb = create_string_buffer(1)
wc1 = create_string_buffer(2)
wc2 = create_string_buffer(2)
print 'IN | MSVC KERN'
print '---+-----------'
for b in range(0x80, 0xA0):
mb.value = chr(b)
# reference: https://msdn.microsoft.com/en-us/library/yk02bkxb.aspx
result = c.mbtowc(wc1, mb, 1)
assert result == 1, result
# reference:
# https://msdn.microsoft.com/en-us/library/windows/desktop/dd319072.aspx
result = k.MultiByteToWideChar(1252, 0, mb, 1, wc2, 1)
assert result == 1, result
print '%02X | %02X%02X %02X%02X' % (
ord(mb.value),
# little-endian:
ord(wc1.raw[1]), ord(wc1.raw[0]),
ord(wc2.raw[1]), ord(wc2.raw[0]),
)
输出:(在 Windows XP、Vista、7、8.1 上测试)
IN | MSVC KERN
---+-----------
80 | 20AC 20AC
81 | 0081 0081
82 | 201A 201A
83 | 0192 0192
84 | 201E 201E
85 | 2026 2026
86 | 2020 2020
87 | 2021 2021
88 | 02C6 02C6
89 | 2030 2030
8A | 0160 0160
8B | 2039 2039
8C | 0152 0152
8D | 008D 008D
8E | 017D 017D
8F | 008F 008F
90 | 0090 0090
91 | 2018 2018
92 | 2019 2019
93 | 201C 201C
94 | 201D 201D
95 | 2022 2022
96 | 2013 2013
97 | 2014 2014
98 | 02DC 02DC
99 | 2122 2122
9A | 0161 0161
9B | 203A 203A
9C | 0153 0153
9D | 009D 009D
9E | 017E 017E
9F | 0178 0178
将此与 Microsoft 在 unicode.org 注册的 the spec 进行比较:
0x80 0x20AC #EURO SIGN
0x81 #UNDEFINED
0x82 0x201A #SINGLE LOW-9 QUOTATION MARK
0x83 0x0192 #LATIN SMALL LETTER F WITH HOOK
0x84 0x201E #DOUBLE LOW-9 QUOTATION MARK
0x85 0x2026 #HORIZONTAL ELLIPSIS
0x86 0x2020 #DAGGER
0x87 0x2021 #DOUBLE DAGGER
0x88 0x02C6 #MODIFIER LETTER CIRCUMFLEX ACCENT
0x89 0x2030 #PER MILLE SIGN
0x8A 0x0160 #LATIN CAPITAL LETTER S WITH CARON
0x8B 0x2039 #SINGLE LEFT-POINTING ANGLE QUOTATION MARK
0x8C 0x0152 #LATIN CAPITAL LIGATURE OE
0x8D #UNDEFINED
0x8E 0x017D #LATIN CAPITAL LETTER Z WITH CARON
0x8F #UNDEFINED
0x90 #UNDEFINED
0x91 0x2018 #LEFT SINGLE QUOTATION MARK
0x92 0x2019 #RIGHT SINGLE QUOTATION MARK
0x93 0x201C #LEFT DOUBLE QUOTATION MARK
0x94 0x201D #RIGHT DOUBLE QUOTATION MARK
0x95 0x2022 #BULLET
0x96 0x2013 #EN DASH
0x97 0x2014 #EM DASH
0x98 0x02DC #SMALL TILDE
0x99 0x2122 #TRADE MARK SIGN
0x9A 0x0161 #LATIN SMALL LETTER S WITH CARON
0x9B 0x203A #SINGLE RIGHT-POINTING ANGLE QUOTATION MARK
0x9C 0x0153 #LATIN SMALL LIGATURE OE
0x9D #UNDEFINED
0x9E 0x017E #LATIN SMALL LETTER Z WITH CARON
0x9F 0x0178 #LATIN CAPITAL LETTER Y WITH DIAERESIS
我很清楚标记为 UNDEFINED
的插槽(字节 81 8D 8F 90 和 9D)不是未定义的,不是错误,而是解码为相同序号的不可打印字符,就像它们在 the WHATWG spec 中所做的那样,下面:
0 0x20AC € (EURO SIGN)
1 0x0081 (<control>)
2 0x201A ‚ (SINGLE LOW-9 QUOTATION MARK)
3 0x0192 ƒ (LATIN SMALL LETTER F WITH HOOK)
4 0x201E „ (DOUBLE LOW-9 QUOTATION MARK)
5 0x2026 … (HORIZONTAL ELLIPSIS)
6 0x2020 † (DAGGER)
7 0x2021 ‡ (DOUBLE DAGGER)
8 0x02C6 ˆ (MODIFIER LETTER CIRCUMFLEX ACCENT)
9 0x2030 ‰ (PER MILLE SIGN)
10 0x0160 Š (LATIN CAPITAL LETTER S WITH CARON)
11 0x2039 ‹ (SINGLE LEFT-POINTING ANGLE QUOTATION MARK)
12 0x0152 Œ (LATIN CAPITAL LIGATURE OE)
13 0x008D (<control>)
14 0x017D Ž (LATIN CAPITAL LETTER Z WITH CARON)
15 0x008F (<control>)
16 0x0090 (<control>)
17 0x2018 ‘ (LEFT SINGLE QUOTATION MARK)
18 0x2019 ’ (RIGHT SINGLE QUOTATION MARK)
19 0x201C “ (LEFT DOUBLE QUOTATION MARK)
20 0x201D ” (RIGHT DOUBLE QUOTATION MARK)
21 0x2022 • (BULLET)
22 0x2013 – (EN DASH)
23 0x2014 — (EM DASH)
24 0x02DC ˜ (SMALL TILDE)
25 0x2122 ™ (TRADE MARK SIGN)
26 0x0161 š (LATIN SMALL LETTER S WITH CARON)
27 0x203A › (SINGLE RIGHT-POINTING ANGLE QUOTATION MARK)
28 0x0153 œ (LATIN SMALL LIGATURE OE)
29 0x009D (<control>)
30 0x017E ž (LATIN SMALL LETTER Z WITH CARON)
31 0x0178 Ÿ (LATIN CAPITAL LETTER Y WITH DIAERESIS)
关于python - Windows:直接检查cp1252,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30084068/