看下面的片段:
>>> import unicodedata
>>> from unicodedata import normalize, name
>>> normalize('NFKD', u'\xb4')
u' \u0301'
>>> normalize('NFKD', u'a\xb4a')
u'a \u0301a'
>>> normalize('NFKC', u'a\xb4a')
u'a \u0301a'
>>> name(u'\xb4'), name(u'\u0301')
('ACUTE ACCENT', 'COMBINING ACUTE ACCENT')
我试图了解将 u'\xb4'
转换为 u'\u0301'
的行为是否正确。为什么它用空格填充组合的尖音符?为什么它会翻译 u\xb4
?
在 fileformat我们看到 ACUTE ACCENT
曾经被称为 SPACING ACUTE
。我想,这只是意味着光标应该移动而不是等待输入以下字符。
UPD:如果有人感兴趣,这里是一个列表,如果 NFKC 标准化后的 unicode 字符在开头有一个空格:http://pastebin.com/Z99r5AK9
最佳答案
重音字符是空格和组合重音字符的组合,如 Unicode 标准中所指定:
>>> import unicodedata
>>> unicodedata.decomposition(u'\xb4')
'<compat> 0020 0301'
\u00B4
字符的历史有点模棱两可,但 Unicode 标准已决定将其视为空格 + 重音符号,尽管它经常被用作变音符号,参见 this discussion .
你或许可以使用 \u02CA
作为备选;它不被视为空格,也没有指定分解。它被限定为一封信,因此您的里程数可能会有所不同。
关于Python unicode规范化: is it correct to translate u'\xb 4' to u' \u0301',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13954852/