python - 标识符中的Unicode下标和上标，为什么Python认为XU == Xᵘ == Xᵤ？

标签 python unicode syntax identifier

Python 允许 unicode 标识符。我定义了 Xᵘ = 42，期望 XU 和 Xᵤ 导致 NameError。但实际上，当我定义 Xᵘ 时，Python(默默地？)将 Xᵘ 转换为 Xu，这让我觉得有点不符合 pythonic做。为什么会这样？

>>> Xᵘ = 42
>>> print((Xu, Xᵘ, Xᵤ))
(42, 42, 42)

最佳答案

Python 将所有标识符转换为它们的 NFKC normal form ;来自 Identifiers section引用文档:

All identifiers are converted into the normal form NFKC while parsing; comparison of identifiers is based on NFKC.

上标和下标字符的 NFKC 形式都是小写的 u:

>>> import unicodedata
>>> unicodedata.normalize('NFKC', 'Xᵘ Xᵤ')
'Xu Xu'

所以最后，您只有一个标识符，Xu:

>>> import dis
>>> dis.dis(compile('Xᵘ = 42\nprint((Xu, Xᵘ, Xᵤ))', '', 'exec'))
  1           0 LOAD_CONST               0 (42)
              2 STORE_NAME               0 (Xu)

  2           4 LOAD_NAME                1 (print)
              6 LOAD_NAME                0 (Xu)
              8 LOAD_NAME                0 (Xu)
             10 LOAD_NAME                0 (Xu)
             12 BUILD_TUPLE              3
             14 CALL_FUNCTION            1
             16 POP_TOP
             18 LOAD_CONST               1 (None)
             20 RETURN_VALUE

上面对编译后的字节码进行反汇编表明，标识符在编译时已经规范化；这发生在解析期间，在创建编译器用来生成字节码的 AST(抽象解析树)时，任何标识符都会被规范化。

标识符被规范化以避免许多潜在的“相似”错误，否则您最终可能会同时使用 find()(使用 U+FB01 LATIN SMALL LIGATURE FI 字符后跟 ASCII nd 个字符)和 find() 并想知道为什么您的代码有错误。

关于python - 标识符中的Unicode下标和上标，为什么Python认为XU == Xᵘ == Xᵤ？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48404881/

上一篇：python - 如何使用 Regex 使用 Python 查找按字母顺序排列的字符串？

下一篇：python - 为 solve_ivp 传递参数(新的 SciPy ODE API)

PHP解码和编码带有unicode字符的json

javascript - 为什么 `function() {{`在JS中是合法的？

c - 如何开始使用 C 语言的 ICU

python - 在 django admin 上使用 list_editable 时不显示文本字段

Python spaCy - 参数 'string' 的类型不正确(预期为 str，得到 DataFrame)

python - 安装不同版本的python包并通过shell命令访问？

python while 循环

javascript - jquery 函数在引号中的单个空格后工作

python - 调试pymc概率计算