python - Lo 类别的基数

标签 python unicode

我正在尝试找出 Lo 等 Unicode 类别的基数。我似乎找不到这方面的权威信息。例如。 Fileformat.info维护此类别中有 11788 个字符的 View ，Codepoints.net低至 122，而 Python 的 unicodedata，即使限制在基本平面，也能提供高达 45301!:

In [219]: Lo=[unichr(c) for c in xrange(65536) 
              if unicodedata.category(unichr(c)) == 'Lo']

In [220]: len(Lo)
Out[220]: 45301

有人能给我指出一个可靠的来源来解决这个问题吗？!

编辑:

Python 代码段中 len(Lo) 的结果取决于 UCD 的版本使用，因此在Python版本上。我的结果是使用 UCD 版本 5.1 的 Python 2.6，对于相同的表达式，使用 UCD 5.2 的 Python 2.7 会产生 45877，而使用 UCD 6.0 的 Python 3.2 可能会产生另一个数字。

最佳答案

最终信息是 Unicode standard本身。特别是关于人物数据库的信息可以获取here它提供有关 Unicode 字符数据库的信息。当前标准有 11788 个 Lo 分类代码点。

关于python - Lo 类别的基数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11791804/

上一篇：Python正则表达式替换未用单引号括起来的字符串

下一篇：python - 用 python 更新我的字典

相关文章：

python - 手动假设日期 - 使用自己的假设更新日期

python - 为什么带有 shell=True 的 subprocess.Popen() 在 Linux 和 Windows 上的工作方式不同？

python - 如何在Python中从json填充QTableWidget

unicode - Unicode 中的横杆大写 I 字母

c++ - 在unicode c++中编码路径

c# - 将 Unicode 代理项对转换为文字字符串

python - 使用 CNN/LSTM/RNN 进行分类

python - 类型错误 : ("sort_values() got multiple values for argument ' axis '", ' occurred at index SUMLEV')

java - 在 Java 中打印数学符号给出错误的输出

python - 对 Python 的 `time.strftime()` 使用 Unicode 格式