我正在尝试找出 Lo
等 Unicode 类别的基数。我似乎找不到这方面的权威信息。例如。 Fileformat.info维护此类别中有 11788
个字符的 View ,Codepoints.net低至 122
,而 Python 的 unicodedata
,即使限制在基本平面,也能提供高达 45301
!:
In [219]: Lo=[unichr(c) for c in xrange(65536)
if unicodedata.category(unichr(c)) == 'Lo']
In [220]: len(Lo)
Out[220]: 45301
有人能给我指出一个可靠的来源来解决这个问题吗?!
编辑:
Python 代码段中 len(Lo)
的结果取决于 UCD 的版本使用,因此在Python版本上。我的结果是使用 UCD 版本 5.1 的 Python 2.6,对于相同的表达式,使用 UCD 5.2 的 Python 2.7 会产生 45877
,而使用 UCD 6.0 的 Python 3.2 可能会产生另一个数字。
最佳答案
最终信息是 Unicode standard本身。特别是关于人物数据库的信息可以获取here它提供有关 Unicode 字符数据库的信息。当前标准有 11788 个 Lo 分类代码点。
关于python - Lo 类别的基数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11791804/