python - PYTHON 中的希腊语编码

标签 python encoding

我正在尝试存储一个字符串,然后在 python 中使用 nltk 对其进行标记。但我不明白为什么在对它进行标记后(它创建了一个列表)我看不到列表中的字符串。
任何人都可以帮助我吗?

这是代码:

#a="Γεια σου"
#b=nltk.word_tokenize(a)
#b
['\xc3\xe5\xe9\xe1', '\xf3\xef\xf5']

我只是希望能够定期看到列表的内容..

提前谢谢

最佳答案

您使用的是 Python 2,其中无前缀的引号表示一个字节而不是字符串(如果您不确定区别, read this )。要么切换到 Python 3,这已得到修复,要么使用 u 作为所有字符串的前缀。并打印字符串(而不是显示它们的 repr ,这在 Python 2.x 中有所不同):

>>> import nltk
>>> a = u'Γεια σου'
>>> b = nltk.word_tokenize(a)
>>> print(u'\n'.join(b))
Γεια
σου

关于python - PYTHON 中的希腊语编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13519004/

相关文章:

python - Django 模型,方法的@property 装饰器

python - 如何在 Python 中使用 JSONDecoder?只获取内部字典进行解码

python-2.7 - 将俄语字符串转换为日期时间

ruby - 如何解决 Puppet 的编码问题

java - 使用Java程序在cmd中打印阿尔巴尼亚语字符

algorithm - 有没有办法将超过 25 个字符的字符串存储为小于 25 个字符的十六进制字符串并使其可逆?

python - 使用 Python Elementtree 访问 XMLNS 属性?

python - 在 Python 中除大数

python - 如何在 matplotlib 中对条形图制作 3d 效果?

python - 将 Unicode 流重新编码为 Ascii 忽略错误