python - 如何查看爬取的unicode阿拉伯字符串？

我使用Python爬取了一些网页。我撕掉了 html 标签，只将这些页面的一些内容存储为 repr(s)。这些页面大部分都不是英文的。现在如何以原始语言查看抓取的内容？

例如，爬虫仅将一行阿拉伯文本写入 txt 文件: 你'\u0639\u0644\u0649'

但是当我在文本编辑器或浏览器中打开txt文件时，它看起来与上面一模一样，所以它基本上不是人类可读的..

是否有一些简单的方法可以用阿拉伯语呈现和显示字符串？

谢谢

最佳答案

>>> x= u'\u0639\u0644\u0649'
>>> open('x.html','w').write(x.encode('ascii','xmlcharrefreplace'))

在浏览器中打开x.html，它应该正确显示。实际内容:

&#1593;&#1604;&#1609;

关于python - 如何查看爬取的unicode阿拉伯字符串？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5814324/

相关文章：

python - 更 retrofit 饰器内的实例属性