我使用Python爬取了一些网页。我撕掉了 html 标签,只将这些页面的一些内容存储为 repr(s)。这些页面大部分都不是英文的。现在如何以原始语言查看抓取的内容?
例如,爬虫仅将一行阿拉伯文本写入 txt 文件: 你'\u0639\u0644\u0649'
但是当我在文本编辑器或浏览器中打开txt文件时,它看起来与上面一模一样,所以它基本上不是人类可读的..
是否有一些简单的方法可以用阿拉伯语呈现和显示字符串?
谢谢
最佳答案
>>> x= u'\u0639\u0644\u0649'
>>> open('x.html','w').write(x.encode('ascii','xmlcharrefreplace'))
在浏览器中打开x.html
,它应该正确显示。实际内容:
على
关于python - 如何查看爬取的unicode阿拉伯字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5814324/