python - 如何查看爬取的unicode阿拉伯字符串?

标签 python unicode web-crawler

我使用Python爬取了一些网页。我撕掉了 html 标签,只将这些页面的一些内容存储为 repr(s)。这些页面大部分都不是英文的。现在如何以原始语言查看抓取的内容?

例如,爬虫仅将一行阿拉伯文本写入 txt 文件: 你'\u0639\u0644\u0649'

但是当我在文本编辑器或浏览器中打开txt文件时,它看起来与上面一模一样,所以它基本上不是人类可读的..

是否有一些简单的方法可以用阿拉伯语呈现和显示字符串?

谢谢

最佳答案

>>> x= u'\u0639\u0644\u0649'
>>> open('x.html','w').write(x.encode('ascii','xmlcharrefreplace'))

在浏览器中打开x.html,它应该正确显示。实际内容:

على

关于python - 如何查看爬取的unicode阿拉伯字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5814324/

相关文章:

python - 更 retrofit 饰器内的实例属性

Python 无效的格式字符串

php - 如何在 PHP 中将 Unicode NCR 形式转换为其原始形式?

macos - emacsclient 中的非拉丁语输入

html - 禁止打开和抓取 HTML 文件

python - 声明一个 SymPy 符号非零

python - 如何在 pyspark 中并行下载大量 URL 列表?

php - 从字符串中删除非文本字符(如表情符号)

python - 如何在python爬虫中保存存储(常用字符串)

python - 使用Scrapy创建蜘蛛,蜘蛛生成错误