python - Scrapy 返回 unicode - 如何转换为字符串?

标签 python web-scraping scrapy

当我使用 scrapy shell 向 url 发出请求时,我得到了这样的结果:

In [6]: sel.xpath("//div[@class='my_class']").extract()
 [u'<div class="my_class"><ul><li class="parent">\n<a href="/category/tractors-ride-on-mowers/">\n\u0422\u0420\u0410\u041a\u0422\u041e\u0420\u042b \u0438 \u0420\u0410\u0419\u0414\u0415\u0420\u042b</a>\n<div class="sub1"><div class="str"></div><ul><li><a href="/category/lawn-tractors/" class="">\u0421\u0430\u0434\u043e\u0432\u044b\u0435 \u0442\u0440\u0430\u043a\u0442\u043e\u0440\u04....

如何将其转换为可读字符串?

最佳答案

一旦您将其打印(或将其写入文件),它将是可读的

>>> u = u'<div class="my_class"><ul><li class="parent">\n<a href="/category/tractors-ride-on-mowers/">\n\u0422\u0420\u0410\u041a\u0422\u041e\u0420\u042b \u0438 \u0420\u0410\u0419\u0414\u0415\u0420\u042b</a>\n<div class="sub1"><div class="str"></div><ul><li><a href="/category/lawn-tractors/" class="">\u0421\u0430\u0434\u043e\u0432\u044b\u0435 \u0442\u0440\u0430\u043a\u0442\u043e\u0440'
>>> print (u)
<div class="my_class"><ul><li class="parent">
<a href="/category/tractors-ride-on-mowers/">
ТРАКТОРЫ и РАЙДЕРЫ</a>
<div class="sub1"><div class="str"></div><ul><li><a href="/category/lawn-tractors/" class="">Садовые трактор
>>> 

关于python - Scrapy 返回 unicode - 如何转换为字符串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29211055/

相关文章:

python - 为什么 Matplotlib 的 PdfPages 将选项卡打印为框(字体编码)?

python - 无法使用 scrapy 抓取结果列表上的数据

python - 使用 python scrapy 提取作为表一部分的 div 标签条目

python - 将 PyInstaller 用于 Matplotlib 脚本后出错

Python 3.5 While 循环不进入 If 语句

python - 如何在 Python 中加入列表中的特定键?

python - 如何从通过 javascript 注入(inject)的视频标签中抓取视频 src url?

objective-c - 如何从 iOS 的 JavaScript 页面抓取数据?

javascript - 需要一些使用 CasperJS 进行抓取的帮助

python - Scrapy 警告禁用 HttpCacheMiddleware