我正在抓取一个网站,标题带有拉丁口音,例如:É、não 等...
这是我的代码:
for tank in response.xpath('//html/body/div/div[4]/div/div/div/table[1]/tr/td/div'):
item = VapeItem()
item["title"] = tank.xpath("h3/a/text()").extract()
以及 Json 输出示例:
{"title": "HALO CAF\u00c9 MOCHA"},
问题是:如何将其转换为这样显示?
{"title": "HALO CAFÉ MOCHA"},
我尝试过encode("utf8")但没有成功。
最佳答案
您可能只需要打印它?
>>> print json.loads(txt)['title']
HALO CAFÉ MOCHA
写入文件也同样有效,但这里并没有真正看到问题。
>>> parsed_data = json.loads('{"title": "HALO CAF\u00c9 MOCHA"}')
>>> with open('foo.txt', 'w') as fin:
... fin.write(parsed_data['title'].encode('utf-8'))
...
关于python - Scrapy - 如何转换输出中的 unicode?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33249664/