我知道 .encode('utf-8')
是必要的。
# -*- coding: utf-8 -*-
import urllib2
url = u'https://fr.wikipedia.org/wiki/Nîmes'
response = urllib2.urlopen(url.encode('utf-8'))
content = response.read().decode('utf-8')
print type(content)
但是如何避免 .decode('utf-8')
?毕竟,相关页面在 header 中正确声明了其编码。
最佳答案
您可以使用requests
:
# -*- coding: utf-8 -*-
import requests
url = u'https://fr.wikipedia.org/wiki/Nîmes'
response = requests.get(url)
content = response.content
text = response.text
assert type(content) == str
assert type(text) == unicode
关于python - 如何避免内容的显式解码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35783473/