我有:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
from urllib2 import urlopen
page2 = urlopen('http://pogoda.yandex.ru/moscow/').read().decode('utf-8')
page = urlopen('http://yasko.by/').read().decode('utf-8')
在“page ...”行中,我有错误“UnicodeDecodeError:'utf8'编解码器无法解码位置32中的字节0xc3:无效的连续字节”,但在“page2 ...”行中,错误不是,为什么?
从yasko.by中的32位置开始西里尔字母符号,我如何正确地得到它?
谢谢!
最佳答案
http://yasko.by/的内容使用 windows-1251
进行编码,而 http://pogoda.yandex.ru/moscow/ 的内容使用 utf-8
编码。
page = ..
行应变为:
page = urlopen('http://yasko.by/').read().decode('windows-1251')
关于Python 2.7,解码问题 ('utf-8' ),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19910502/