python - Unicode解码错误: 'utf8' codec can't decode byte - Euro Symbol

标签 python python-2.7 unicode character-encoding

我建立了与 Google Finance API 的连接,该 API 为我提供股票报价。一切都工作正常,直到我切换到欧洲的类(class)。这些包含 € 符号,我收到以下错误:

Traceback (most recent call last):
  File "C:\Users\Administrator\Desktop\getQuotes.py", line 32, in <module>
    quote = c.get("SAP","FRA")
  File "C:\Users\Administrator\Desktop\getQuotes.py", line 21, in get
    obj = json.loads(content[3:])
  File "C:\Python27\lib\json\__init__.py", line 338, in loads
    return _default_decoder.decode(s)
  File "C:\Python27\lib\json\decoder.py", line 365, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "C:\Python27\lib\json\decoder.py", line 381, in raw_decode
    obj, end = self.scan_once(s, idx)
UnicodeDecodeError: 'utf8' codec can't decode byte 0x80 in position 0: invalid start byte

以下是我正在使用的代码。我猜想当 json 尝试处理字符串时出现错误,但他无法解析欧元符号:

import urllib2
import json
import time

class GoogleFinanceAPI:
    def __init__(self):
        self.prefix = "http://finance.google.com/finance/info?client=ig&q="

    def get(self,symbol,exchange):
        url = self.prefix+"%s:%s"%(exchange,symbol)
        u = urllib2.urlopen(url)
        content = u.read()

        obj = json.loads(content[3:])
        return obj[0]


if __name__ == "__main__":
    c = GoogleFinanceAPI()

    while 1:
        quote = c.get("MSFT","NASDAQ")
        print quote
        time.sleep(30)

这就是 Google Finance 为我提供包含欧元符号的 SAP 股票输出的方式:

// [ { "id": "8424920" ,"t" : "SAP" ,"e" : "FRA" ,"l" : "56.51" ,"l_cur" : "€56.51" ,"s": "0" ,"ltt":"8:00PM GMT+2" ,"lt" : "Aug 7, 8:00PM GMT+2" ,"c" : "-0.47" ,"cp" : "-0.82" ,"ccol" : "chr" } ]

我尝试使用这个函数而不是 opener (content[3:]) 部分,但是我得到了同样的错误,而且我得到了一个 ascii 错误而不是 utf-8。

json.loads(unicode(opener.open(...), "ISO-8859-15"))

如果有人有想法,我会很高兴。

最佳答案

您正在获取的文档似乎是使用 Windows 代码页 1252 进行编码的,其中欧元符号字符编码为 \x80。这是 UTF-8 中的无效字节,也是所有 ISO-8859 变体中的非打印控制字符。尝试:

obj = json.loads(content[3:], 'cp1252')

关于python - Unicode解码错误: 'utf8' codec can't decode byte - Euro Symbol,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18115997/

相关文章:

python-2.7 - 创建 ec2 实例并添加新的和现有的安全组

css - 在 CSS 内容值中放置 Unicode 字符

java - 使用 java Runtime.exec 的 Windows xcopy 不适用于带有中文字符的文件名

python - 获取Python中第一个不可打印字符的索引

python - 如何以列形式将字典保存在 csv 中,其中第一行是键,下一行是向量?

python - 保持具有最大重叠的相似行 Pandas 数据框

python - 按下按钮时 Tkinter GUI : Adding new entry boxes using . grid()

c++ - Anaconda Python2.7 在Windows 7 上编译包报错

Python在带有非ascii字符或不带有非ascii字符的unicode变量中进行解码

python - 将 sympy 中的变量定义为 CONSTANT