Python pickle : fix\r characters before loading

标签 python carriage-return pickle

我得到了一个 pickled 对象(其中包含一些 numpy 数组的列表),它是在 Windows 上创建的,显然保存到一个以文本形式加载的文件中,而不是二进制模式(即 open(filename, ' w') 而不是 open(filename, 'wb'))。结果是现在我无法解开它(甚至在 Windows 上也不能),因为它感染了 \r 字符(可能更多)?主要的提示是

ImportError: No module named multiarray

据说是因为它正在寻找 numpy.core.multiarray\r,这当然不存在。简单地删除 \r 字符并没有解决问题(尝试了 sed -e 's/\r//g' 和在 python s = file.read().replace('\r', ''),但两者都会破坏文件并稍后产生 cPickle.UnpicklingError)

问题是我确实需要从对象中获取数据。对如何修复文件有任何想法吗?

编辑:根据要求,我文件的前几百个字节,八进制:

\x80\x02]q\x01(}q\x02(U\r\ntotal_timeq\x03G?\x90\x15r\xc9(s\x00U\rreaction_timeq\x04NU\x0ejump_directionq\x05cnumpy.core.multiarray\r\nscalar\r\nq\x06cnumpy\r\ndtype\r\nq\x07U\x02f8K\x00K\x01\x87Rq\x08(K\x03U\x01<NNNJ\xff\xff\xff\xffJ\xff\xff\xff\xffK\x00tbU\x08\x025\x9d\x13\xfc#\xc8?\x86Rq\tU\x14normalised_directionq\r\nh\x06h\x08U\x08\xf0\xf9,\x0eA\x18\xf8?\x86Rq\x0bU\rjump_distanceq\x0ch\x06h\x08U\x08\x13\x14\xea&\xb0\x9b\x1a@\x86Rq\rU\x04jumpq\x0ecnumpy.core.multiarray\r\n_reconstruct\r\nq\x0fcnumpy\r\nndarray\r\nq\x10K\x00\x85U\x01b\x87Rq\x11(K\x01K\x02\x85h\x08\x89U\x10\x87\x16\xdaEG\xf4\xf3?\x06`OC\xe7"\x1a@tbU\x0emovement_speedq\x12h\x06h\x08U\x08\\p\xf5[2\xc2\xef?\x86Rq\x13U\x0ctrial_lengthq\x14G@\t\x98\x87\xf8\x1a\xb4\xbaU\tconditionq\x15U\x0bhigh_mentalq\x16U\x07subjectq\x17K\x02U\x12movement_directionq\x18h\x06h\x08U\x08\xde\x06\xcf\x1c50\xfd?\x86Rq\x19U\x08positionq\x1ah\x0fh\x10K\x00\x85U\x01b\x87Rq\x1b(K\x01K\x02\x85h\x08\x89U\x10K\xb7\xb4\x07q=\x1e\xc0\xf2\xc2YI\xb7U&\xc0tbU\x04typeq\x1ch\x0eU\x08movementq\x1dh\x0fh\x10K\x00\x85U\x01b\x87Rq\x1e(K\x01K\x02\x85h\x08\x89U\x10\xad8\x9c9\x10\xb5\xee\xbf\xffa\xa2hWR\xcf?tbu}q\x1f(h\x03G@\t\xba\xbc\xb8\xad\xc8\x14h\x04G?\xd9\x99%]\xadV\x00h\x05h\x06h\x08U\x08\xe3X\xa9=\xc1\xb1\xeb?\x86Rq h\r\nh\x06h\x08U\x08\x88\xf7\xb9\xc1\t\xd6\xff?\x86Rq!h\x0ch\x06h\x08U\x08v\x7f\xeb\x11\xea5\r@\x86Rq"h\x0eh\x0fh\x10K\x00\x85U\x01b\x87Rq#(K\x01K\x02\x85h\x08\x89U\x10\xcd\xd9\x92\x9a\x94=\x06@]C\xaf\xef\xeb\xef\x02@tbh\x12h\x06h\x08U\x08-\x9c&\x185\xfd\xef?\x86Rq$h\x14G@\r\xb8W\xb2`V\xach\x15h\x16h\x17K\x02h\x18h\x06h\x08U\x08\x8e\x87\xd1\xc2

您还可以下载 whole file (22k).

最佳答案

假设该文件是使用默认的 protocol=0 ASCII 兼容方法创建的,您应该能够使用 open('pickled_file', 'rU') 将其加载到任何地方,即通用换行符.

如果这不起作用,请显示前几百个字节:print repr(open('pickled_file', 'rb').read(200)) 并将结果粘贴到编辑您的问题。

文件内容发布后

更新:

您的文件以'\x80\x02'开头;它与最新/最好的协议(protocol) 2 一起被丢弃。协议(protocol) 1 和 2 是二进制协议(protocol)。您的文件是在 Windows 上以文本模式编写的。这导致每个 '\n' 都被 C 运行时转换为 '\r\n'。文件应该像这样以二进制模式打开:

with open('result.pickle', 'wb') as f: # b for binary
    pickle.dump(obj, f, pickle.HIGHEST_PROTOCOL)

with open('result.pickle', 'rb') as f: # b for binary
    obj = pickle.load(f)

文档是 here .此代码可移植地运行在 Windows 和非 Windows 系统上。

您可以通过以二进制模式读取文件来恢复原始 pickle 图像,然后通过将所有出现的 '\r\n' 替换为 '\n'。注意:无论您是否尝试在 Windows 上阅读它,此恢复过程都是必要的。

关于Python pickle : fix\r characters before loading,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8527241/

相关文章:

python - 将 Pandas DataFrame 作为 Pickle 写入 S3

python-3.x - 加载 pkl(使用 joblib 或 pickle)生成 keyerror 120

python - Django 装置 : Cannot assign data to textfield using json file

python - 在谷歌财经中搜索股票代码

bash - 为什么 shell 脚本在其他地方运行相同的代码时会出现语法错误?

vim - 将 ^M (Windows) 换行符转换为普通换行符

python - 了解 Python Pickle 的不安全性

python - Django管理页面:通过多个模型选择而不是原始文本来自定义ID的字典(JSONField)

python - 使用嵌套列表/嵌套循环

actionscript-3 - AS3 TextField-将值设置为“”时不需要回车