python - 使用 NumPy loadtxt/savetxt 指定编码

标签 python python-3.x numpy encoding utf-8

使用 NumPy loadtxtsavetxt只要涉及非 ASCII 字符,函数就会失败。这些函数主要用于数字数据,但也支持字母数字页眉/页脚。

两者loadtxtsavetxt似乎正在应用 latin-1 编码,我发现它与 Python 3 的其余部分非常正交,Python 3 完全支持 unicode,并且似乎总是使用 utf-8 作为默认编码。

鉴于 NumPy 尚未将默认编码改为 utf-8,我至少可以通过某些实现的函数/属性或已知的 hack 将编码从 latin-1 更改为 loadtxt/savetxt或者整个 NumPy ?

这在 Python 2 中是不可能的,这是可以原谅的,但在使用 Python 3 时,这确实不应该成为问题。我发现使用 Python 3.x 和最新版本的 NumPy 的任意组合都会出现问题。

示例代码

考虑文件data.txt与内容

# This is π
3.14159265359

尝试加载此内容

import numpy as np
pi = np.loadtxt('data.txt')
print(pi)

失败并显示 UnicodeEncodeError异常,指出 latin-1 编解码器无法对字符 ' \u03c0 进行编码'(π 字符)。

这令人沮丧,因为 π仅出现在注释/标题行中,因此没有理由 loadtxt甚至尝试对这个字符进行编码。

我可以通过使用 pi = np.loadtxt('data.txt', skiprows=1) 显式跳过第一行来成功读取文件。 ,但是必须知道标题行的确切数量很不方便。

如果我尝试使用 savetxt 写入 unicode 字符,则会引发相同的异常。 :

np.savetxt('data.txt', [3.14159265359], header='# This is π')

要成功完成此任务,我首先必须通过其他方式写入 header ,然后将数据保存到使用'a+b'打开的文件对象中。模式,例如

with open('data.txt', 'w') as f:
    f.write('# This is π\n')
with open('data.txt', 'a+b') as f:
    np.savetxt(f, [3.14159265359])

不用说,这既丑陋又不方便。

解决方案

我选择了 hpaulj 的解决方案,我认为完整地阐明它会很好。我现在正在接近我的程序的顶部

import numpy as np

asbytes = lambda s: s if isinstance(s, bytes) else str(s).encode('utf-8')
asstr = lambda s: s.decode('utf-8') if isinstance(s, bytes) else str(s)
np.compat.py3k.asbytes = asbytes
np.compat.py3k.asstr = asstr
np.compat.py3k.asunicode = asstr
np.lib.npyio.asbytes = asbytes
np.lib.npyio.asstr = asstr
np.lib.npyio.asunicode = asstr

之后np.loadtxtnp.savetxt正确处理 Unicode。

请注意,对于较新版本的 NumPy(我可以确认 1.14.3,但也确实有些旧版本)不需要此技巧,因为现在默认情况下似乎可以正确处理 Unicode。

最佳答案

至少对于 savetxt 来说,编码是在

中处理的
Signature: np.lib.npyio.asbytes(s)
Source:   
    def asbytes(s):
        if isinstance(s, bytes):
            return s
        return str(s).encode('latin1')
File:      /usr/local/lib/python3.5/dist-packages/numpy/compat/py3k.py
Type:      function

Signature: np.lib.npyio.asstr(s)
Source:   
    def asstr(s):
        if isinstance(s, bytes):
            return s.decode('latin1')
        return str(s)
File:      /usr/local/lib/python3.5/dist-packages/numpy/compat/py3k.py
Type:      function

header 写入 wb 文件中

        header = header.replace('\n', '\n' + comments)
        fh.write(asbytes(comments + header + newline))

Write numpy unicode array to a text file有我之前的一些探索。在那里,我关注的是数据中的字符,而不是标题。

关于python - 使用 NumPy loadtxt/savetxt 指定编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41528192/

相关文章:

python - 使用 numpy(快速)计算平均栅格值

python - 是否有可能让 wit.ai 机器人记住/重用故事中的上下文?

python - 在 python 中处理坐标的最合适的变量类型

python - sqlalchemy 一对多加入 Flask 应用程序以获得最大日期

python - 如何在给定时间间隙的情况下创建基于时间阈值的列?

python-3.x - 如何从 Azure 函数应用发送电子邮件?

python - 如何延长箭头? (以及模块中的类似类)

Python - 索贝尔 x 导数

python - 如何通过Python API获取OpenStack中VM实例的运行时间?

python - Pandas 数据框中值的矢量化查找