python - NumPy 的 loadtxt : ValueError: Wrong number of columns

标签 python python-3.x pandas numpy

文件 TEST.txt 的结构如下:

a   45
b   45  55
c   66

当我尝试打开它时:

import numpy as np
a= np.loadtxt(r'TEST.txt',delimiter='\t',dtype=str)

我遇到了以下错误:

ValueError: Wrong number of columns at line 2

这显然是因为第二行有三列而不是两列,但我无法使用文档找到我的问题的答案。

无论如何我可以修复它,将所有数据保存到一个数组中吗?

在 Matlab 中我可以做这样的事情:

a=textscan(fopen('TEST.txt'),'%s%s%s');

Python 中类似的东西会受到赞赏。

最佳答案

试试 np.genfromtxt。它处理缺失值; loadtxt 没有。比较他们的文档。

当分隔符是空格时,缺失值可能会很棘手,但使用制表符应该没问题。如果还有问题,用,分隔符测试一下。

哎呀 - 你还需要额外的分隔符

例如。

a, 34, 
b, 43, 34
c, 34

loadtxtgenfromtxt 都接受任何逐行传递 txt 的可迭代对象。因此,一个简单的事情是 readlines,调整具有缺失值和分隔符的行,并将该行列表传递给加载程序。或者你可以把它写成一个“过滤器”或生成器。这种方法已在之前的许多 SO 问题中进行了描述。

In [36]: txt=b"""a\t45\t\nb\t45\t55\nc\t66\t""".splitlines()
In [37]: txt
Out[37]: [b'a\t45\t', b'b\t45\t55', b'c\t66\t']
In [38]: np.genfromtxt(txt,delimiter='\t',dtype=str)
Out[38]: 
array([['a', '45', ''],
       ['b', '45', '55'],
       ['c', '66', '']], 
      dtype='<U2')

我使用的是 Python3,因此字节字符串标有“b”(用于婴儿和我)。

对于字符串,这太过分了;但是 genfromtxt 可以很容易地为每一列构造一个具有不同数据类型的结构化数组。请注意,这样的数组是 1d,具有命名字段 - 而不是编号列。

In [50]: np.genfromtxt(txt,delimiter='\t',dtype=None)
Out[50]: 
array([(b'a', 45, -1), (b'b', 45, 55), (b'c', 66, -1)], 
      dtype=[('f0', 'S1'), ('f1', '<i4'), ('f2', '<i4')])

为了填充行,我可以定义一个函数:

def foo(astr,delimiter=b',',cnt=3,fill=b' '):
    c = astr.strip().split(delimiter)
    c.extend([fill]*cnt)
    return delimiter.join(c[:cnt])

并将其用作:

In [85]: txt=b"""a\t45\nb\t45\t55\nc\t66""".splitlines()

In [87]: txt1=[foo(txt[0],b'\t',3,b'0') for t in txt]
In [88]: txt1
Out[88]: [b'a\t45\t0', b'a\t45\t0', b'a\t45\t0']
In [89]: np.genfromtxt(txt1,delimiter='\t',dtype=None)
Out[89]: 
array([(b'a', 45, 0), (b'a', 45, 0), (b'a', 45, 0)], 
      dtype=[('f0', 'S1'), ('f1', '<i4'), ('f2', '<i4')])

关于python - NumPy 的 loadtxt : ValueError: Wrong number of columns,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35871920/

相关文章:

python - 创建新类,子类化具有相同名称的现有类

python - pandas 使用返回数组的函数重新采样

python - 检查一列中的值是否在 Python 中另一列的区间值中

python - 在日志文件的多个列上使用 ffill 和 bffill 生成每月级别的数据

python - 如何使用 python 连接到接入点?

python - 在python中拆分列表的项目

python - 撤消 setFlags ItemIsUserCheckable

python-3.x - tempfile 模块和 IO 类文件对象有什么区别

python-3.x - pandas.isnull() 不适用于十进制类型?

python-3.x - 查找列中的开始时间和结束时间