python - pandas read_csv 跳过行不起作用

我正在尝试跳过一些包含不正确值的行。

这是我在不使用skiprows参数的情况下从文件中读取数据时的数据。

>> df    
         MstrRecNbrTxt  UnitIDNmb  PersonIDNmb  PersonTypeCde
2194593              P        NaN          NaN            NaN
2194594      300146901        1.0          1.0            1.0
4100689            DAT        NaN          NaN            NaN
4100690      300170330        1.0          1.0            1.0
5732515             DA        NaN          NaN            NaN
5732516      300174170        2.0          1.0            1.0

我想跳过第 2194593、4100689 和 5732515 行。我希望在我读入的表中看不到这些行。

>> df = pd.read_csv(file,sep='|',low_memory=False,
                     usecols= cols_to_use,
                     skiprows=[2194593,4100689,5732515])

然而，当我再次打印时，这些行仍然存在。

>> df
        MstrRecNbrTxt  UnitIDNmb  PersonIDNmb  PersonTypeCde
2194593              P        NaN          NaN            NaN
2194594      300146901        1.0          1.0            1.0
4100689            DAT        NaN          NaN            NaN
4100690      300170330        1.0          1.0            1.0
5732515             DA        NaN          NaN            NaN
5732516      300174170        2.0          1.0            1.0

这是数据:

{'PersonIDNmb': {2194593: nan,
          2194594: 1.0,
          4100689: nan,
          4100690: 1.0,
          5732515: nan,
          5732516: 1.0},
         'PersonTypeCde': {2194593: nan,
          2194594: 1.0,
          4100689: nan,
          4100690: 1.0,
          5732515: nan,
          5732516: 1.0},
         'UnitIDNmb': {2194593: nan,
          2194594: 1.0,
          4100689: nan,
          4100690: 1.0,
          5732515: nan,
          5732516: 2.0},
         '\ufeffMstrRecNbrTxt': {2194593: 'P',
          2194594: '300146901',
          4100689: 'DAT',
          4100690: '300170330',
          5732515: 'DA',
          5732516: '300174170'}}

我做错了什么？

我的最终目标是消除数据框中的 NaN 值，以便可以将数据作为整数而不是 float 读入(因为这使得很难将此表连接到其他非浮点表)。

最佳答案

工作示例...希望这有帮助!

from io import StringIO
import pandas as pd
import numpy as np

txt = """index,col1,col2
0,a,b
1,c,d
2,e,f
3,g,h
4,i,j
5,k,l
6,m,n
7,o,p
8,q,r
9,s,t
10,u,v
11,w,x
12,y,z"""

indices_to_skip = np.array([2, 6, 11])
# I offset `indices_to_skip` by one in order to account for header
df = pd.read_csv(StringIO(txt), index_col=0, skiprows=indices_to_skip + 1)
print(df)

      col1 col2
index          
0        a    b
1        c    d
3        g    h
4        i    j
5        k    l
7        o    p
8        q    r
9        s    t
10       u    v
12       y    z

关于python - pandas read_csv 跳过行不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43614377/

python - pandas read_csv 跳过行不起作用

上一篇：Python-我想使用 pandas 将第二行的列移动到第一行的列

下一篇：python - 如何在sklearn中实现n次重复的k折交叉验证以产生n*k折？