python - 处理一列文本文件中丢失的数据

我有一个数据集，例如:

IM,XX
IS,YY
SG,3
OTPL,90
TTPL,90
IM,AA
IS,BB
SG,3
TTPL,50
IM,ZZ
IS,CC
OTPL,10

每一行都包含一个键，值对，我需要将其转换为表格格式才能执行一些分析。 IM 变量表示行的索引，下面的参数是列。对我来说，棘手的部分是考虑可能的缺失值。预期结果是:

IM  IS  OTPL    SG  TTPL  
XX  YY    90     3    90    
AA  BB  null     3    50    
ZZ  CC    10  null  null

“注意空值”。

我有一个解决方案，但效率不高，当数据集很大时，这不是一个合适的方法。我使用以下策略:

使用awk，为每个寄存器(行)添加一个额外的索引。它创建一个计数器 n 并在 IM 出现时递增它:

$ awk -F, 'BEGIN{n = 0}{ if($1 == "IM"){n += 1} print n","$0}' inputdata.txt
1,IM,XX
1,IS,YY
1,SG,3
1,OTPL,90
1,TTPL,90
2,IM,AA
2,IS,BB
2,SG,3
2,TTPL,50
3,IM,ZZ
3,IS,CC
3,OTPL,10

接下来，使用 pandas 读取之前的结果，通过上述索引应用 groupby 并应用 concat 创建一个新表透视子表:

In[1]:import pandas as pd
      gb = pd.read_csv("outdata.txt", names = ["id","key","value"]).groupby("id")
      res = pd.concat([df.pivot(index="id", columns='key', values='value') for g, df in gb])
      res
Out[1]: 
    IM  IS OTPL   SG TTPL
id                       
1   XX  YY   90    3   90
2   AA  BB  NaN    3   50
3   ZZ  CC   10  NaN  NaN

最后一步的成本非常高。

有人遇到过类似的问题吗？最好只用命令行解决这个问题。

提前致谢!

最佳答案

[更新]纯 GAWK 解决方案:

BEGIN {
    FS=OFS=","
    n = 0
}
{
    if($1 == "IM") {
        n++
    }
    keys[$1]++
    vals[n,$1]=$2
}
END {
    l=asorti(keys, copy)
    printf "id"
    for (i=1; i<=l; i++) {
        printf "%s%s", FS, copy[i]
    }
    print ""

    for (i=1; i<=n; i++) {
        printf "%s", i
        for (k=1; k<=l; k++) {
            printf "%s%s", FS, vals[i,copy[k]] 
        }
        print ""
    }
}

输出:

{ .data }  » awk -f prg.awk data.csv
id,IM,IS,OTPL,SG,TTPL
1,XX,YY,90,3,90
2,AA,BB,,3,50
3,ZZ,CC,10,,

[旧] Pandas 解决方案:

我认为你可以使用 pivot_table()而不是 groupby() + concat() :

In [105]: df
Out[105]:
    id   key val
0    1    IM  XX
1    1    IS  YY
2    1    SG   3
3    1  OTPL  90
4    1  TTPL  90
5    2    IM  AA
6    2    IS  BB
7    2    SG   3
8    2  TTPL  50
9    3    IM  ZZ
10   3    IS  CC
11   3  OTPL  10

In [106]: df.pivot_table(index='id', columns='key', values='val', aggfunc='sum', fill_value=np.nan)
Out[106]:
key  IM  IS OTPL   SG TTPL
id
1    XX  YY   90    3   90
2    AA  BB  NaN    3   50
3    ZZ  CC   10  NaN  NaN

或 pivot() 如果您没有重复项(例如在示例数据集中):

In [109]: df.pivot(index='id', columns='key', values='val')
Out[109]:
key  IM  IS  OTPL    SG  TTPL
id
1    XX  YY    90     3    90
2    AA  BB  None     3    50
3    ZZ  CC    10  None  None

与 NaN 相同，而不是 None:

In [110]: df.pivot(index='id', columns='key', values='val').fillna(np.nan)
Out[110]:
key  IM  IS OTPL   SG TTPL
id
1    XX  YY   90    3   90
2    AA  BB  NaN    3   50
3    ZZ  CC   10  NaN  NaN

关于python - 处理一列文本文件中丢失的数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36633917/

python - 处理一列文本文件中丢失的数据

上一篇：python - 如何加速Python脚本迭代嵌套循环？

下一篇：python - 使用 django 在 HTML 页面中显示数据库中的数据