python - 基于字典的 Pandas 示例

标签 python pandas sample keyerror

我正在尝试根据字典和特定列对 pandas DataFrame 进行采样。因此,对于 y 列的每个值,我确切地知道我想要选择多少个观察值。

我可以通过 groupby apply 组合来做到这一点:

import pandas as pd

df = pd.DataFrame({'y': [2,2,0,0,0,1,1,1,1,1], 'x': 1, 'z': 2})

    y   x   z
0   2   1   2
1   2   1   2
2   0   1   2
3   0   1   2
4   0   1   2
5   1   1   2

sizes = {0: 2, 1: 1, 2:1}

df.groupby('y').apply(lambda x: x.sample(sizes[x['y'].values[0]]))

yyxz

0 2 0 1 2 4 0 1 2 1 5 1 1 2 2 0 2 1 2

但是,如果我使用 unique 而不是 values (这应该是等效的),我会收到一个奇怪的 KeyError: 'y' 错误数据框:

df.groupby('y').apply(lambda x: x.sample(sizes[x.y.unique()[0]]))

有人可以解释为什么会发生这种情况吗?

编辑:

这发生在 0.23.1 上,但没有发生在 0.23.1 上,所以这可能是一个错误。

最佳答案

我认为你需要 .name 属性:

df1 = df.groupby('y').apply(lambda x: x.sample(sizes[x.name]))
print (df1)

     y  x  z
y           
0 4  0  1  2
  2  0  1  2
1 6  1  1  2
2 0  2  1  2

如果可能某些值在字典中不匹配,请使用 get0 来获取不匹配的值:

df1 = df.groupby('y').apply(lambda x: x.sample(sizes.get(x.name, 0)))

编辑:

问题是唯一返回一个元素numpy数组:

def f(x):
    print (x['y'].unique())
    print (x['y'].unique()[0])
    print (sizes[x['y'].unique()[0]])
    print (x.sample(sizes[x['y'].unique()[0]]))

df1 = df.groupby('y').apply(f)

[0]
0
2
   y  x  z
2  0  1  2
4  0  1  2
[0]
0
2
   y  x  z
4  0  1  2
2  0  1  2
[1]
1
1
   y  x  z
6  1  1  2
[2]
2
1
   y  x  z
0  2  1  2
<小时/>
df1 = df.groupby('y').apply(lambda x: x.sample(sizes[x.y.unique()[0]]))
print (df1)
     y  x  z
y           
0 4  0  1  2
  2  0  1  2
1 6  1  1  2
2 0  2  1  2

关于python - 基于字典的 Pandas 示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53496776/

相关文章:

python - 如何在单次通过时测试 numpy 数组或矩阵列中是否存在两个值之一?

python - 如何使用 dateutil 解析 0 小时

python - 如何构建不区分大小写的枚举?

python - Pandas:.loc 未将一个数据帧的行分配给另一个数据帧切片的一行

python - pandas any 中 Axis 的定义

OpenCV createsamples - 无效的背景描述文件

r - 采样后分割数据

r - 如何从 R 中大小为 N 的数据帧中获取大小为 n 的所有可能子样本?

python - UpdateView 导致错误 "__init__() takes at least 2 arguments (1 given)"

python - 使用 NetworkX 绘制加权复杂网络