python - 根据数据框中的排序值旋转多行

标签 python pandas pandas-groupby

我正在使用看起来像这样的数据框:

df = pd.DataFrame({'ID':['A','A','A','A','B','B','B','B'],'X':[1.2,2.1,3.8,4.5,5.8,6.2,7,8.2],'Y':[10,20,30,40,50,60,70,80],'IsTrue':[1,1,0,0,1,0,0,1],'IdxVar':[1,0,0,0,0,0,0,1]})
df["DistanceToIdx"] = np.sqrt((df.X - df.X[df.groupby('ID')['IdxVar'].transform('idxmax')].reset_index(drop=True))**2 \
                        +(df.Y - df.Y[df.groupby('ID')['IdxVar'].transform('idxmax')].reset_index(drop=True))**2)

我正在尝试创建一个新的 df,它基于 IdxVar 每个 ID 值只有一行。足够简单

newdf = df.loc[df.IdxVar==1,:]

我希望我的新列是一些 X0_1、X0_2、X1_1、X0_2,其中 Xi_j 可以看作是 Xfor i = IsTrue(0 或 1)并且 j 表示 DistanceToIdx 的排序索引(X0_1 表示具有 IsTrue = 0 和最低 DistanceToIdx 的给定 ID 中的 X 值。

我可以通过 groupby() 来做到这一点:

groupdf = df.groupby('ID')

for name,group in groupdf:
    for i in range(2):

        newdf.loc[newdf.ID==name, 'X0_{}'.format(i+1)] = \
            group.sort_values(by=['IsTrue','DistanceToIdx'],ascending=True)['X'].values[i]

        newdf.loc[newdf.ID==name, 'X1_{}'.format(i+1)] = \
            group.sort_values(by=['IsTrue','DistanceToIdx'],ascending=True)['X'].values[i+2]

这提供了所需的输出,但如果我想将它应用到此处显示的更多变量,然后循环遍历 100,000 个组,我的循环就太长了。

我想知道是否有一种方法可以仅使用 groupby 函数来加快速度。我最初的想法只是找出数据透视表函数,但由于我想根据现有行对新列进行排序,因此根据文档,我不太相信它会起作用。

最佳答案

因为您已经创建了 newdf。我想出了一个解决方案,使用 nsmallest 来获取每组的 2 个最小值,unstack 并展平多索引列。最后合并回newdf

df1 = (df.set_index('X').groupby(['ID', 'IsTrue']).DistanceToIdx.nsmallest(2).
          reset_index(level=-1).drop('DistanceToIdx', 1))
s = df1.groupby(level=[0,1]).cumcount().add(1)
df2 = df1.set_index(s, append=True).unstack([1,2]).sort_index(level=2, axis=1)
df2.columns = df2.columns.map('{0[0]}{0[1]}_{0[2]}'.format)

df_final = newdf.merge(df2.reset_index(), on='ID')


Out[239]:

  ID    X   Y  IsTrue  IdxVar  DistanceToIdx  X0_1  X1_1  X0_2  X1_2
0  A  1.2  10       1       1            0.0   3.8   1.2   4.5   2.1
1  B  8.2  80       1       1            0.0   7.0   8.2   6.2   5.8

关于python - 根据数据框中的排序值旋转多行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58945562/

相关文章:

python - Pandas 数据框到元组列表的字典

python - Elasticsearch:文档未通过自定义映射添加到索引中

python - Pandas 与 MultiIndex 合并用于重复列

python - 如何使用 df.itertuples() 中的 Namedtuple Pandas 启用 row[col_name] 语法

python - 来自 read_json() 的 Pandas 数据帧的时间戳索引

python - 如何使用 pandas agg 对 bool 值求和并始终获得数字作为结果?

python - 字符串类型列中的舍入 pandas 数据框数值

python - 如何从 setuptools 将文件安装到站点包(不是包子文件夹)?

python - 跨源访问问题 - django 2.1.7

python - 将新列添加到 pandas DataFrame 导致 NaN