python - 将 Pandas 数据框 reshape 为与重复行一样多的列

标签 python pandas

我有这个数据框:

>> df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})

>> df
  Place  Values      Var
0     A     250      All
1     A      30   French
2     B     120      All
3     B      12   German
4     C     200      All
5     C     112  Spanish

每个 Place 都有两行的重复模式。我想 reshape 它,使每个 Place 一行,Var 列变成两列,一列用于“全部”,一列用于其他值。

像这样:

Place   All   Language   Value
    A   250     French      30
    B   120     German      12
    C   200     Spanish    112

数据透视表会为每个唯一值创建一列,我不希望这样。

这个reshaping的方法是什么?

最佳答案

由于数据以交替模式出现,我们可以将转换概念化为两步。

第一步:

a,a,a
b,b,b

a,a,a,b,b,b

第 2 步:删除多余的列。

以下解决方案适用 reshapevalues数据框的; reshape 的参数是 (-1, df.shape[1] * 2) ,它说“给我一个框架,它的列数和行数是你可以管理的两倍。

然后,我硬连接了过滤器的列索引:[0, 1, 4, 5]根据您的数据布局。结果numpy数组有 4 列,因此我们将其传递到 DataFrame 中构造函数以及正确的列名。

这是一个不可读的解决方案,依赖于 df布局并以错误的顺序生成列;

import pandas as pd

df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})

df = pd.DataFrame(df.values.reshape(-1, df.shape[1] * 2)[:,[0,1,4,5]],
    columns = ['Place', 'All', 'Value', 'Language'])

关于python - 将 Pandas 数据框 reshape 为与重复行一样多的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36359535/

相关文章:

python - 如何在Python中通过命名空间对象访问argparse位置参数

python - 将 pandas 数据框中的一些行添加到下一个,然后删除它们

python - 在 pandas 列中展开词袋(python)

python - 使用 langdetect 计算 pandas 数据框中的语言频率

python - 对同一数据帧的不同部分进行操作

python - NLTK RegEx Chunker 不使用通配符捕获定义的语法模式

python - 如何以相反的顺序读取文件?

python - 使用pyclutter编程

python - 如何使用 docker 从代理后面运行 pip3+git?

pandas - ValueError MultinomialNB 的样本数量不一致错误