我有这个数据框:
>> df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})
>> df
Place Values Var
0 A 250 All
1 A 30 French
2 B 120 All
3 B 12 German
4 C 200 All
5 C 112 Spanish
每个 Place
都有两行的重复模式。我想 reshape 它,使每个 Place
一行,Var
列变成两列,一列用于“全部”,一列用于其他值。
像这样:
Place All Language Value
A 250 French 30
B 120 German 12
C 200 Spanish 112
数据透视表会为每个唯一值创建一列,我不希望这样。
这个reshaping的方法是什么?
最佳答案
由于数据以交替模式出现,我们可以将转换概念化为两步。
第一步:
从
a,a,a
b,b,b
到
a,a,a,b,b,b
第 2 步:删除多余的列。
以下解决方案适用 reshape
到 values
数据框的; reshape 的参数是 (-1, df.shape[1] * 2)
,它说“给我一个框架,它的列数和行数是你可以管理的两倍。
然后,我硬连接了过滤器的列索引:[0, 1, 4, 5]
根据您的数据布局。结果numpy
数组有 4 列,因此我们将其传递到 DataFrame
中构造函数以及正确的列名。
这是一个不可读的解决方案,依赖于 df
布局并以错误的顺序生成列;
import pandas as pd
df = pd.DataFrame({'Place' : ['A', 'A', 'B', 'B', 'C', 'C'], 'Var' : ['All', 'French', 'All', 'German', 'All', 'Spanish'], 'Values' : [250, 30, 120, 12, 200, 112]})
df = pd.DataFrame(df.values.reshape(-1, df.shape[1] * 2)[:,[0,1,4,5]],
columns = ['Place', 'All', 'Value', 'Language'])
关于python - 将 Pandas 数据框 reshape 为与重复行一样多的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36359535/