python - Pandas Python : Concatenate dataframes having same columns

标签 python pandas concatenation

我有 3 个具有相同列名的数据框。
说 :

df1
column1   column2   column3
a         b         c
d         e         f


df2
column1   column2   column3
g         h         i
j         k         l


df3
column1   column2   column3
m         n         o
p         q         r

每个数据框具有不同的值但具有相同的列。
我尝试了 append 和 concat,以及合并外部,但有错误。
这是我尝试过的:
df_final = df1.append(df2, sort=True,ignore_index=True).append2(df3, sort=True,ignore_index=True)
我也试过:
df_final = pd.concat([df1, df2, df3], axis=1)
但我收到此错误:AssertionError: Number of manager items must equal union of block items# manager items: 61, # tot_items: 62
我已经用谷歌搜索了错误,但我似乎无法理解为什么会在我的情况下发生。
非常感谢任何指导!

最佳答案

我认为某些或所有 DataFrame 中存在重复的列名问题。

#simulate error
df1.columns = ['column3','column1','column1']
df2.columns = ['column5','column1','column1']
df3.columns = ['column2','column1','column1']

df_final = pd.concat([df1, df2, df3])

AssertionError: Number of manager items must equal union of block items # manager items: 4, # tot_items: 5



您可以找到重复的列名称:
print (df3.columns[df3.columns.duplicated(keep=False)])
Index(['column1', 'column1'], dtype='object')

可能的解决方案是按列表设置列名:
df3.columns = ['column1','column2','column3']
print (df3)
  column1 column2 column3
0       m       n       o
1       p       q       r

或者删除重复名称的重复列:
df31 = df3.loc[:, ~df3.columns.duplicated()]
print (df31)
  column2 column1
0       m       n
1       p       q

然后concatappend应该工作得很好。

关于python - Pandas Python : Concatenate dataframes having same columns,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52204115/

相关文章:

python - 多个 python 包位置

pandas - 查找与 pandas 数据框中的某个特征相关的行的第一次出现

Python Pandas 使用 NaN 值写入 sql

python - 将数据帧转换为系列会创建 NA

python - 如何根据三列中的顺序将三列合并为一列

python dataframe水平 append 列

python - python中的读取和格式化问题

Python RegEx 底层字符组 - 例如 : Can [0-A] be used?

matrix - 在 NumPy 中增加矩阵

python - 根据 bins 组合字典键