python - 如何使用 Pandas 从 CSV 文件夹生成自定义主数据框?

标签 python pandas numpy

我有一个包含多个 CSV 文件的文件夹。每个 CSV 文件都具有相同的尺寸。它们都有 2 列,并且每列的第一列都是相同的。有没有办法导入所有 CSV 并连接到一个 Dataframe 中,其中第一个文件提供第一列及其第二列,而后续文件仅在其旁边添加第二列值?每个文件的第二列的标题是唯一的,但它们具有与第一个文件相同的标题。

最佳答案

这将为您提供 path 文件夹中所有文件的组合 您可以在 here 中找到与合并或组合 df 相关的所有 Material

检查 df 的所有组合(您读作 df 的 CSV)

import pandas as pd
import os
path='path to folder'
all_files=os.listdir(path)
li = []
for filename in all_files:
    df = pd.read_csv(path+filename, index_col='H1')
    print(df)
    li.append(df)
frame = pd.concat(li, axis=1, ignore_index=False)

frame.to_csv(path+'out.csv')
print(frame)

输入文件如下:

File1
+----+----+
| H1 | H2 |
+----+----+
|  1 | A  |
|  2 | B  |
|  3 | C  |
+----+----+
File2:
+----+----+
| H1 | H2 |
+----+----+
|  1 | D  |
|  2 | E  |
|  3 | F  |
+----+----+
File13:
+----+----+
| H1 | H2 |
+----+----+
|  1 | G  |
|  2 | H  |
|  3 | I  |
+----+----+

输出为:(保存在同一目录下的out.csv文件中)

+----+----+----+----+
| H1 | H2 | H2 | H2 |
+----+----+----+----+
|  1 | A  | D  | G  |
|  2 | B  | E  | H  |
|  3 | C  | F  | I  |
+----+----+----+----+

关于python - 如何使用 Pandas 从 CSV 文件夹生成自定义主数据框?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61109187/

相关文章:

Python Pandas 只能比较标记相同的系列对象

python - 向量化一个极其缓慢的 groupBy

Python Flask 服务器出现 'code 400' 错误(从 Telegram-webhook 发送的 POST 请求)

python - 在 Python27 上安装 netaddr

python - Pandas/SQLalchemy 合并数据框和表

python 和 Pandas : counting time data in 2h increments

python - numpy.polyfit 不处理 NaN 值

python - Pandas :在滚动窗口中连接两行

python - Numpy.savetxt() 函数

python - 如何动态定义 `typing.Union`?