我编写了一些代码，我认为这些代码可以打印文件夹中所有 CSV 文件共有的所有列名称。我使用的是内部联接，但它的作用类似于外部联接。必须有一个快速解决方案，对吧。

import glob
import pandas as pd

files = glob.glob(r'C:\my_files\*.csv')

def get_merged(files, **kwargs):
    df = pd.read_csv(files[0], **kwargs)
    for f in files[1:]:
        df = df.merge(pd.read_csv(f, **kwargs), how='inner')
    return df

print(get_merged(files))

所以，如果我有 4 个包含这些列的文件:

 cola   colb    colc    cold    cole

我有 1 个包含这些列的文件:

cola    colc    cole

我想看看这个:

cola    colc    cole

最佳答案

您可以使用 pandas 或纯 Python 来计算列名的集合交集。

1) pandas 解决方案

def get_common_columns(files, **kwargs):
    """Get set intersection of column-names of specified CSV files"""
    common_columns = set(pd.read_csv(files[0], nrows=0, **kwargs).columns)
    for f in files[1:]:
        common_columns &= set(pd.read_csv(f, nrows=0, **kwargs).columns)
    return common_columns

我对此进行了测试，它有效
pandas 并不过分:只读取列名而不读取数据，只需执行 pd.read_csv(..., nrows=0)然后取set(df.columns)
结果我们不能使用merge/join 。甚至是merge(..., how='inner')采用并集而不是列的交集。仅供引用 merge works on column-names, whereas join works on indices 。但他们按行加入

2) 原生 Python 解决方案 `csv`和`set()`

同样的想法，只是在原生 Python 中
用 csv 读入列标题，然后使用set()迭代地对列名称进行交集: common_columns |= set(columns_from_current_csv)

关于python - 如何打印所有 CSV 文件共有的列名称，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57963909/

python - 如何打印所有 CSV 文件共有的列名称

1) pandas 解决方案

2) 原生 Python 解决方案 `csv`和`set()`

上一篇：python - init 括号里的东西叫什么？

下一篇：python - 我需要制作一个 "mosaic"- 但非常简单

python - 如何打印所有 CSV 文件共有的列名称

1) pandas 解决方案

2) 原生 Python 解决方案 csv和set()

上一篇：python - __init__ 括号里的东西叫什么？

下一篇：python - 我需要制作一个 "mosaic"- 但非常简单

2) 原生 Python 解决方案 `csv`和`set()`

上一篇：python - init 括号里的东西叫什么？