我有两个 CSV,每个都有大约 100 万行,n 列,并且列相同。我想要最有效的方法来比较这两个文件以找出可能存在差异的地方。我更愿意使用 Python 解析这些数据,而不是使用任何与 excel 相关的工具。
最佳答案
你在使用 Pandas 吗?
import pandas as pd
df = pd.read_csv('file1.csv')
df = df.append(pd.read_csv('file2.csv'), ignore_index=True)
# array indicating which rows are duplicated
df[df.duplicated()]
# dataframe with only unique rows
df[~df.duplicated()]
# dataframe with only duplicate rows
df[df.duplicated()]
# number of duplicate rows present
df.duplicated().sum()
关于python - 在 Python 中比较两个几乎相同的 CSV 的最有效方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46303776/