python - 在 Python 中比较两个几乎相同的 CSV 的最有效方法？

我有两个 CSV，每个都有大约 100 万行，n 列，并且列相同。我想要最有效的方法来比较这两个文件以找出可能存在差异的地方。我更愿意使用 Python 解析这些数据，而不是使用任何与 excel 相关的工具。

最佳答案

你在使用 Pandas 吗？

import pandas as pd
df = pd.read_csv('file1.csv')
df = df.append(pd.read_csv('file2.csv'), ignore_index=True)

# array indicating which rows are duplicated
df[df.duplicated()]

# dataframe with only unique rows
df[~df.duplicated()]

# dataframe with only duplicate rows
df[df.duplicated()]

# number of duplicate rows present
df.duplicated().sum()

关于python - 在 Python 中比较两个几乎相同的 CSV 的最有效方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46303776/

上一篇：algorithm - 如何改进此算法以测试所有矩阵条目是否不同？

下一篇：java - 尝试通过数组中的 n 个元素实现圆形旋转后出现奇怪的输出

相关文章：

Python Pandas 系列日期时间到纪元以来的秒数

python - 求解 x^2 + y^2 + z^2 = N 得到 x, y, z 的所有唯一组合

python - Python 中的快速探路者关联网络算法 (PFNET)

csv - ServiceStack CSV 序列化程序在序列化日期周围放置额外的引号

python - 将 CSV 文件中的数据存储到数组中？

python - OpenNMT 与 Pytorch 的问题 : cPickle. UnpicklingError : invalid load key, ''

python - 安装 PyMVPA2 时出错

python - Pytest，断言而不破坏程序流程

algorithm - 最短路径、最少转弯算法

C:简单的 CSV 读取器/写入器 - 无限循环行为