python - 在 Python 中比较两个几乎相同的 CSV 的最有效方法?

标签 python algorithm csv search

我有两个 CSV,每个都有大约 100 万行,n 列,并且列相同。我想要最有效的方法来比较这两个文件以找出可能存在差异的地方。我更愿意使用 Python 解析这些数据,而不是使用任何与 excel 相关的工具。

最佳答案

你在使用 Pandas 吗?

import pandas as pd
df = pd.read_csv('file1.csv')
df = df.append(pd.read_csv('file2.csv'), ignore_index=True)

# array indicating which rows are duplicated
df[df.duplicated()]

# dataframe with only unique rows
df[~df.duplicated()]

# dataframe with only duplicate rows
df[df.duplicated()]

# number of duplicate rows present
df.duplicated().sum()

关于python - 在 Python 中比较两个几乎相同的 CSV 的最有效方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46303776/

相关文章:

Python Pandas 系列日期时间到纪元以来的秒数

python - 求解 x^2 + y^2 + z^2 = N 得到 x, y, z 的所有唯一组合

python - Python 中的快速探路者关联网络算法 (PFNET)

csv - ServiceStack CSV 序列化程序在序列化日期周围放置额外的引号

python - 将 CSV 文件中的数据存储到数组中?

python - OpenNMT 与 Pytorch 的问题 : cPickle. UnpicklingError : invalid load key, ''

python - 安装 PyMVPA2 时出错

python - Pytest,断言而不破坏程序流程

algorithm - 最短路径、最少转弯算法

C:简单的 CSV 读取器/写入器 - 无限循环行为