java - 检查 csv 文件中的重复行 - java

标签 java csv duplicates

我随机生成了 700 万个 ID,因为它们很大,所以我将它们保存到 7 个不同的 csv 文件中。现在我想要有 7 个 csv 文件和 100 万个 ID。我正在尝试检查所有 7 个 csv 文件中的重复 ID。有什么方法可以在 Java 中完成吗?

最佳答案

用 Java 做到这一点的唯一方法是将所有 700 万个 ID 加载到内存中。您可以将它们放在一个集合中,对于从文件加载的每个新 ID,检查它是否已存在于集合中。我假设您随后必须编写没有重复项的输出文件。

我不会用 Java 来做。一个简单的 Unix/Linus shell 脚本就可以解决这个问题(cat file1 file2 file3 file4 file5 file5 file6 file7 | sort | uniq 会为您提供所有唯一 ID,然后您可以将它们拆分回 7 个文件如果必须的话。

关于java - 检查 csv 文件中的重复行 - java,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24849799/

相关文章:

r - R 包的函数命名

java - 如果使用 @Autowired + @Qualifier 注入(inject),如何避免在重构过程中更改 bean 名称

python - 阅读 Pandas 数据框时跳过包含特定值的特定行

php - 删除重复项并更新唯一的一个语句中的所有内容?

ruby-on-rails - 使用 FasterCSV gem (MalformedCSVError) 解析 CSV 时出错

python - 索引错误 : too many indices for array

r - 使用 ddply 排除某些列中的重复值

java - 数字系统代码的索引越界问题

java - Spring JPA - 具有两个主键的实体

java - 使用 Spring 计划注释和更新 View