我随机生成了 700 万个 ID,因为它们很大,所以我将它们保存到 7 个不同的 csv 文件中。现在我想要有 7 个 csv 文件和 100 万个 ID。我正在尝试检查所有 7 个 csv 文件中的重复 ID。有什么方法可以在 Java 中完成吗?
最佳答案
用 Java 做到这一点的唯一方法是将所有 700 万个 ID 加载到内存中。您可以将它们放在一个集合中,对于从文件加载的每个新 ID,检查它是否已存在于集合中。我假设您随后必须编写没有重复项的输出文件。
我不会用 Java 来做。一个简单的 Unix/Linus shell 脚本就可以解决这个问题(cat file1 file2 file3 file4 file5 file5 file6 file7 | sort | uniq
会为您提供所有唯一 ID,然后您可以将它们拆分回 7 个文件如果必须的话。
关于java - 检查 csv 文件中的重复行 - java,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24849799/