我有两个文件 A
-nodes_to_delete
和 B
-nodes_to_keep
。每个文件都有很多带有数字 ID 的行。
我想获得 nodes_to_delete
但不在 nodes_to_keep
中的数字 ID 列表,即 A\B
在 PostgreSQL 数据库中执行此操作非常慢。有什么巧妙的方法可以使用 Linux CLI 工具在 bash 中执行此操作?
更新:这似乎是一个 Pythonic 的工作,但文件确实非常大。我已经使用 uniq
、sort
和一些集合论技术解决了一些类似的问题。这比等效的数据库快两到三个数量级。
最佳答案
comm命令执行此操作。
关于庆典,Linux : Set difference between two text files,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2509533/