我有一个用例,我需要对一个巨大的 csv 文件(比如 1000 万条记录)进行排序,并将结果写入另一个文件。 hazelcast-jet/hazelcast 是否在我的 RAM 有限的情况下提供任何此类外部排序功能。
最佳答案
我目前正致力于将此功能作为我的 Hazelcast Jet GSoC 项目的一部分引入。
我使用了我之前开发的 RocksDB 状态后端功能来进行排序,因此您可以对大于内存的数据集进行排序。
它目前用于批处理用例,并在您调用 BatchStage.sort(keyFn)
的管道中使用它,其中 keyFn
提取要排序的键。
你可以看到这个 PR 上的代码
关于csv - Hazelcast 外部排序。在大 csv 中对记录进行排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63266152/