csv - Hazelcast 外部排序。在大 csv 中对记录进行排序

标签 csv sorting hazelcast hazelcast-jet

我有一个用例,我需要对一个巨大的 csv 文件(比如 1000 万条记录)进行排序,并将结果写入另一个文件。 hazelcast-jet/hazelcast 是否在我的 RAM 有限的情况下提供任何此类外部排序功能。

最佳答案

我目前正致力于将此功能作为我的 Hazelcast Jet GSoC 项目的一部分引入。 我使用了我之前开发的 RocksDB 状态后端功能来进行排序,因此您可以对大于内存的数据集进行排序。 它目前用于批处理用例,并在您调用 BatchStage.sort(keyFn) 的管道中使用它,其中 keyFn 提取要排序的键。 你可以看到这个 PR 上的代码

关于csv - Hazelcast 外部排序。在大 csv 中对记录进行排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63266152/

相关文章:

Java 程序正在 csv 文件中创建额外的列

python - 如何使用 pandas 将 n 个 .csv 文件(可能是 20-30 个文件)与 1 个大 .csv 文件水平(轴 = 1)合并?

python - 如何在python中根据月、年、时间列标题编写csv文件名

node.js - Hazelcast Jet 和 Node.JS 客户端序列化问题

java - 通过 Spring Boot application.yml 配置 Hazelcast

hazelcast - 为什么hazelcast的默认分区数为271,选择一个的参数是什么?

php - 将 6k 图像从 Access 迁移到 MySQL 的最佳方法?

java - 如何以毫秒为单位存储日期并使用java中的集合进行排序

c - 对递增数组进行排序

c - 数组不会使用指针在 C 中反向打印