我正在寻找一些有关在大数据规模上实现归档工作流程的建议/解决方案。 数据的来源是kafka中的消息。这是实时写入的。目标是 S3 存储桶。 我需要根据消息中的字段对数据进行分区。对于每个分区,我需要将数据批处理为 100Mb block ,然后上传。 数据速率约为 5GB/分钟。因此 100Mb 批处理应该会在几秒钟内填满。
我的麻烦在于缩放和批处理。由于我需要对消息中的“字段”数据进行批处理和压缩,因此我需要通过分区将这部分数据整合在一起。对技术/工作流程有什么建议吗?
最佳答案
您可以使用 Kafka Connect。有一个用于 S3 的连接器:
关于amazon-s3 - 实时流量批量上传至S3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44507794/