amazon-s3 - 实时流量批量上传至S3

标签 amazon-s3 apache-kafka real-time batch-processing bigdata

我正在寻找一些有关在大数据规模上实现归档工作流程的建议/解决方案。 数据的来源是kafka中的消息。这是实时写入的。目标是 S3 存储桶。 我需要根据消息中的字段对数据进行分区。对于每个分区,我需要将数据批处理为 100Mb block ,然后上传。 数据速率约为 5GB/分钟。因此 100Mb 批处理应该会在几秒钟内填满。

我的麻烦在于缩放和批处理。由于我需要对消息中的“字段”数据进行批处理和压缩,因此我需要通过分区将这部分数据整合在一起。对技术/工作流程有什么建议吗?

最佳答案

关于amazon-s3 - 实时流量批量上传至S3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44507794/

相关文章:

amazon-s3 - Amazon S3 key 中的特殊字符?

python - 如何使用 kafka-python 计算主题中的记录数(消息)

java - Apache camel 和 kafka 集成

java - 在实时系统中控制 Java 垃圾回收

c++ - Qt 中屏幕绘制和键盘按键事件的精确延迟

ruby-on-rails - 亚马逊 s3 - ruby 。获取刚刚上传的资源的URL

php - Laravel 8 从 AWS S3 Buckets 下载文件

amazon-web-services - 多个 AWS Lambda 中的 AWS::S3::Bucket LambdaConfiguration

java - Kafka : Single consumer group, 无分区和多个主题

android - Android 上有选项可以将数据实时发送到服务器吗?