amazon-s3 - 实时流量批量上传至S3

标签 amazon-s3 apache-kafka real-time batch-processing bigdata

我正在寻找一些有关在大数据规模上实现归档工作流程的建议/解决方案。数据的来源是kafka中的消息。这是实时写入的。目标是 S3 存储桶。我需要根据消息中的字段对数据进行分区。对于每个分区，我需要将数据批处理为 100Mb block ，然后上传。数据速率约为 5GB/分钟。因此 100Mb 批处理应该会在几秒钟内填满。

我的麻烦在于缩放和批处理。由于我需要对消息中的“字段”数据进行批处理和压缩，因此我需要通过分区将这部分数据整合在一起。对技术/工作流程有什么建议吗？

最佳答案

您可以使用 Kafka Connect。有一个用于 S3 的连接器:

http://docs.confluent.io/current/connect/connect-storage-cloud/kafka-connect-s3/docs/s3_connector.html

关于amazon-s3 - 实时流量批量上传至S3，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44507794/

上一篇：clojure - Clojure 的 memoize 何时清除其缓存？

下一篇：ruby-on-rails - 使用实例变量中的 Slim/Rails 渲染 markdown

相关文章：

amazon-s3 - Amazon S3 key 中的特殊字符？

python - 如何使用 kafka-python 计算主题中的记录数(消息)

java - Apache camel 和 kafka 集成

java - 在实时系统中控制 Java 垃圾回收

c++ - Qt 中屏幕绘制和键盘按键事件的精确延迟

ruby-on-rails - 亚马逊 s3 - ruby 。获取刚刚上传的资源的URL

php - Laravel 8 从 AWS S3 Buckets 下载文件

amazon-web-services - 多个 AWS Lambda 中的 AWS::S3::Bucket LambdaConfiguration

java - Kafka : Single consumer group, 无分区和多个主题

android - Android 上有选项可以将数据实时发送到服务器吗？