hadoop - 以高吞吐量在 HDFS 上进行流式数据写入

标签 hadoop hdfs spark-streaming read-write throughput

我有来自大量传感器(> 500)的数据流，我需要将这些数据写入我的 HDFS。传感器几乎每 1 秒发送一次数据，每个推送数据的大小约为 300B。问题是我已经体验到，每当我开始使用附加模式在 HDFS 上推送很多东西时，它就会开始引发许多异常并卡住。我需要找到一种方法来处理每秒如此大量的写入，比如采用一个中间层来存储数据，然后慢慢将它们推送到 HDFS 中。我不知道是否有任何数据库可以解决这个问题，如果可以，哪个是最好的？

更新:我环顾四周，很难理解不同解决方案的局限性和潜力。

显然，作为 Kafka 的技术可以处理“来自数千个客户端每秒数百兆字节的读取和写入”。

还有其他技术，其中一些基于 Kafka 本身，如 Confluent ，但我还不清楚它是如何改进写作的。

然后，还有其他框架，称为“日志记录层”(或多或少)，它们提供了这种管理写入的中间层。大多数广告产品是Fluentd和 Logstash .

最后，Spark 作为流组件，Spark Streaming ，它应该以某种方式管理大量数据的流式传输。

现在，我的问题是是否有人曾经处理过类似的问题，这可能是我的案例的一个很好的解决方案。

最佳答案

我无法帮助您提高 HDFS 吞吐量，但由于您提到了中间层，我将列出一些与 Spark 结合使用的常用数据存储，这些数据存储通常提供高写入(我认为您也在尝试使用 Spark？)。我怀疑大多数或全部都能够写回 HDFS。

SnappyData

MemSQL

Cassandra

Ignite

HBase