apache-spark - 我不知道为什么我的cassandra有这么大的提示表?

标签 apache-spark solr cassandra datastax

我的集群有 2 个数据中心。第一个数据中心有 1 个启用了 Spark 和 solr 的节点,另一个数据中心有 5 个启用了 Spark 的节点。一段时间后,所有节点都会有几个 100GB 的提示表。但我的节点状态都是可用且正常的。它没有显示节点已关闭,但提示表只是不断增加。结果是,一段时间后,所有磁盘空间都将被使用,节点死亡,系统崩溃。不知道为什么会出现这种情况?

感谢您的建议。

最佳答案

您没有说哪些节点/数据中心具有不断增长的提示表,但我的猜测是 1 节点数据中心没有足够的处理能力来跟上从 5 节点数据中心复制的写入。我想说,使用 Spark 时尤其如此 - Spark 写入很容易压垮集群,除非您使用 cassandra.output 参数来控制写入速度。

这里的另一个因素是您使用的一致性级别 - LOCAL_* 一致性级别只需要将写入写入本地 DC 即可将操作视为成功(并且将存储提示以便复制到其他 DC) )。

干杯 本

关于apache-spark - 我不知道为什么我的cassandra有这么大的提示表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37382051/

相关文章:

apache-spark - 拆分 pyspark 数据框列并限制拆分

amazon-s3 - 使用 3 种方法在 Spark 程序上设置 AWS 凭证,但都不起作用

cassandra - 获取cassandra中的所有行

java - Cassandra-Hector InvalidRequestException

cassandra - Cassandra 的 Stargate 文档 API 分页

json - 查询存储在 Cassandra DB 上的 JSON 对象的 Spark

apache-spark - 如何在 NiFi 中从 GetFilesProcessor 读取文件

tomcat - 限制 Solr 数据导入到本地主机,但允许从任何地址进行选择

ruby-on-rails - Solr 没有正确重新索引 - Solr 4 的 Sunspot Solr

Solr 按类别计数