apache-spark - 我不知道为什么我的cassandra有这么大的提示表？

标签 apache-spark solr cassandra datastax

我的集群有 2 个数据中心。第一个数据中心有 1 个启用了 Spark 和 solr 的节点，另一个数据中心有 5 个启用了 Spark 的节点。一段时间后，所有节点都会有几个 100GB 的提示表。但我的节点状态都是可用且正常的。它没有显示节点已关闭，但提示表只是不断增加。结果是，一段时间后，所有磁盘空间都将被使用，节点死亡，系统崩溃。不知道为什么会出现这种情况？

感谢您的建议。

最佳答案

您没有说哪些节点/数据中心具有不断增长的提示表，但我的猜测是 1 节点数据中心没有足够的处理能力来跟上从 5 节点数据中心复制的写入。我想说，使用 Spark 时尤其如此 - Spark 写入很容易压垮集群，除非您使用 cassandra.output 参数来控制写入速度。

这里的另一个因素是您使用的一致性级别 - LOCAL_* 一致性级别只需要将写入写入本地 DC 即可将操作视为成功(并且将存储提示以便复制到其他 DC) )。

干杯本

关于apache-spark - 我不知道为什么我的cassandra有这么大的提示表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37382051/