我正在使用 Spark 和 datastax Spark 连接器在 Cassandra 中写入 12 亿行数据(两列)。我有两个 DC 设置,我将使用 local_quorum 进行编写。我在两个 DC 中都有 3 个复制。是否会因其他 DC 引入延迟。插入数据时还应该记住哪些其他事情。我在单DC上进行了测试,结果令人满意。
最佳答案
无论如何,写入都会发送到其他 DC,但由于您使用的是 LOCAL_QUORUM,Spark 不会等待该 DC 中节点的确认,因此它不会影响延迟。我唯一要监视的事情 - 如果另一个 DC 距离很远,并且/或者链接很慢,那么发生写入的节点可能会开始收集提示,如果发生这种情况,那么这可能会稍微影响性能,因为提示需要写入并在远程节点返回后重播。
关于apache-spark - 在 Cassandra 中使用 Spark 插入数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65148351/