apache-spark - 在 Cassandra 中使用 Spark 插入数据

标签 apache-spark cassandra spark-cassandra-connector

我正在使用 Spark 和 datastax Spark 连接器在 Cassandra 中写入 12 亿行数据(两列)。我有两个 DC 设置,我将使用 local_quorum 进行编写。我在两个 DC 中都有 3 个复制。是否会因其他 DC 引入延迟。插入数据时还应该记住哪些其他事情。我在单DC上进行了测试,结果令人满意。

最佳答案

无论如何,写入都会发送到其他 DC,但由于您使用的是 LOCAL_QUORUM,Spark 不会等待该 DC 中节点的确认,因此它不会影响延迟。我唯一要监视的事情 - 如果另一个 DC 距离很远,并且/或者链接很慢,那么发生写入的节点可能会开始收集提示,如果发生这种情况,那么这可能会稍微影响性能,因为提示需要写入并在远程节点返回后重播。

关于apache-spark - 在 Cassandra 中使用 Spark 插入数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65148351/

相关文章:

oracle - 使用 Spark 查询 Oracle DB 时出现 "ORA-00933: SQL command not properly ended"错误

cassandra - Vnodes 在 Cassandra 中的意义

cassandra - 哪个分区器更好。在吞吐量方面,cassandra 中的 Random 或 Murmur3 有什么区别?

cassandra - DataStax Java 驱动程序 2.0.0-beta2 与 Cassandra 1.2.1 : unsupported protocol version

dataframe - Spark Dataframe.cache() 更改源的行为

apache-spark - 如何从pyspark的数据框列中获取第一个值和最后一个值?

azure - Databricks Notebook 作为 livy session 端点的替代品

java - 在spark java api(org.apache.spark.SparkException)中使用filter(),map(),...时出错

scala - 如何在本地使用 Spark BigQuery Connector?

guava - Datastax Cassandra 驱动程序抛出 CodecNotFoundException