apache-spark - 在 Cassandra 中使用 Spark 插入数据

标签 apache-spark cassandra spark-cassandra-connector

我正在使用 Spark 和 datastax Spark 连接器在 Cassandra 中写入 12 亿行数据(两列)。我有两个 DC 设置，我将使用 local_quorum 进行编写。我在两个 DC 中都有 3 个复制。是否会因其他 DC 引入延迟。插入数据时还应该记住哪些其他事情。我在单DC上进行了测试，结果令人满意。

最佳答案

无论如何，写入都会发送到其他 DC，但由于您使用的是 LOCAL_QUORUM，Spark 不会等待该 DC 中节点的确认，因此它不会影响延迟。我唯一要监视的事情 - 如果另一个 DC 距离很远，并且/或者链接很慢，那么发生写入的节点可能会开始收集提示，如果发生这种情况，那么这可能会稍微影响性能，因为提示需要写入并在远程节点返回后重播。

关于apache-spark - 在 Cassandra 中使用 Spark 插入数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65148351/

上一篇：security - GCP 库伯内斯 : Ingress and external load balancer with IAP lots of open ports scanning nmap

下一篇：r - 在 R 脚本中创建包含每个问题选项的总百分比的报告

cassandra - Vnodes 在 Cassandra 中的意义

cassandra - 哪个分区器更好。在吞吐量方面，cassandra 中的 Random 或 Murmur3 有什么区别？

cassandra - DataStax Java 驱动程序 2.0.0-beta2 与 Cassandra 1.2.1 : unsupported protocol version

dataframe - Spark Dataframe.cache() 更改源的行为

apache-spark - 如何从pyspark的数据框列中获取第一个值和最后一个值？

azure - Databricks Notebook 作为 livy session 端点的替代品

java - 在spark java api(org.apache.spark.SparkException)中使用filter()，map()，...时出错

scala - 如何在本地使用 Spark BigQuery Connector？

guava - Datastax Cassandra 驱动程序抛出 CodecNotFoundException