cassandra - 了解 cassandra 复制因子与一致性级别

标签 cassandra

我想澄清 Cassandra 中复制因子和一致性级别的基本概念。如果有人能够回答以下问题,我们将不胜感激。

RF- 复制因子 RC-读一致性 WC- 写入一致性

2 个 cassandra 节点(例如:A、B)RF=1、RC=ONE、WC=ONE 或 ANY

  • 我可以将数据写入节点 A 并从节点 B 读取数据吗?
  • 如果 A 宕机会发生什么?

3 个 cassandra 节点(例如:A、B、C)RF=2、RC=QUORUM、WC=QUORUM

  • 我可以将数据写入节点 A 并从节点 C 读取数据吗?
  • 如果节点 A 发生故障会发生什么?

3 个 cassandra 节点(例如:A、B、C)RF=3、RC=QUORUM、WC=QUORUM

  • 我可以将数据写入节点 A 并从节点 C 读取数据吗?
  • 如果节点 A 发生故障会发生什么?

最佳答案

简短摘要:复制因子描述了存在多少数据副本。一致性级别描述了客户端看到的行为。也许有更好的方法来对它们进行分类。

例如,您可以将复制因子设置为 2。当您写入时,假设有足够的节点已启动,则始终会存储两个副本。当一个节点关闭时,对该节点的写入会被隐藏起来,并在它恢复时写入,除非它关闭的时间足够长,以至于 Cassandra 认为它已经永远消失了。

现在假设在该示例中您使用一致性级别 ONE 进行编写。对一个节点进行写入操作后,客户端将收到成功确认,而无需等待第二次写入。如果您使用 CL 为 ALL 进行写入,则对客户端的确认将等到两个副本均写入后。还有很多其他一致性级别选项,太多而无法涵盖此处的所有变体。阅读Datastax doc不过,它很好地解释了它们。

在同一示例中,如果您以一致性级别 ONE 进行读取,则响应将在单个副本响应后发送到客户端。另一个副本可能有较新的数据,在这种情况下,响应将不是最新的。在许多情况下,这已经足够了。在其他情况下,客户端将需要最新的信息,并且您将在读取时使用不同的一致性级别 - 也许是 ALL 级别。这样,Cassandra 和其他后关系数据库的一致性就可以通过关系数据库通常无法调整的方式进行调整。

现在回到你的例子。

示例一:是的,您可以写入 A 并从 B 读取,即使 B 没有自己的副本。 B 将代表您的客户向 A 索取。对于节点全部启动的其他情况也是如此。当它们全部完成后,您可以向其中一个写入并从另一个读取。

对于写入,当 WC=ONE 时,如果单个副本的节点已启动并且是您要连接的节点,则写入将会成功。如果是其他节点,则写入会失败。如果您使用 ANY,写入将会成功,假设您正在与正在运行的节点通信。我认为您还必须为此启用暗示切换。关闭的节点稍后会获取数据,并且在此之后您将无法读取数据,甚至无法从运行的节点读取数据。

在其他两个示例中,复制因子将影响最终写入的副本数量,但不会影响我上面描述的客户端行为。 QUORUM 将影响客户端行为,因为您必须有足够数量的节点启动并响应写入和读取。如果幸运的话,您需要的节点中至少有 (nodes/2) + 1 个节点已启动,那么写入和读取就会成功。如果没有足够的节点来启动副本,则读取和写入将会失败。总体而言,如果某个节点发生故障,假设不需要该节点来存储副本,或者其中断仍然留下足够的副本节点可用,则某些 QUORUM 读取和写入可以成功。

关于cassandra - 了解 cassandra 复制因子与一致性级别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24587869/

相关文章:

python - 如何使用 cqlengine 在 cassandra 中批量/批量插入?

java - 将数据从java存储到cassandra

cassandra - 在 Cassandra 中选择两个表

java - Intellij 中的 Cassandra 插件

Cassandra 未在集群中的现有节点上平衡数据

java - 在spark java api(org.apache.spark.SparkException)中使用filter(),map(),...时出错

node.js - cassandra 在执行时继续运行

java - 是否可以禁用日志文件中的 TimingLogger 行?

Cassandra:集群如何处理死节点?

apache-spark - 在spark/scala中迭代一个巨大的数据框