hadoop - CAP 与分布式系统

说到nosql分布式数据库系统，我们都知道它们都属于CAP定理的三取二。对于网络故障和节点故障不可避免的分布式集群，分区容忍是必要的，因此我们只能从可用性和一致性中选择一个。所以它基本上是 CP 或 AP。

我的问题是

hadoop属于哪一类。
假设我有一个包含 6 个节点 ABC 和 DEF 的集群，在网络故障期间，假设节点 A、B、C 和节点 D、E、F 分为两个独立的集群。

现在在一个一致的和分区容忍的系统 (CP) 模型中，因为节点 A 中的更新不会复制到节点 D，系统的一致性不允许用户更新或读取数据，直到网络再次运行，因此使得数据库关闭。

而一个可用且分区容忍的系统将允许节点 D 的用户在节点 A 进行更新时看到旧数据，但不保证节点 D 的用户获得最新数据。但是一段时间后，当网络再次运行时，它将节点 A 的最新数据复制到节点 D，从而允许节点 D 的用户查看最新数据。

从以上两个场景我们可以得出结论，在 AP 模型中，数据库没有运行空间，因此即使在故障期间也允许用户写入和读取，并 promise 在网络再次启动时向用户提供最新数据，那么人们为什么要去用于一致和分区容忍模型(CP)。在我看来，在网络故障期间 (AP) 比 (CP) 具有优势，允许用户在 (CP) 下的数据库关闭时读取和写入数据。
除了Cassandra的最终一致性概念，有没有系统可以一起提供CAP。
用户何时会选择可用性而不是一致性，反之亦然。是否有任何数据库允许用户在 CP 和 AP 之间相应地切换其选择。

提前致谢:)

最佳答案

HDFS 有一个独特的中央决策点，namenode .因此它只能落在 CP 端，因为关闭名称节点会关闭整个 HDFS 系统(无可用性)。 Hadoop 不会试图隐藏这一点:

The NameNode is a Single Point of Failure for the HDFS Cluster. HDFS is not currently a High Availability system. When the NameNode goes down, the file system goes offline. There is an optional SecondaryNameNode that can be hosted on a separate machine. It only creates checkpoints of the namespace by merging the edits file into the fsimage file and does not provide any real redundancy.

由于决定将数据放置在何处以及可以从何处读取数据始终由名称节点处理，它在内存中保持一致的 View ，因此 HDFS 始终是一致的 (C)。它还具有分区容错性，因为它可以根据复制因子和数据拓扑策略处理丢失的数据节点。

Is there any system that can provide CAP together?

是的，市场营销和其他非技术出版物中经常提到此类系统。

When does a user Choose availability over consistency and vice versa.

这是一个业务用例决策。当可用性更重要时，他们会选择 AP。当一致性更重要时，他们会选择 CP。一般来说，当金钱易手时，一致性优先。几乎所有其他情况都支持可用性。

Is there any database out there that allows user to switch its choice accordingly between CP and AP

允许您修改写入和读取仲裁的系统可以根据需要调整为 CP 或 AP。

关于hadoop - CAP 与分布式系统，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19923196/

hadoop - CAP 与分布式系统

上一篇：maven - 用于 Hadoop 2.6.0 的 pom.xml

下一篇：hadoop - Hadoop 2 中 3 个内存参数之间的区别？