用例是:我需要将我的所有数据从一个 HDFS 集群复制到另一个具有相同主从设置的集群,我将释放之前的集群并开始在新集群中运行我的作业。
我读过有关 Apache Falcon 和 Wandisco 不间断 Hadoop 的文章,它们有助于此镜像。但是我不确定当我将它们作为我的生态系统的一部分时它们提供的其他优势(哪个会更有优势? - 这将取决于我的用例,但我想知道是否有任何特别的优势)。根据您的经验,能否提供 Falcon 与 Wandisco 的类比?
最佳答案
(免责声明:我在 WANdisco 工作。)
我的观点是产品是互补的。 Falcon 除了数据传输之外还做了很多事情,比如设置数据工作流阶段。 WANdisco的产品做的是双活数据复制(也就是说源集群和目标集群的数据都可以等价使用)。
在您的用例中,如果您使用 Falcon,那么您实际上是在使用 DistCP 将数据复制到新集群。您可能会进行初始传输以获取大量数据,然后在某个时候您需要进行最终转换以获取所有增量,然后您可以让应用程序在新集群上运行。
如果您使用 WANdisco 的产品进行数据传输,您可以同时使用两个集群,因为复制引擎使用 Paxos 算法协调更改。这可能会使增量迁移更容易。
与 DistCP 相比,您会注意到连续主动-主动复制之间的区别的其他场景是备份和灾难恢复以及摄取到多个数据中心。希望对您有所帮助。
关于hadoop - 猎鹰 vs Wandisco 不间断,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28695166/