hadoop - zookeeper和kafka在hadoop 2.6集群中放在哪里

标签 hadoop apache-zookeeper apache-kafka

Hadoop 2.6 使用 Yarn 作为下一代 map reduce,也是集群管理器。我们还需要使用 zookeeper 和 hadoop 2.6 来管理集群服务吗?我们如何设置动物园管理员。

如何为 hadoop 集群安装 Kafka 连接。 kafka 将数据发送到 hadoop 文件系统的消费者和生产者是什么。

它们都适合什么地方。

我已经设置了一个 hadoop 2.6 单节点集群。接下来,我的理解是让 zookeeper 和 Kafka 将数据流式传输到 hadoop 文件系统。 而且我不知道如何将 kafka 用于 hadoop 或其 api。

最佳答案

Zookeeper 是分布式系统的协调框架。 Zookeeper 用于协调 HDFS 和 Yarn 高可用性中的状态,Hbase 主服务器和区域服务器之间的协调等。 Kafka 与 Apache Storm、Apache HBase 和 Apache Spark 结合使用,用于流数据的实时分析和渲染。 常见用例包括:

  1. 流处理。
  2. 网站事件跟踪
  3. 指标收集和监控
  4. 日志聚合

通常我们将 Kafka 与 Storm 一起使用。 Storm 需要一个 zookeeper 集群来协调 nimbus 和 supervisor。 Kafka 需要 zookeeper 来存储有关集群状态和消费者偏移量的信息。

Zookeeper 基本上提供了一个高可用的文件系统,用户/应用程序可以在其中读取/写入小数据。此数据可以是与通信或交易相关的内容。由于文件系统具有高可用性,因此通信将始终是完整的,不会进入部分或未知状态。 Zookeeper 集群最多可以承受一定数量的故障,具体取决于分区的数量(比如 N),它可以容忍 N-1 次故障。 更多详情,可以引用以下网址1 2 3

关于hadoop - zookeeper和kafka在hadoop 2.6集群中放在哪里,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31651980/

相关文章:

具有多个参数的作业的 Hadoop 流式处理

apache-spark - 使用 HDFS 存储的 Spark 作业

hadoop - spark sc.textfile 的详细工作原理是什么?

apache-zookeeper - 如果三个节点之一出现故障,Zookeeper 能否保持高可用性

hadoop - ResourceManager无法启动

ActiveMQ 使用 Zookeeper 复制 levelDB

hadoop - 有和没有reducer的map-reduce工作时间之间的比较

apache-kafka - Kafka - 处理消费者缓慢的最佳实践。如何实现更多的并行性?

spring - 目前是否可以在 spring-cloud-streams 中将 pulsar 换成卡夫卡

java - Kafka - 偏移量和 logSize