hadoop - Spark 集群 - 在 hadoop 上读/写

标签 hadoop apache-spark elasticsearch hadoop-yarn

我想从hadoop读取数据,在spark上处理,并在hadoop和elasticsearch上写入结果。我几乎没有工作节点来执行此操作。

Spark 独立集群就足够了吗?或者我需要创建hadoop集群来使用yarn或mesos吗?

如果独立集群模式足够了,是否应该像yarn、mesos模式那样在所有节点上设置jar文件?

最佳答案

首先,你不能在Hadoop中写入数据,也不能从Hadoop中读取数据。 HDFS(Hadoop生态系统的组件)负责数据的读/写。 现在回答你的问题

  1. 是的,可以从HDFS读取数据并在spark引擎中处理它,然后将输出写入HDFS。

  2. YARN、mesos 和 Spark Standalone 都是集群管理器,您可以使用它们中的任何一个来管理集群中的资源,与 hadoop 无关。但是,由于您想要从 HDFS 读取数据或向 HDFS 写入数据,那么您需要在集群上安装 HDFS,因此最好在所有节点上安装 hadoop,这样也会在所有节点上安装 HDFS。现在,无论您想使用 YARN、mesos 还是 Spark Standalone(您可以选择),所有这些都可以与 HDFS 配合使用,我自己使用 Spark Standalone 进行集群管理。

  3. 目前尚不清楚您正在谈论哪些 jar 文件,但我假设它将是 Spark 的,那么是的,您需要在每个节点上设置 Spark jar 的路径,以便在路径中不会出现矛盾 Spark 跑的。

关于hadoop - Spark 集群 - 在 hadoop 上读/写,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42357527/

相关文章:

hadoop - hdfs 将多个文件复制到同一目标目录

hadoop - 槽以近乎实时的方式复制RDBMS数据

java - 使用 Mapreduce 进行递归计算

apache-spark - SBT 无法导入 Kafka 编码器/解码器类

c# - 单例对象中的多个 Elasticsearch 连接在 Controller 类中获取一个特定的单例 Elasticsearch

hadoop - s3distcp 的多个源文件

scala - 如何列出 Spark Scala shell 中 HDFS 位置中的所有 csv 文件?

apache-spark - ALS 是确定性的吗?

elasticsearch - 在ElasticSearch中的文本字段上启用了字段数据,但聚合不起作用

java - 解析嵌套聚合查询响应