hadoop - Bluemix Spark 和 Hadoop 服务配置

标签 hadoop apache-spark ibm-cloud

在 Bluemix 上运行 Hadoop Big Insights 和 Apache Spark 服务的配置后,我注意到 Hadoop 的可配置性很强。我可以选择集群中将有多少个节点以及这些节点的 RAM 和 CPU 内核节点以及硬盘空间

Hadoop Service Configuration

但 Spark 服务似乎不太可配置。我唯一的选择是在 2 到 30 个 Spark 执行器之间进行选择。

Spark Service Configuration

作为 IBM IC4 项目的一部分,我正在使用 Bluemix 来评估这些服务,因此我对此有几个问题。

  1. Spark 服务是否可以像 Hadoop 服务一样配置?即选择节点、节点的 RAM、CPU 内核等。

  2. 在此上下文中什么是 Spark 执行器?他们是节点吗?如果有,它们的规范是什么?

  3. future 有计划改进Spark的配置选项吗?

很抱歉提出问题,但我需要了解这些规范才能开展我的工作。

最佳答案

Big Insights 服务就是一些人所说的托管服务。也就是说,当您在该服务的实例上进行配置时,您将获得自己的集群,其节点配置为所选计划中指定的。因此,您会想确切地知道您支付的每个节点给您带来了什么。另一方面,Apache Spark 服务是一种共享计算服务,您需要为运行您的 spark 程序的计算付费。运行 spark 是关于内存计算,并在其他数据服务托管的数据源上创建 RDD。所以在这种情况下,重要的是我可以运行多少个并发作业以及我可以使用多少内存运行多少个并行任务,等等。在 Spark 服务计划中,这些执行程序似乎是对这种计算能力的抽象;不幸的是,如果您关心的话,很难将其映射到物理硬件。计划描述需要更多的阐述和详细信息,说明如何将这种抽象转化为您如何映射到您的工作负载需求。

不过,据我所知,这应该会在不久的将来某个时候得到显着改善。有传言说只转向一个 Spark 服务计划,您可以随时拨入,您需要多少计算,当您单击“开始”时,它将对从那时起的所有 Spark 作业生效;似乎您可以转动刻度盘,直到得到您想要的东西,看看要花多少钱,然后将其锁定,直到下次需要更改它为止。我可以想象出比基于每个工作更有活力的东西。但无论如何,这似乎是该计算服务的发展方向。

关于hadoop - Bluemix Spark 和 Hadoop 服务配置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36764444/

相关文章:

hadoop - 使用Sqoop在Hadoop和INFORMATIONIX之间建立连接

hadoop - 在 pig 中重用变量

python - PySpark HDFS 数据流读/写

mysql - Bluemix ic 运行 chown : changing ownership Permission denied

node.js - 如何获得 IBM Watson Assistance 用户界面的意图置信度?

postgresql - 无法使用 Cloudera Manager 安装 hadoop

java - 如何从Java代码而不是命令提示符运行mahout的逻辑回归?

docker - 如何在Docker上设置Apache Spark和Zeppelin

mongodb - 存储用户数据并使用 Spark/hadoop 对其进行分析的常见做法是什么?