hadoop - 如何部署Spark,使其可以最大程度地利用资源

标签 hadoop docker apache-spark openstack apache-cloudstack

我有10台服务器(16G内存,8核),并且想要部署Hadoop和Spark,您能告诉我哪个计划可以最大程度地利用资源吗?

  • 立即部署;
  • 安装Openstack,将环境部署到虚拟机中;
  • 使用Docker的
  • ,例如Docker上的Spark;

  • 我知道与使用情况相关的资源利用率,实际上我想知道上述三个计划的优缺点。

    谢谢。

    最佳答案

    为了获得最高的资源利用率,最好为Spark和Hadoop部署一个资源管理器。有两种选择:

  • 因为Spark可以在YARN上运行,所以使用YARN部署Hadoop集群。
  • 部署Apache Mesos集群,并在其上运行Hadoop作业和Spark。

  • 隔离Spark群集和Hadoop群集在此方面没有任何优势,并且会导致更高的开销和更低的资源利用率。

    关于hadoop - 如何部署Spark,使其可以最大程度地利用资源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26238459/

    相关文章:

    hadoop - Hive中的分区和存储桶

    apache-spark - 无法使用 PySpark 从 Elasticsearch 读取

    node.js - 如何基于 GitHub webhook 自动化部署 docker?

    scala - Spark 2.4 CSV 加载问题,选项 "nullvalue"

    unix - 实现单词计数示例并出现以下错误

    eclipse - 如何使用Eclipse运行MapReduce Jar

    docker - 从 Ansible 使用预设 IP 运行 Docker 容器

    docker - 在 swarm 集群中的特定节点上运行 docker 容器

    scala - 在Scala-Spark1.5.2中递归过滤RDD

    apache-spark - 是否可以获取已经运行的 spark 应用程序的 sparkcontext?