amazon-ec2 - EC2上的Spark无法利用所有可用内核

标签 amazon-ec2 mapreduce apache-spark

我在通过Spark脚本设置的EC2群集上运行spark-ec2.sh。我启动的5个从属实例共有40个核心，但是每个实例都无法利用所有核心。

从奴隶日志中，我可以看到奴隶似乎一一执行任务。我在从属实例上运行最高，CPU大约是100％，而不是800％。

我已打开spark.mesos.coarse模式。并将数据分为40个块。当我在本地以独立模式运行Spark时，它可以利用8个内核。

我可以做些什么使Spark从站利用所有可用的内核？

最佳答案

尝试在创建spark.cores.max之前将8设置为SparkContext

在Spark 0.9中：

val conf = new SparkConf() 
   .setMaster("...")
   .set("spark.cores.max", "8")
val sc = new SparkContext(conf)

关于amazon-ec2 - EC2上的Spark无法利用所有可用内核，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16749141/

上一篇：kubernetes - 重新缩放到 0 个节点时的 Google Cloud Kubernetes 成本

下一篇：performance - 如果是 Chrome，请使用 WebP

相关文章：

java - 多个输出突然不写任何输出？

python - 处理 spark 数据帧中的非统一 JSON 列

apache-spark - 在pyspark UDF中使用tensorflow.keras模型会产生pickle错误

python - python平台库中的platform.linux_distribution返回(无，无，无)

python - 我如何通过 boto3 获取 aws 卷的可用大小

mongodb - 不使用 map/reduce 在 mongodb 中联合查询

hadoop - 当CouchDB 1.6是单服务器数据库时，它如何固有地利用Map Reduce的优势

java - 遇到无法在 pyspark 上运行程序的错误

amazon-web-services - 通过 VPC 对等连接到互联网

amazon-web-services - AWS Elastic Beanstalk 上的 Spring Boot 和记录到文件