amazon-ec2 - EC2上的Spark无法利用所有可用内核

标签 amazon-ec2 mapreduce apache-spark

我在通过Spark脚本设置的EC2群集上运行spark-ec2.sh。我启动的5个从属实例共有40个核心,但是每个实例都无法利用所有核心。

从奴隶日志中,我可以看到奴隶似乎一一执行任务。我在从属实例上运行最高,CPU大约是100%,而不是800%。

我已打开spark.mesos.coarse模式。并将数据分为40个块。当我在本地以独立模式运行Spark时,它可以利用8个内核。

我可以做些什么使Spark从站利用所有可用的内核?

最佳答案

尝试在创建spark.cores.max之前将8设置为SparkContext

在Spark 0.9中:

val conf = new SparkConf() 
   .setMaster("...")
   .set("spark.cores.max", "8")
val sc = new SparkContext(conf)

关于amazon-ec2 - EC2上的Spark无法利用所有可用内核,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16749141/

相关文章:

java - 多个输出突然不写任何输出?

python - 处理 spark 数据帧中的非统一 JSON 列

apache-spark - 在pyspark UDF中使用tensorflow.keras模型会产生pickle错误

python - python平台库中的platform.linux_distribution返回(无,无,无)

python - 我如何通过 boto3 获取 aws 卷的可用大小

mongodb - 不使用 map/reduce 在 mongodb 中联合查询

hadoop - 当CouchDB 1.6是单服务器数据库时,它如何固有地利用Map Reduce的优势

java - 遇到无法在 pyspark 上运行程序的错误

amazon-web-services - 通过 VPC 对等连接到互联网

amazon-web-services - AWS Elastic Beanstalk 上的 Spring Boot 和记录到文件