amazon-web-services - 在具有默认配置的EMR群集模式下会发生什么?

标签 amazon-web-services apache-spark hadoop yarn amazon-emr

我在Amazon Emr上运行具有以下阶段和配置的Spark应用程序

阶段:

        dstream.map(record => transformRecord).map(result => result._1).flatMap(rd => rd).foreacRDD(rdd => { rdd.toDF; df.save() })

组态:
在纱簇模式下,1个主节点和2个核心节点。所有其他spark属性均为默认设置,默认为2个spark执行程序,4个spark执行程序核心,内存为2g

用例:

使用来自消息代理的json记录流,对其进行转换,并将其持久保存到数据库中

问题:
  • 在执行spark-submit时使用了此配置-我看到只有一个spark执行器正在使用记录并对其进行处理。另一个就像一个调度程序。为什么会这样?
  • 从某种意义上说,如何增加并行处理会消耗更多记录并单独执行它们? (执行人员数量的增加是否会有所不同)
  • Spark 执行器和 yarn 上 Spark 的并行性之间有什么关系?
  • 最佳答案

    阅读了多个博客后,尝试了一些方法,

    回答:

  • 第一映射阶段由来自kafka / kinesis的 Spark 接收器线程支持。因此,它们侦听一个碎片和一个线程,创建多个dstream以增加读取并行度。

  • 剩下的还没有弄清楚它们。

    关于amazon-web-services - 在具有默认配置的EMR群集模式下会发生什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56305073/

    相关文章:

    java - Hadoop : Tools for visualizing key value data and files for development

    hadoop - 如何检查映射器的输入大小(以字节为单位)?

    swift - 解析 REST API key 破坏客户端 key 身份验证

    amazon-web-services - 如何触发step函数并获取失败或成功状态

    java - 如何在Spark 2.3.1中使用map和reduce函数进行分组和计数

    apache-spark - 分布式缓存和 Tachyon 有什么区别?

    hadoop - Hadoop Namenode HA 和 HDFS federation 之间有什么区别

    amazon-web-services - 两个 aws cloudformation 堆栈可以共享一个 AWS::Serverless::Function 吗?

    heroku - Heroku Dynos 是否享受 AWS 网络内的免费数据传输?

    macos - 在我的 Mac 上,hadoop 3.1.0 找到了 native 库,但 spark 2.3.1 没有