amazon-web-services - 如何在 EMR 中设置自定义环境变量以供 spark 应用程序使用

标签 amazon-web-services hadoop apache-spark environment-variables emr

我需要在 EMR 中设置一个自定义环境变量,以便在运行 spark 应用程序时可用。

我试过添加这个:

                   ...
                   --configurations '[                                    
                                      {
                                      "Classification": "spark-env",
                                      "Configurations": [
                                        {
                                        "Classification": "export",
                                        "Configurations": [],
                                        "Properties": { "SOME-ENV-VAR": "qa1" }
                                        }
                                      ],
                                      "Properties": {}
                                      }
                                      ]'
                   ...

还尝试用 hadoop-env 替换“spark-env” 但似乎没有任何效果。

this来自aws论坛的回答。但我不知道如何应用它。 我在 EMR 5.3.1 上运行并通过 cli 中的预配置步骤启动它:aws emr create-cluster...

最佳答案

将如下 JSON 之类的自定义配置添加到文件中,比如 custom_config.json

[   
  {
   "Classification": "spark-env",
   "Properties": {},
   "Configurations": [
       {
         "Classification": "export",
         "Properties": {
             "VARIABLE_NAME": VARIABLE_VALUE,
         }
       }
   ]
 }
]

并且,在创建 emr 集群时,将文件引用传递给 --configurations 选项

aws emr create-cluster --configurations file://custom_config.json --other-options...

关于amazon-web-services - 如何在 EMR 中设置自定义环境变量以供 spark 应用程序使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42395020/

相关文章:

hadoop - Hadoop中的输入拆分

java - Hadoop:当我们使用 NLineInputFormat 时,Mappers 是否并行运行?

java - Spark NotSerializableException

java - 如何在 Java 中使用 Column.isin?

java - 使用Spark的REST API提交时,driver在哪里运行以及如何访问SparkSession?

node.js - AWS Cloud9 Lambda 安装node.js 模块

amazon-web-services - ALB 未正确传播响应 header

amazon-web-services - 是否可以为 Amplify Datastore 构建动态查询?

amazon-web-services - 通过 CloudFormation 创建 ECS ecsTaskExecutionRole 的 AWS 区域注意事项

hadoop - 错误: Jobflow entered COMPLETED while waiting to ssh