amazon-s3 - EMR Spark 壳不捡 jar

标签 amazon-s3 apache-spark emr

我正在使用 spark-shell我无法接听外部 jars .我跑 spark在电子病历中。

我运行以下命令:

spark-shell --jars s3://play/emr/release/1.0/code.jar

我收到以下错误:

OpenJDK 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0 Warning: Skip remote jar s3://play/emr/release/1.0/code.jar



提前致谢。

最佳答案

这是 Apache Spark 本身的限制,而不是 EMR 上的 Spark。在客户端部署模式下运行 Spark 时(所有交互式 shell,如 spark-shellpyspark ,或 spark-submit 没有 --deploy-mode cluster--master yarn-cluster ),只允许本地 jar 路径。

这样做的原因是为了让 Spark 下载这个远程 jar,它必须已经在运行 Java 代码,此时再将 jar 添加到自己的类路径中为时已晚。

解决方法是在本地下载 jar(使用 AWS S3 CLI),然后在运行 spark-shell 或 spark-submit 时指定本地路径。

关于amazon-s3 - EMR Spark 壳不捡 jar ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35635291/

相关文章:

json - 使用 JSON 数据运行 Hive 查询时出错?

amazon-web-services - 我可以像在本地集群上一样在 EMR 上运行作业吗

amazon-s3 - 安装aws-sdk后出错

apache-spark - 图X : Given one VertexID get all connected Vertices

amazon-s3 - 未使用 SinkMode.REPLACE 删除级联 S3 Sink Tap

apache-spark - "java.io.NotSerializableException: org.apache.spark.streaming.StreamingContext"执行 Spark 流时

apache-spark - 如何在执行器中获取工作目录

python - 我在EMR群集主服务器上运行的python作业失败,该如何解决?

java - 用于引用 s3 jar 文件的 Elastic MapReduce libjars 参数

c# - Windows 计划任务未使用 EC2 发布到 S3 存储桶