我想调试在 AWS EMR 集群上运行的 Spark 应用程序。如果我可以使用 IntelliJ 远程连接和调试它,那就太棒了。我已经搜索过,但发现的很少。
是否有可能,如果可能,有人可以指出我正确的方向吗?
谢谢。
最佳答案
首先,我要提醒您,由于 AWS EMR 的众多错误和意外用例,您尝试做的事情基本上是不可能的。我强烈建议您为最大的单个实例付费来运行您的工作(他们有 c4.8xlarge
在经济实惠的一端,x1.32xlarge
用于真正的疯狂!),然后简单地安装 spark
在该实例中并运行您的工作。
先决条件
nc -l 5005
在你的机器上。 SSH 到您的主站并尝试 echo "test" | nc your_ip_address 5005
.直到你看到 test
在您机器的终端上,不要继续。 IntelliJ 设置
创建一个新的远程配置。将调试器模式更改为监听。命名配置并保存。当您点击调试时,它将等待连接。在该窗口中,您将看到“运行远程 JVM 的命令行参数”,内容如下:
-agentlib:jdwp=transport=dt_socket,server=n,address=localhost:5005,suspend=y
您可以删除
onthrow
和 oncaught
像我一样的线条。假设您的调试机器可以通过 Internet 访问 24.13.242.141
.假装它真的读到:-agentlib:jdwp=transport=dt_socket,server=n,address=24.13.242.141:5005,suspend=y
我们将使用它来设置 Spark 进程的调试。
Spark 设置
有两个进程可以调试:驱动程序进程(执行您的
SparkContext
实例化的代码)和执行程序进程。最终,您会将这些 JVM 选项传递给 spark-submit
的特殊参数。使连接发生。要调试驱动程序,请使用spark-submit --driver-java-options -agentlib:jdwp=transport=dt_socket,server=n,address=24.13.242.141:5005,suspend=y --class ...
对于调试执行程序进程,您将使用配置选项:
spark-submit --conf "spark.executor.extraJavaOptions=-agentlib:jdwp=transport=dt_socket,server=n,address=24.13.242.141:5005,suspend=y" --class ...
调试执行器特别棘手,因为会有多个进程。您无法像在 IntelliJ 中想象的那样真正调试多个进程。此外,您不能真正将 AWS EMR 中的执行者数量限制为 1,即使他们声称可以。我相信如果其他执行程序会失败(当他们无法连接到您的调试 session 时会失败),那没关系。但是这一步是未经测试的。
把这一切放在一起
您可以将参数修改为
spark-submit
使用 SDK 和 Web 控制台。请注意,在 SDK 中,您不应尝试自己连接“参数”——将它们作为数组项传递,就像它要求您那样。您将需要从集群开始时修改 master 的安全组以调试驱动程序(同样使用 slave 的安全组来调试 executor)。创建一个安全组,允许到您的 IP 地址和调试器端口的出站连接(即 TCP 出站到 24.13.242.141:5005)。您应该使用该条目创建一个安全组,并使用 AWS 开发工具包 (
.withAdditionalMasterSecurityGroups(...)
) 将其添加到主/从作业流实例配置的安全组。我不确定如何从 Web 控制台执行此操作。一些常见的问题
classpath "com.github.jengelman.gradle.plugins:shadow:1.2.4"
的 shadow Jar。插入。另外,启用 Zip64
.您将上传 :shadowJar
的结果任务到 S3 以在 AWS EMR 上实际执行。 buildscript {
repositories {
mavenCentral()
maven {
url "https://plugins.gradle.org/m2/"
}
}
dependencies {
classpath "com.github.jengelman.gradle.plugins:shadow:1.2.4"
}
}
apply plugin: "com.github.johnrengelman.shadow"
shadowJar {
zip64 true
}
--deploy-mode cluster
启动您的 Spark 应用程序和 --master yarn
(基本上没有记录)。 sc.hadoopConfiguration()
(例如, configuration.set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem");
)。根本不要配置这些属性! hadoop-aws
默认情况下在 EMR 环境中正常工作,并自动设置适当的属性。 log4j
仅报告的日志记录选项 WARN
和更高。在此 SDK 中,您将使用以下命令执行此操作:.withConfigurations(new Configuration()
.withClassification("spark-log4j")
.addPropertiesEntry("log4j.rootCategory", "WARN, console"))
containers/applications_.../container.../stderr.gz
在调试之前记录错误! maximizeResourceAllocation
spark
的配置属性分类。 new Configuration()
.withClassification("spark")
.addPropertiesEntry("maximizeResourceAllocation", "true"))
sc.close()
)。否则,Yarn 将永远不会启动。无证可笑。 ClassLoader.getSystemClassLoader()
.如 class A
一般在a.jar
想要访问 b.jar
中的资源, 和 class B
是 b.jar
中的一个类, 使用 B.class.getClassLoader().getResource...
.此外,使用相对路径(省略资源引用开头的正斜杠)。我建议捕捉 NullPointerException
s 并尝试两者,以便您的 JAR 可以正常工作,无论它是如何打包的。 Function
的类接口(interface)和类似的,确保创建一个无参数构造函数来执行你可能依赖的所有初始化。 Spark 对闭包和函数实例都使用 Kryo 序列化(而不是 Java 序列化),如果您忽略为应用程序特定的初始化代码(例如,从资源加载)提供无参数构造函数,您将不会执行所有您期望的初始化。 关于amazon-web-services - AWS EMR - IntelliJ 远程调试 Spark 应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40506908/