apache-spark - 为什么我的 pyspark 在启动时在 yarn 中以 ACCEPTED 状态挂起?

标签 apache-spark amazon-ec2 pyspark hadoop-yarn

我刚刚在 Linux 中启动了一个新的 AWS 实例。而且,我在上面安装了 pyspark。它有 spark 1.6

我正在使用 yarn 运行 pyspark。当我在终端中执行命令 pyspark 时,它最初启动,但随后我收到消息:

dd/mm/YY HH:MM:SS INFO yarn.Client: Application report for application_XXXXXXXXXXX_XXXX (state: ACCEPTED)

.....然后这就永远持续下去。

因此,我检查了 yarn 以查看是否有其他任何东西在运行:

yarn application -list

并且只显示我的应用程序正在运行。如何打开 pyspark shell 并让我的应用程序启动而不只是被ACCEPTED

最佳答案

您可以尝试运行 spark-shell 并查看它是否进入运行状态吗?

当 yarn 没有向它请求资源时,就会发生这种情况。

示例:假设 yarn 有 5gb 的可用内存,而您请求 10gb。你的工作将停留在接受阶段,直到它获得请求的内存。

尝试使用以下配置运行您的作业:

pyspark --total-executor-cores 2 --executor-memory 1G

关于apache-spark - 为什么我的 pyspark 在启动时在 yarn 中以 ACCEPTED 状态挂起?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42863521/

相关文章:

apache-spark - Spark 操作因 EOFException 而卡住

apache-spark - 使用 Spark 读取 SAS sas7bdat 数据

java - Spring/Java,与另一台服务器上的命令行 Java 应用程序远程交互的好方法?

amazon-web-services - 如何使用 IAM 服务在 AWS 中按实例类型限制实例启动

azure pyspark从jar注册udf失败UDFRegistration

python - 从多行记录创建 Spark 数据结构

python - Apache Spark Streaming 不读取目录

scala - 如何使用 Spark 独立集群在工作节点上管理多个执行程序?

amazon-web-services - 使用 AWS (ec2) 主机激活 PositiveSSL - Namecheap

apache-spark - Spark + 写入 Hive 表 + 解决方法