我刚刚在 Linux
中启动了一个新的 AWS
实例。而且,我在上面安装了 pyspark
。它有 spark 1.6
。
我正在使用 yarn
运行 pyspark
。当我在终端中执行命令 pyspark
时,它最初启动,但随后我收到消息:
dd/mm/YY HH:MM:SS INFO yarn.Client: Application report for application_XXXXXXXXXXX_XXXX (state: ACCEPTED)
.....然后这就永远持续下去。
因此,我检查了 yarn
以查看是否有其他任何东西在运行:
yarn application -list
并且只显示我的应用程序正在运行。如何打开 pyspark
shell 并让我的应用程序启动而不只是被ACCEPTED
?
最佳答案
您可以尝试运行 spark-shell 并查看它是否进入运行状态吗?
当 yarn 没有向它请求资源时,就会发生这种情况。
示例:假设 yarn 有 5gb 的可用内存,而您请求 10gb。你的工作将停留在接受阶段,直到它获得请求的内存。
尝试使用以下配置运行您的作业:
pyspark --total-executor-cores 2 --executor-memory 1G
关于apache-spark - 为什么我的 pyspark 在启动时在 yarn 中以 ACCEPTED 状态挂起?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42863521/