python - 如何增加bluemix上spark-submit作业的日志输出?

标签 python apache-spark ibm-cloud

我已将 python 作业作为服务提交给 bluemix Spark,但它失败了。不幸的是,日志记录不足,并且没有给我任何失败原因的线索。

如何提高日志级别输出?

spark 作为服务的输出:

==== Failed Status output =====================================================

Getting status
HTTP/1.1 200 OK
Server: nginx/1.8.0
Date: Thu, 12 May 2016 19:09:30 GMT
Content-Type: application/json;charset=utf-8
Content-Length: 850
Connection: keep-alive

{
  "action" : "SubmissionStatusResponse",
  "driverState" : "ERROR",
  "message" : "Exception from the cluster:
org.apache.spark.SparkUserAppException: User application exited with 255
    org.apache.spark.deploy.PythonRunner$.main(PythonRunner.scala:88)
    org.apache.spark.deploy.PythonRunner.main(PythonRunner.scala)
    sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:95)
    sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:55)
    java.lang.reflect.Method.invoke(Method.java:507)
    org.apache.spark.deploy.ego.EGOClusterDriverWrapper$$anon$3.run(EGOClusterDriverWrapper.scala:430)",
  "serverSparkVersion" : "1.6.0",
  "submissionId" : "xxxxxx",
  "success" : true
}
===============================================================================

我已针对 BigInsights 集群成功运行相同的作业。在 biginsights 集群上运行时,我还会得到更详细的输出。

最佳答案

stderr-%timestamp%stdout-%timestamp% 文件从集群下载到您运行 spark-submit.sh< 的本地目录。 通常您会在这两个文件中找到工作问题。

引用:http://spark.apache.org/docs/latest/spark-standalone.html#monitoring-and-logging

关于python - 如何增加bluemix上spark-submit作业的日志输出?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37195709/

相关文章:

python - 将 file1 的每一行复制到 file2 的每隔一行 (Python)

apache-spark - 如何将 org.apache.spark.rdd.RDD[Array[Double]] 转换为 Spark MLlib 所需的 Array[Double]

ibm-cloud - 向 IBM Bluemix Blockchain CA (membersrvc.yaml) 添加属性

python - Flask-Admin 在更新时删除辅助映射

python - 在python中获取屏幕大小

python - Django ORM - 如何结合注释和过滤

node.js - 推送 Bluemix 应用程序会删除公用文件夹中的文件

scala - 连接 RDD 上的随机分区器行为

scala - 如何避免在 Scala 的 Spark RDD 中使用收集?

docker - 如何在 bluemix 单个容器上访问 Wildfly 的 8080 和 9990 端口?