google-cloud-dataproc - 各个 dataproc Spark 日志在哪里?

标签 google-cloud-dataproc

dataproc spark 作业日志位于何处?我知道“日志记录”部分下有来自驱动程序的日志,但是执行节点呢?另外,Spark 正在执行的详细步骤记录在哪里(我知道我可以在 Application Master 中看到它们)?我正在尝试调试一个似乎挂起并且 spark 似乎卡住的脚本。

最佳答案

2022 年第三季度更新:此答案已过时,请参阅 Dataproc YARN container logs location获取最新信息。

任务日志存储在 /tmp 下的每个工作节点上。

可以通过 yarn 日志聚合将它们收集在一个地方。在集群创建时设置这些属性(通过带有 yarn: 前缀的 --properties):

  • yarn.log-aggregation-enable=true
  • yarn.nodemanager.remote-app-log-dir=gs://${LOG_BUCKET}/logs
  • yarn.log-aggregation.retain-seconds=-1

这是一篇讨论日志管理的文章:

https://hortonworks.com/blog/simplifying-user-logs-management-and-access-in-yarn/

关于google-cloud-dataproc - 各个 dataproc Spark 日志在哪里?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47342132/

相关文章:

google-cloud-platform - 如何在 GCP 中执行数据沿袭?

apache-spark - org.apache.spark.SparkException : Could not initialize class com. google.cloud.spark.bigquery.SparkBigQueryConnectorUserAgentProvider

google-cloud-dataproc - 与 Dataproc + Datalab + 源代码存储库集成

pyspark - 将 BigQuery 表读入 GCP DataProc 上的 Spark RDD,为什么在 newAPIHadoopRDD 中使用缺少该类

maven - 如何在 GCP 中向 dataproc 集群添加 jar 依赖?

python-2.7 - Pyspark 应用程序仅部分利用 dataproc 集群资源

google-cloud-platform - GCP 数据处理 : create cluster with stackdriver activated

google-cloud-platform - Cloud Dataproc 和其他 Google Cloud 产品的身份验证错误

google-cloud-dataproc - Google Dataproc 抢占式工作线程的初始化操作

dask - 使用现有的 dataproc 集群运行 dask