google-cloud-platform - Dataproc YARN 容器日志位置

标签 google-cloud-platform pyspark google-cloud-dataproc

我知道这个线程的存在:
where are the individual dataproc spark logs?

但是,如果我 ssh 连接到工作节点 vm 并导航到/tmp 文件夹,这就是我所看到的: ls /tmp

有谁能指出我的确切位置吗?

同样出于某种原因,我无法直接从 UI 导航到单个任务的 stdout/stderr,因为它说每当我尝试从 UI 中的链接访问日志时我都无法访问该站点

最佳答案

之前的答案看起来已经过时了。

如果您在谈论容器日志,那么:

  1. 在具有 1.5 或更新版本镜像的集群上,Yarn 日志聚合默认启用,远程日志目录设置为集群的临时存储桶。可以在/etc/hadoop/conf/yarn-site.xml下查找,配置为yarn.nodemanager.remote-app-log-dir
  2. 在具有 1.4 或更旧镜像的集群上,默认情况下不启用日志聚合,因此容器日志将位于工作节点上的 /var/log/hadoop-yarn/userlogs 下容器已运行。

关于google-cloud-platform - Dataproc YARN 容器日志位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69195637/

相关文章:

unit-testing - 从 reduceByKey() 调用函数时单元测试期间的导入错误

apache-spark - 暂停 Dataproc 集群 - Google 计算引擎

hadoop - 如何在 Dataproc 集群启动时自动安装 Python 库?

amazon-web-services - 创建k8s资源并等待完成继续下一步

google-cloud-platform - 为什么BigQuery在非大数据大小上这么慢?

apache-spark - 当系列到系列(PandasUDFType.SCALAR)可用时,为什么系列迭代器到系列 pandasUDF(PandasUDFType.SCALAR_ITER)的迭代器?

apache-kafka - Dataproc 中的 Presto : configure a Kafka catalog

google-cloud-platform - 您无权在组织外部创建项目

google-cloud-platform - 在 gcloud console iam 中,如何向组添加角色?

hadoop - 除了 pyspark 之外,我还需要使用普通的 python 还是 pyspark 拥有我需要的一切?