google-cloud-platform - Dataproc YARN 容器日志位置

标签 google-cloud-platform pyspark google-cloud-dataproc

我知道这个线程的存在:
where are the individual dataproc spark logs?

但是，如果我 ssh 连接到工作节点 vm 并导航到/tmp 文件夹，这就是我所看到的:

有谁能指出我的确切位置吗？

同样出于某种原因，我无法直接从 UI 导航到单个任务的 stdout/stderr，因为它说每当我尝试从 UI 中的链接访问日志时我都无法访问该站点

最佳答案

之前的答案看起来已经过时了。

如果您在谈论容器日志，那么:

在具有 1.5 或更新版本镜像的集群上，Yarn 日志聚合默认启用，远程日志目录设置为集群的临时存储桶。可以在/etc/hadoop/conf/yarn-site.xml下查找，配置为yarn.nodemanager.remote-app-log-dir。
在具有 1.4 或更旧镜像的集群上，默认情况下不启用日志聚合，因此容器日志将位于工作节点上的 /var/log/hadoop-yarn/userlogs 下容器已运行。

关于google-cloud-platform - Dataproc YARN 容器日志位置，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69195637/

上一篇：r - 根据奇数行或偶数行更改 color_bar 颜色，R 表

下一篇：validation - F# - 嵌套类型

相关文章：

unit-testing - 从 reduceByKey() 调用函数时单元测试期间的导入错误

apache-spark - 暂停 Dataproc 集群 - Google 计算引擎

hadoop - 如何在 Dataproc 集群启动时自动安装 Python 库？

amazon-web-services - 创建k8s资源并等待完成继续下一步

google-cloud-platform - 为什么BigQuery在非大数据大小上这么慢？

apache-spark - 当系列到系列(PandasUDFType.SCALAR)可用时，为什么系列迭代器到系列 pandasUDF(PandasUDFType.SCALAR_ITER)的迭代器？

apache-kafka - Dataproc 中的 Presto : configure a Kafka catalog

google-cloud-platform - 您无权在组织外部创建项目

google-cloud-platform - 在 gcloud console iam 中，如何向组添加角色？

hadoop - 除了 pyspark 之外，我还需要使用普通的 python 还是 pyspark 拥有我需要的一切？

©2024 IT工具网联系我们