apache-spark - 我们在yarn cluster中运行时在哪里可以看到spark输出控制台

标签 apache-spark hadoop hadoop-yarn

我是 Spark、Hadoop 和 Yarn 的初学者。我用以下命令安装 Spark:https://spark.apache.org/docs/2.3.0/ 和 Hadoop/ yarn : https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html . 我的目标是在 yarn cluster 上运行 spark 应用程序，但我遇到了问题。我们怎么知道我们的设置何时工作？我会告诉你我的例子。完成设置后，我尝试运行测试 jar:examples/jars/spark-examples*.jar。当我在本地运行 spark 时: ./bin/spark-submit --class org.apache.spark.examples.SparkPi , 我在某一时刻看到了这一行:“Pi 大约是 3.1370956854784273”，而当我想在 yarn cluster 上运行时: ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster examples/jars/spark-examples*.jar 我没有看到“Pi 大约是 3.1370956854784273”在控制台中，我不知道在哪里可以找到它。我在 Url http://localhost:8088/cluster/cluster 中查看日志但它没有出现。你知道我应该看哪里吗？感谢您的帮助，祝您有愉快的一天。

最佳答案

您可以使用相同的 View 使用资源管理器和应用程序 ID 或者通过使用以下命令，您将获得应用程序的整个日志使用
yarn logs -applicationId 应用程序 ID

关于apache-spark - 我们在yarn cluster中运行时在哪里可以看到spark输出控制台，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54629755/

上一篇：java - Hadoop Library导入但无法在File System中设置 "get"方法

下一篇：json - 德鲁伊 Parquet 摄取性能差

hadoop - 了解登录hadoop

hadoop - 在 YARN 上启动的 h2o 不起作用

apache-spark - FileNotFoundException : Spark save fails. 无法从数据集 [T] avro 清除缓存

apache-spark - 关于 HIVE_STATS_JDBC_TIMEOUT 的任何更新以及如何在源代码级别跳过它

hadoop - Hive 表列日期格式

apache-spark - 将 GCS 暂存目录用于 Spark 作业(在 Dataproc 上)

java - YARN hadoop错误java堆空间

python - 如何将 numpy.array 作为新列添加到 pyspark.SQL DataFrame？

java - 我们如何强制许多映射器读取 hadoop 中的一个特定文件(相同数据)？