hadoop - 来自集群未知主机名的主机的 Spark YARN 客户端作业?

标签 hadoop apache-spark hadoop-yarn

我有一些私有(private)主机可以从 YARN 集群中通过 IP 而不是通过主机名可见。当他们尝试以 YARN 客户端模式提交任何 Spark 作业时,会尝试从集群连接驱动程序主机。由于默认情况下 spark.driver.host 配置为本地主机名,因此失败。

那么有什么好的选择来处理这个问题吗?诸如自动将 ``spark.driver.host` 设置为用于连接到集群的客户端 IP 接口(interface)地址之类的东西?

  • 正确的 DNS 解析不是选项。不可能。

最佳答案

基于此http://spark.apache.org/docs/latest/configuration.html它似乎也可以接收 IP。所以你不必设置主机名。

理想情况下,该属性的值必须是集群节点的内部地址。

关于hadoop - 来自集群未知主机名的主机的 Spark YARN 客户端作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24371714/

相关文章:

hadoop - `yarn.scheduler.maximum-allocation-mb` 和 `yarn.nodemanager.resource.memory-mb` 之间的区别?

apache-spark - 为什么我的 pyspark 在启动时在 yarn 中以 ACCEPTED 状态挂起?

java - HBase put [util.List [Put])不起作用

hadoop - Spark 1.6.2 启动 Windows 7 32 位失败

scala - Spark DataFrame 过滤器无法按预期与随机一起工作

apache-spark - spark-submit 的奇怪行为

java - Hadoop 错误 : Java heap space when using big dataset

hadoop - 在 Pig 的 Parquet 上使用 hive 表

hadoop - 如何在 Hive 中为 FIX 文件格式创建嵌套表

Python Spark/Yarn 内存使用