hadoop - HDFS 中的 Spark 类路径

对于在 YARN(yarn-client)上运行的 Spark 作业，是否可以使用位于 HDFS 中的 jar 来指定类路径

有点像使用 MapReduce 作业可以实现:

DistributedCache.addFileToClassPath(Path file, Configuration conf, FileSystem fs)

最佳答案

来自 SparkContext 文档:

def addJar(path: String): Unit

Adds a JAR dependency for all tasks to be executed on this SparkContext in the future. The path passed can be either a local file, a file in HDFS (or other Hadoop-supported filesystems), an HTTP, HTTPS or FTP URI, or local:/path for a file on every worker node.

所以我认为只需将其添加到 SparkContext 初始化中就足够了:

sc.addJar("hdfs://your/path/to/whatever.jar")

如果您只想添加一个文件，可以使用相关的 addFile() 方法。

参见docs了解更多。

关于hadoop - HDFS 中的 Spark 类路径，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34811502/

上一篇：maven - Guava 的 Spark 1.3 和 Cassandra 3.0 问题

下一篇：java - 如何使用最后一个输入行转发 Hive UDTF 输出

相关文章：

scala spark 使用 expr 在列内取值

java - META-INF/spring.factories 中缺少 spring 自动配置类

scala - 当第一行是模式时，如何从 Spark 中的 csv(使用 scala)创建数据框？

hadoop - 在 Apache Hadoop 中的 Datanode 内重新平衡磁盘

hadoop - Hadoop多文件输出方案

hadoop - tez session 没有在 hive 中开始

scala - 循环遍历文件行并通过 Spark 中的每次迭代执行函数

hadoop - 立即将实时数据从服务器导入到HDFS？

hadoop - Hive:将表结构复制到另一个集群

hadoop - yarn 在 1 小时后自动杀死所有作业，没有错误