scala - Spark:如何告诉Spark使用本地hadoop而不是其嵌入式hadoop?

标签 scala apache-spark hadoop

我在PC上安装了hadoop(v2.8),并且运行良好。

x:conf techlead$ hadoop version
Hadoop 2.8.5
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 0b8464d75227fcee2c6e7f2410377b3d53d3d5f8
Compiled by jdu on 2018-09-10T03:32Z
Compiled with protoc 2.5.0
From source with checksum 9942ca5c745417c14e318835f420733
This command was run using /usr/local/Cellar/hadoop-2.8.5/share/hadoop/common/hadoop-common-2.8.5.jar
然后我安装了Spark并将其配置为使用yarn,但是当我启动它时,它使用的是嵌入式hadoop:
20/09/28 00:26:33 INFO repl.SparkILoop: Created spark context..
Spark context available as sc.
20/09/28 00:26:33 INFO hive.HiveContext: Initializing execution hive, version 1.2.1
20/09/28 00:26:33 INFO client.ClientWrapper: Inspected Hadoop version: 2.6.0
20/09/28 00:26:33 INFO client.ClientWrapper: Loaded org.apache.hadoop.hive.shims.Hadoop23Shims for Hadoop version 2.6.0
我在Internet上搜索,但未找到解决方案。 hadoop和spark都在单节点模式下在我的PC上运行,我想告诉spark使用我在PC(2.8.5)上安装的hadoop而不是嵌入式2.6.0。我还注意到它使用的scala版本也与我在PC上安装的版本不同。

最佳答案

Spark使用特定版本的Hadoop进行编译。请参阅pom.xml“hadoop.version”行。如果您想将Spark与其他版本一起使用,则需要查找使用该版本Hadoop的Spark版本,或重新编译所需的版本。

关于scala - Spark:如何告诉Spark使用本地hadoop而不是其嵌入式hadoop?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64093900/

相关文章:

scala - 从scala中的 map 获取 key

ubuntu - 构建neo4j mazerunner项目时出现的问题

hadoop - 如何将 JavaRDD<<List<String>> 转换为 JavaPairRDD<String, String>

hadoop - 为什么Flink 1.4中的每个处理插槽都使用单独的内核?

java - 强制 java jar 在 EMR 上不使用类路径包

performance - Spark withColumn 性能

scala - 如何获取play框架中所有Route URL字符串的列表?

scala - 将拆分与数据框一起使用时出现未找到错误

cassandra - Spark Cassandra 连接器的正确使用

hadoop - 从表中创建 json