hadoop - 在没有任何 hadoop 依赖的情况下构建 Spark

标签 hadoop apache-spark

我发现了一些对 -Phadoop-provided 标志的引用,用于在没有 hadoop 库的情况下构建 Spark,但找不到如何使用它的好示例。如何从源代码构建 Spark 并确保它不会添加任何它自己的 hadoop 依赖项。看起来当我构建最新的 Spark 时,它包含了一堆与我的集群 hadoop 版本冲突的 2.8.x hadoop 内容。

最佳答案

Spark 具有“使用用户提供的 Hadoop 预构建”的下载选项,因此以 spark-VERSION-bin-without-hadoop.tgz 命名

如果您确实想构建它,请从项目根目录运行它

./build/mvn -Phadoop-provided -DskipTests clean package

关于hadoop - 在没有任何 hadoop 依赖的情况下构建 Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44484100/

相关文章:

java - 使用 Java API 创建一个简单的 1 行 Spark DataFrame

apache-spark - 你如何覆盖 Spark Java 堆大小?

scala - 当条件与列一起使用时具有动态的数据框

hadoop - 如何使用hadoop fs -cp s3 ://<bucket> hdfs:///tmp

hadoop - 如何根据 S3 中的特定模式修改文件内容

hadoop - 从 Cassandra 加载数据

windows - Windows中缺少Hadoop安装

Hadoop master 无法使用不同的 $HADOOP_HOME 启动 slave

scala - 星火集群 : How to print out the content of RDD on each worker node

java - 通过在两列之间添加空列来使用现有数据集创建新数据集