我发现了一些对 -Phadoop-provided
标志的引用,用于在没有 hadoop 库的情况下构建 Spark,但找不到如何使用它的好示例。如何从源代码构建 Spark 并确保它不会添加任何它自己的 hadoop 依赖项。看起来当我构建最新的 Spark 时,它包含了一堆与我的集群 hadoop 版本冲突的 2.8.x
hadoop 内容。
最佳答案
Spark 具有“使用用户提供的 Hadoop 预构建”的下载选项,因此以 spark-VERSION-bin-without-hadoop.tgz
命名
如果您确实想构建它,请从项目根目录运行它
./build/mvn -Phadoop-provided -DskipTests clean package
关于hadoop - 在没有任何 hadoop 依赖的情况下构建 Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44484100/