apache-spark -/usr/lib/spark/conf 和/etc/spark/conf 的区别

标签 apache-spark

我可以在两个位置看到相同的文件 -

/usr/lib/spark/conf

/etc/spark/conf

(我正在使用 Cloudera VM)

为什么 Spark 配置有两个不同的位置?

它们有什么关系?

最佳答案

默认情况下,spark 1.6.0 附带 Cloudera VM

installation directory of your spark is /usr/lib/spark

configuration directory for your spark is /etc/spark/conf.dist

The /usr/lib/spark/conf is a symbolic link pointing to /etc/spark/conf

/etc/spark/conf is again a symbolic link pointing to /etc/spark/conf.dist (which is your actual configuration directory)

'/usr/lib/spark/conf''/etc/spark/conf' 最终指向相同的路径

如果您想将 Spark 升级到更高版本,例如 2.2.0

  1. 将旧的二进制文件/usr/lib/spark 替换为新的二进制文件 2.2.0,并且
  2. 确保您的/etc/spark/conf 指向新的配置目录

希望这有帮助!

关于apache-spark -/usr/lib/spark/conf 和/etc/spark/conf 的区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45474716/

相关文章:

python - 从 PySpark DataFrame 中的 Python 列表列表中删除一个元素

python - 如何在 pyspark dataframe 中创建嵌套字典

python - 如何从 Jupyter 在 HDInsight Spark 集群上提交 python wordcount

apache-spark - 错误 : java. lang.IllegalArgumentException:选项 'basePath' 必须是目录

apache-spark - 将自定义函数应用于 spark 数据框组

scala - 每个列值的 Spark 计数和百分比异常处理和加载到 Hive DB

apache-spark - 在 Spark 2 中使用 DataSet.repartition - 多个任务处理多个分区

scala - 按 Spark DataFrame 中的数组值过滤

python - 使用 Pyspark 和 Hive 显示来自特定数据库的表

java - 由于 java.io.NotSerializableException : org. apache.spark.SparkContext,Spark 作业失败