scala - Spark 独立模式 : Change replication factor of HDFS output

标签 scala hdfs apache-spark

在我的 hdfs-site.xml我将复制因子配置为 1。

但是,将我的结果写入 hdfs 时:

someMap.saveAsTextFile("hdfs://HOST:PORT/out")

结果会自动复制 3 倍,覆盖我自己的复制因子。为了节省一些空间,我希望输出的复制因子也为 1。

spark 如何告诉 HDFS 使用复制因子 1?

最佳答案

我认为 spark 正在加载 default hadoop config复制设置为 3。要覆盖它,您需要设置一个环境变量或系统属性,类似于您可以找到的其他 spark 配置 here .

你可能想要这样的东西:

System.setProperty("spark.hadoop.dfs.replication", "1")

或在您的 jvm 启动中:
 -Dspark.hadoop.dfs.replication=1

希望这样的事情应该工作......

关于scala - Spark 独立模式 : Change replication factor of HDFS output,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17231182/

相关文章:

java - Hadoop 文件系统 shell 在成功执行后返回 -1

hadoop - 数据节点运行但未检测到

scala - 在 Scala 中,将函数应用于不可变映射中某些键的值

Scala:如何强制将整数包装为对象?

scala - 如何定义接受柯里化(Currying)函数参数的函数?

file - 在 Pig 中使用 LOAD 时排除某些文件被加载

java - 将 java 包导入 scala 项目时出现问题(IntelliJ 10.5.2)

java - JSONLD : How to convert a json into JsonLD?

python - Pyspark - Python3 使用 configparser 从文件中获取变量

apache-spark - PySpark 截断小数