在我的 hdfs-site.xml
我将复制因子配置为 1。
但是,将我的结果写入 hdfs 时:
someMap.saveAsTextFile("hdfs://HOST:PORT/out")
结果会自动复制 3 倍,覆盖我自己的复制因子。为了节省一些空间,我希望输出的复制因子也为 1。
spark 如何告诉 HDFS 使用复制因子 1?
最佳答案
我认为 spark 正在加载 default hadoop config复制设置为 3。要覆盖它,您需要设置一个环境变量或系统属性,类似于您可以找到的其他 spark 配置 here .
你可能想要这样的东西:
System.setProperty("spark.hadoop.dfs.replication", "1")
或在您的 jvm 启动中:
-Dspark.hadoop.dfs.replication=1
希望这样的事情应该工作......
关于scala - Spark 独立模式 : Change replication factor of HDFS output,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17231182/