hadoop - 在 Spark 中使用哪个设置来指定 `Output` 的压缩？

因此，Spark 有文件 spark-defaults.xml 用于指定哪些设置，包括要使用哪个压缩编解码器以及在哪个阶段(RDD、Shuffle)。大多数设置都可以在应用程序级别进行设置。

编辑:

conf = SparkConf() conf.set("spark.hadoop.mapred.output.compress", "true") conf.set("spark.hadoop.mapred.output.compression.codec", "org.apache.hadoop.io.compress.snappy")

如何使用 spark-defaults.xml 告诉 Spark 使用特定的编解码器仅压缩 Spark 输出？

选项 1 spark.hadoop.mapred.output.compress 真 spark.hadoop.mapred.output.compression.codec snappy

选项 2: spark.mapreduce.output.fileoutputformat.compress 真 spark.mapreduce.output.fileoutputformat.compress.codec snappy

选项 3: mapreduce.output.fileoutputformat.compress 真 mapreduce.output.fileoutputformat.compress.codec snappy

任何人都有正确的方法来设置它(从任何这些选项或类似的东西)？我正在运行 Spark 1.6.1。

最佳答案

您应该将此添加到您的 spark-defaults.xml:

<property>
    <name>spark.hadoop.mapred.output.compress</name>
    <value>true</value>
</property>
<property>
    <name>spark.hadoop.mapred.output.compression.codec</name>
    <value>snappy</value>
</property>

这与在 spark-submit 命令中添加这些相同:

--conf spark.hadoop.mapred.output.compress=true
--conf spark.hadoop.mapred.output.compression.codec=snappy

关于hadoop - 在 Spark 中使用哪个设置来指定 `Output` 的压缩？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38939024/

上一篇：sql - 如何在 HIVE 中使用 "in"和 "having"子句？

下一篇：python - 验证字段值的有效方法 Spark

apache-spark - 使用 Spark Structured Streaming 处理后删除文件

eclipse - 在Eclipse Indigo中构建hadoop mapreduce

java - 复杂类型的缩减器中 ReadFields() 中的空缓冲区

sql - 如何使用 HIVE 在 WHERE 语句中对 OR 子句进行分组

hadoop - Cloudera - 导入时的 Sqoop codegen 自定义 ORM 类

scala - 在Spark数据帧中将所有 “:”替换为 “_”

scala - 是否可以将 word2vec 预训练的可用向量加载到 Spark 中？

hadoop - 使用 loadfunc pig UDF 将 protobuf 格式文件加载到 pig 脚本中

mongodb - hadoop mongodb 连接器 - 输出数据不是 mongodb 而是 hdfs