python - 如何通过pyspark以gzip格式保存spark RDD

标签 python apache-spark pyspark

所以我使用以下代码将 spark RDD 保存到 S3 存储桶。有没有办法压缩(gz 格式)并保存而不是将其另存为文本文件。

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

最佳答案

saveAsTextFile 方法采用一个可选参数,该参数指定压缩编解码器类:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)

关于python - 如何通过pyspark以gzip格式保存spark RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34203906/

相关文章:

python - 指定启动 python 的快捷键

scala - 将 Scalaz 与 Spark 结合使用时出现不可序列化异常

apache-spark - 如何终止正在运行的 Spark 应用程序?

apache-spark - pyspark:使用 JavaObject StructType

python - 使用带有 GCS 的签名 URL 时签名不匹配

python - 在 Django 中全局设置 Decimal 选项

scala - Spark:内存密集型联接操作的最佳实践

python - 从 Databrick 文件系统读取文件

python - Pyqt5 查找 QlistWidgetItem 的行

apache-spark - spark 读取非 UTF-8 编码的 wholeTextFiles