hadoop - 如何在类似于pyspark的java中将parquet文件写入分区?

标签 hadoop pyspark parquet

我可以像这样将 parquet 文件写入 pyspark 中的分区:

rdd.write
 .partitionBy("created_year", "created_month")
 .parquet("hdfs:///my_file")

parquet 文件自动分区为 created_year,created_month。如何在java中做同样的事情?我在 ParquetWriter 类中看不到选项。还有其他类可以做到这一点吗?

谢谢,

最佳答案

您必须将您的 RDD 转换为 DataFrame,然后调用 write parquet 函数。

df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])

关于hadoop - 如何在类似于pyspark的java中将parquet文件写入分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40234731/

相关文章:

hadoop - 对 Hive 中的列进行编码

performance - Spark 函数与 UDF 性能?

hadoop - 更改表列名称拼写格式Hadoop

scala - 使用 Scala for Spark 编写 Parquet 文件,无需将 Spark 作为依赖项

hadoop - Spark parquet 数据帧分区数

hadoop - HBase无法找到或加载主类org.apache.hadoop.hbase.util.HBaseConfTool

hadoop - 如何在 spark sql 的配置单元上下文对象中查找登录/连接/当前用户?

python - 在 pandas udf pyspark 中使用 numpy

hadoop - 获取hadoop Reducer中的Total输入路径

python - 如何使用Python在Spark中对线性回归进行一次热编码?