hadoop - 如何在类似于pyspark的java中将parquet文件写入分区？

我可以像这样将 parquet 文件写入 pyspark 中的分区:

rdd.write
 .partitionBy("created_year", "created_month")
 .parquet("hdfs:///my_file")

parquet 文件自动分区为 created_year，created_month。如何在java中做同样的事情？我在 ParquetWriter 类中看不到选项。还有其他类可以做到这一点吗？

谢谢，

最佳答案

您必须将您的 RDD 转换为 DataFrame，然后调用 write parquet 函数。

df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])

关于hadoop - 如何在类似于pyspark的java中将parquet文件写入分区？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40234731/

相关文章：

hadoop - 对 Hive 中的列进行编码