我可以像这样将 parquet 文件写入 pyspark 中的分区:
rdd.write
.partitionBy("created_year", "created_month")
.parquet("hdfs:///my_file")
parquet 文件自动分区为 created_year,created_month。如何在java中做同样的事情?我在 ParquetWriter 类中看不到选项。还有其他类可以做到这一点吗?
谢谢,
最佳答案
您必须将您的 RDD 转换为 DataFrame,然后调用 write parquet 函数。
df = sql_context.createDataFrame(rdd)
df.write.parquet("hdfs:///my_file", partitionBy=["created_year", "created_month"])
关于hadoop - 如何在类似于pyspark的java中将parquet文件写入分区?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40234731/