您好,我有如下数据源
ID Date Page
100 27-10-2015 google
102 27-10-2015 facebook
102 27-10-2015 instagram
104 28-10-2015 yahoo
105 30-10-2015 bing
我想以 Parquet 格式存储这些数据,格式如下所示
/foldername/columname=value/data.parquet
例如这里
/output/ID=102/data.parquet
/output/ID=104/data.parquet
这里的 data.parquet 包含 parquet 格式的列 ID=102 的值。
谁能帮我实现这个目标?
最佳答案
使用数据帧你的代码应该是这样的:
val df = yourData
df.write.partitionBy(['ID']).format("parquet").save(dest, mode="append")
关于hadoop - 根据列值对数据进行分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33494736/