我正在尝试将 java Spark RDD 转换为数据集。
根据 Spark 文档。 mapPartitions 比 map 函数更快。
这将有助于提高spark的性能。
最佳答案
下面是java代码。
JavaRDD<UserData> UserRowRDD = userSuccessRDD.mapPartitions(new FlatMapFunction<Iterator<String>, UserData>() {
@Override
public Iterator call(Iterator<String> input) throws Exception {
List<UserData> result = new ArrayList<>();
while (input.hasNext()) {
result.add(Util.getEnrichedUser(UserHeader, input.next()));
}
return result.iterator();
}
});
public static UserData getEnrichedUser(String[] header, String rddString) {
String[] parts = rddString.split("\\^");
UserData output = new UserData();
for (int i = 0; i < parts.length; i++) {
try {
BeanUtils.setProperty(output, header[i], parts[i]);
} catch (IllegalAccessException | InvocationTargetException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
return output;
}
关于java - 如何使用mapPartitions函数将Rdd转换为数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58255363/