java - Java Spark如何将JavaPairRDD <HashSet <String>，HashMap <String，Double >>保存到文件？

标签 java apache-spark hadoop java-pair-rdd

经过一些复杂的聚合后，我得到了这个“JavaPairRDD<HashSet<String>, HashMap<String, Double>>” RDD，想将结果保存到文件中。我相信saveAsHadoopFile是这样做的不错的API，但是在为saveAsHadoopFile(path, keyClass, valueClass, outputFormatClass, CompressionCodec)填写参数时遇到了麻烦。有人可以帮忙吗？

最佳答案

您可以使用以下函数，稍后再将其解析为所需的结果。

rdd.saveAsTextFile ("hdfs:///complete_path_to_hdfs_file/");

但是，如果要使用saveAsHadoopFile API，则可以使用以下方法。

saveAsHadoopFile(complete_path_to_file, HashSet.class, HashMap.class, TextOutputFormat.class)

您还可以使用HadoopOutputFormat.class作为最后一个参数

有关更多信息，您可以引用此链接
HadoopFile

关于java - Java Spark如何将JavaPairRDD <HashSet <String>，HashMap <String，Double >>保存到文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50055414/

上一篇：php - Dockerize Laravel队列:听

下一篇：sql - 如何将多个文本文件合并到一个Hive表中

java - 如何从包含 HashMap 实例的抽象类实例化新对象？

java:如何创建一个支持任意数量参数的函数？

python - 用于在 PySpark 中定义 JSON 模式结构的配置文件

Java spark 无法执行 df.show()

python - Spark : Dangers of using Python

hadoop - 重复的YARN conf设置

hadoop - 如何在hadoop中获取多输出

java - Hadoop如何将用户定义的参数传递给任务？

java - 使用 Eclipse EE 的 jPOS-EE 客户端、服务器模拟器