java - Java Spark如何将JavaPairRDD <HashSet <String>,HashMap <String,Double >>保存到文件?

标签 java apache-spark hadoop java-pair-rdd

经过一些复杂的聚合后,我得到了这个“JavaPairRDD<HashSet<String>, HashMap<String, Double>>” RDD,想将结果保存到文件中。我相信saveAsHadoopFile是这样做的不错的API,但是在为saveAsHadoopFile(path, keyClass, valueClass, outputFormatClass, CompressionCodec)填写参数时遇到了麻烦。有人可以帮忙吗?

最佳答案

您可以使用以下函数,稍后再将其解析为所需的结果。

rdd.saveAsTextFile ("hdfs:///complete_path_to_hdfs_file/");

但是,如果要使用saveAsHadoopFile API,则可以使用以下方法。
saveAsHadoopFile(complete_path_to_file, HashSet.class, HashMap.class, TextOutputFormat.class)

您还可以使用HadoopOutputFormat.class作为最后一个参数

有关更多信息,您可以引用此链接
HadoopFile

关于java - Java Spark如何将JavaPairRDD <HashSet <String>,HashMap <String,Double >>保存到文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50055414/

相关文章:

java - 将 unicode 字符串转换为包含 '%XX' 个字符的转义 ASCII 字符串

java - 如何从包含 HashMap 实例的抽象类实例化新对象?

java:如何创建一个支持任意数量参数的函数?

python - 用于在 PySpark 中定义 JSON 模式结构的配置文件

Java spark 无法执行 df.show()

python - Spark : Dangers of using Python

hadoop - 重复的YARN conf设置

hadoop - 如何在hadoop中获取多输出

java - Hadoop如何将用户定义的参数传递给任务?

java - 使用 Eclipse EE 的 jPOS-EE 客户端、服务器模拟器