hadoop - 加入Hadoop

标签 hadoop mapreduce

我有两个文件:

1.边缘列表文件(vertex_id,vertex_id)
该文件在图形的每个边缘包含源和接收顶点ID的一行。

2.分区文件(顶点ID,分区ID)
该文件每个顶点包含一行。每行有两个值,第一个数字是,第二个数字是

我想要以下输出:

vertex_id partition_id,vertex_id partition_id

即边缘文件中的每个顶点ID应与其分区ID串联在一起。

是否有可能在单个map-reduce作业中实现此目标的解决方案?

最佳答案

连接是MapReduce中非常常见的模式。

  • 在不同的加入方式上检查Data-Intensive Text Processing with MapReduce
  • 检查MapReduce Design Patterns中的联接。相应的联接代码是here

  • 仅供引用,使用Apache Spark进行联接仅需几行RDD.join()代码。

    关于hadoop - 加入Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31032527/

    相关文章:

    hadoop - 在 PIG 中是否可以通过定义列字段值来创建列字段

    hadoop - MRUNIT java.lang.IncompatibleClassChangeError

    hadoop - MapReduce驱动的addInputPath错误

    apache-spark - Spark 独立设置中的内存使用情况

    mapreduce - 使用 MapReduce 确定输入数据中的模式

    hadoop 无法从源代码构建

    java - 在 avro 模式中使用 "default"

    java - Servlet 执行 Hadoop MapReduce 作业并显示结果

    java - 如何处理 URISyntaxException : Illegal character in path in Hadoop Map Reduce job?

    hadoop - 为什么部分文件在 HIVE 输出中没有任何内容