hadoop - 加入Hadoop

标签 hadoop mapreduce

我有两个文件:

1.边缘列表文件(vertex_id，vertex_id)
该文件在图形的每个边缘包含源和接收顶点ID的一行。

2.分区文件(顶点ID，分区ID)
该文件每个顶点包含一行。每行有两个值，第一个数字是，第二个数字是

我想要以下输出:

vertex_id partition_id，vertex_id partition_id

即边缘文件中的每个顶点ID应与其分区ID串联在一起。

是否有可能在单个map-reduce作业中实现此目标的解决方案？

最佳答案

连接是MapReduce中非常常见的模式。

在不同的加入方式上检查Data-Intensive Text Processing with MapReduce。

检查MapReduce Design Patterns中的联接。相应的联接代码是here。

仅供引用，使用Apache Spark进行联接仅需几行RDD.join()代码。

关于hadoop - 加入Hadoop，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31032527/