我有两个文件:
1.边缘列表文件(vertex_id,vertex_id)
该文件在图形的每个边缘包含源和接收顶点ID的一行。
2.分区文件(顶点ID,分区ID)
该文件每个顶点包含一行。每行有两个值,第一个数字是,第二个数字是
我想要以下输出:
vertex_id partition_id,vertex_id partition_id
即边缘文件中的每个顶点ID应与其分区ID串联在一起。
是否有可能在单个map-reduce作业中实现此目标的解决方案?
最佳答案
连接是MapReduce中非常常见的模式。
仅供引用,使用Apache Spark进行联接仅需几行RDD.join()代码。
关于hadoop - 加入Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31032527/