我在 HDFS 中有两个文件。第一个文件包含一条记录,其中包含员工一天的开始时间和结束时间。他早上 5 点进入系统,下午 2 点离开,系统记录开始时间、结束时间和持续时间。
文件二包含代表客户调用我们办公室的确切时间的记录。
我将如何加入 HDFS,使用 pig、m/r 等,这两个文件,给我一个代表每个客户的结果集,以及他们打电话时所有可用的员工?
最佳答案
当您说时间时,我们在谈论什么精度,分钟,秒?一件事可以读取员工文件并假设我们正在谈论分钟级别的精度,对于文件 1 中的每个条目,每分钟持续输出 (time,empID) 直到结束。对于文件 2,只需发出 (time,customer Id)。现在 reducer 将做必要的事情
关于hadoop - Map reduce 合并两个没有相同键的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20621083/