hadoop - Map reduce 合并两个没有相同键的文件

标签 hadoop mapreduce apache-pig

我在 HDFS 中有两个文件。第一个文件包含一条记录,其中包含员工一天的开始时间和结束时间。他早上 5 点进入系统,下午 2 点离开,系统记录开始时间、结束时间和持续时间。

文件二包含代表客户调用我们办公室的确切时间的记录。

我将如何加入 HDFS,使用 pig、m/r 等,这两个文件,给我一个代表每个客户的结果集,以及他们打电话时所有可用的员工?

最佳答案

当您说时间时,我们在谈论什么精度,分钟,秒?一件事可以读取员工文件并假设我们正在谈论分钟级别的精度,对于文件 1 中的每个条目,每分钟持续输出 (time,empID) 直到结束。对于文件 2,只需发出 (time,customer Id)。现在 reducer 将做必要的事情

关于hadoop - Map reduce 合并两个没有相同键的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20621083/

相关文章:

hadoop - HDFS 和冗余

java - Java 中的嵌入式 Pig : java. io.IOException:无法运行程序 "cygpath"

java - hadoop - DBInputFormat 在配置对象时导致错误

hadoop - HBase程序无法连接到本地主机上的ZooKeeper

java - Hadoop 序列文件 : process key/value only up to a certain size?

java - Cloudera设置Sqoop导入给出Java堆空间错误并且超出GC开销限制

hadoop - SQL-HIVE-PIG-Mapreduce

apache-pig - 如何在 pig 中创建一个小的常量关系(表)?

hadoop - clojure:使用多台计算机进行并行处理

hadoop - hcatalog 与 mapreduce