hadoop - Map reduce 合并两个没有相同键的文件

标签 hadoop mapreduce apache-pig

我在 HDFS 中有两个文件。第一个文件包含一条记录，其中包含员工一天的开始时间和结束时间。他早上 5 点进入系统，下午 2 点离开，系统记录开始时间、结束时间和持续时间。

文件二包含代表客户调用我们办公室的确切时间的记录。

我将如何加入 HDFS，使用 pig、m/r 等，这两个文件，给我一个代表每个客户的结果集，以及他们打电话时所有可用的员工？

最佳答案

当您说时间时，我们在谈论什么精度，分钟，秒？一件事可以读取员工文件并假设我们正在谈论分钟级别的精度，对于文件 1 中的每个条目，每分钟持续输出 (time,empID) 直到结束。对于文件 2，只需发出 (time,customer Id)。现在 reducer 将做必要的事情

关于hadoop - Map reduce 合并两个没有相同键的文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20621083/

上一篇：hadoop - hadoop1.2.1中缺少hadoop-mapreduce-client-core- [0-9。] *。jar

下一篇：java - 如何使用hadoop处理跨数据输入文件任务？

相关文章：

hadoop - HDFS 和冗余

java - Java 中的嵌入式 Pig : java. io.IOException:无法运行程序 "cygpath"

java - hadoop - DBInputFormat 在配置对象时导致错误

hadoop - HBase程序无法连接到本地主机上的ZooKeeper

java - Hadoop 序列文件 : process key/value only up to a certain size?

java - Cloudera设置Sqoop导入给出Java堆空间错误并且超出GC开销限制

hadoop - SQL-HIVE-PIG-Mapreduce

apache-pig - 如何在 pig 中创建一个小的常量关系(表)？

hadoop - clojure:使用多台计算机进行并行处理

hadoop - hcatalog 与 mapreduce