java - 一个 Mapper 类 Hadoop 中的多个输入文件？

所以，我正在尝试在 MapReduce 范例中编写 FP-Tree 算法，对于创建频繁项集列表，我有以下问题:

输入:

File1.txt(包含所有交易)

123 452 221 12 
45 76 987 
77 76 123 354 

[Each Line contains items Bought in one Transaction]

File2.txt(包含按降序购买的元素)

12    123

6     221

5     77

4     354

[Count] [Item Id]

输出:

output.txt

123 221  
123 77 354 

[2nd transaction is eliminated]

根据计数的项目被采纳(降序)，其他被删除

是否可以将 File1.txt 和 File2.txt 都放入一个映射器类中？因为这会解决我的问题

或者有没有办法以其他方式执行此操作？

感谢任何帮助。

最佳答案

查看 mapreduce 分布式缓存示例。可能会有所帮助

阅读设置方法中的文件。上面的链接将提供很好的指导。

关于java - 一个 Mapper 类 Hadoop 中的多个输入文件？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29319436/

相关文章：

java - nextLine() 无法正常工作..(Java)