所以,我正在尝试在 MapReduce 范例中编写 FP-Tree 算法, 对于创建频繁项集列表,我有以下问题:
输入:
File1.txt(包含所有交易)
123 452 221 12
45 76 987
77 76 123 354
[Each Line contains items Bought in one Transaction]
File2.txt(包含按降序购买的元素)
12 123
6 221
5 77
4 354
[Count] [Item Id]
输出:
output.txt
123 221
123 77 354
[2nd transaction is eliminated]
根据计数的项目被采纳(降序),其他被删除
是否可以将 File1.txt 和 File2.txt 都放入一个映射器类中?因为这会解决我的问题
或者有没有办法以其他方式执行此操作?
感谢任何帮助。
最佳答案
查看 mapreduce 分布式缓存示例。可能会有所帮助
http://myhadoopexamples.com/2014/04/16/hadoop-map-side-join-with-distributed-cache-example/
阅读设置方法中的文件。上面的链接将提供很好的指导。
关于java - 一个 Mapper 类 Hadoop 中的多个输入文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29319436/