java - 一个 Mapper 类 Hadoop 中的多个输入文件?

标签 java hadoop mapreduce

所以,我正在尝试在 MapReduce 范例中编写 FP-Tree 算法, 对于创建频繁项集列表,我有以下问题:

输入:

File1.txt(包含所有交易)

123 452 221 12 
45 76 987 
77 76 123 354 

[Each Line contains items Bought in one Transaction]

File2.txt(包含按降序购买的元素)

12    123

6     221

5     77

4     354

[Count] [Item Id]

输出:

output.txt

123 221  
123 77 354 

[2nd transaction is eliminated]

根据计数的项目被采纳(降序),其他被删除

是否可以将 File1.txt 和 File2.txt 都放入一个映射器类中?因为这会解决我的问题

或者有没有办法以其他方式执行此操作?

感谢任何帮助。

最佳答案

查看 mapreduce 分布式缓存示例。可能会有所帮助

http://myhadoopexamples.com/2014/04/16/hadoop-map-side-join-with-distributed-cache-example/

阅读设置方法中的文件。上面的链接将提供很好的指导。

Hadoop Map Reduce read a text file

关于java - 一个 Mapper 类 Hadoop 中的多个输入文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29319436/

相关文章:

java - nextLine() 无法正常工作..(Java)

java - 在 hadoop 中获取作业配置

java - map 上的条件减少计数器以控制 map 输出

java - 如何获取 float 中的3个字符?

java - 如何避免java.sql.SQLException :[Microsoft][ODBC Microsoft Access Driver] could not find file '(unkown)'

java - java流过滤器中的if-else

java - 我的 hadoop 代码从未进入键值测试

shell - 使用Shell变量创建配置单元表时解析错误

hadoop - 为什么在一个 Hadoop 作业中只使用 1 个 map 和 1 个 reduce 任务以及 1 个节点?

ubuntu - 简单 Hadoop Map Reduce 中的错误