我有3个输入文件:file1.txt,file2.txt和file3.txt。 file1.txt包含一些错误数据。当我在MapReduce作业中提交这些文件时,将创建3个映射器。
现在,我需要杀死包含错误文件file1.txt的映射器。杀死映射器后,我希望从映射器中丢弃错误文件,并将其存储在hdfs中。
如何杀死映射器并丢弃文件?
如果我杀死了映射器,剩下的映射器应该完成他们的过程,并且整个工作都应该完成。请帮忙
最佳答案
这可能不是一种选择方法。将元组(K,V)存储在 map 内存中,如果不满足无效条件,则在最后将其发出。
关于java - 具有多个文件并杀死其中映射器的Hadoop Wordcount示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19994637/