java - 具有多个文件并杀死其中映射器的Hadoop Wordcount示例

标签 java hadoop mapreduce

我有3个输入文件:file1.txt,file2.txt和file3.txt。 file1.txt包含一些错误数据。当我在MapReduce作业中提交这些文件时,将创建3个映射器。
现在,我需要杀死包含错误文件file1.txt的映射器。杀死映射器后,我希望从映射器中丢弃错误文件,并将其存储在hdfs中。
如何杀死映射器并丢弃文件?
如果我杀死了映射器,剩下的映射器应该完成他们的过程,并且整个工作都应该完成。请帮忙

最佳答案

这可能不是一种选择方法。将元组(K,V)存储在 map 内存中,如果不满足无效条件,则在最后将其发出。

关于java - 具有多个文件并杀死其中映射器的Hadoop Wordcount示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19994637/

相关文章:

java - 如何将包含整数和字符串的文本文件读入数组

java - 检查投影到线段上的点是否不在线段之外

hadoop - 伪分布式:需要更改映射器节点数

hadoop - 配置单元:存储桶表完整性检查

apache-spark - EMR 没有检测到所有的内存

java - 如何(在 Hadoop 中)将数据以正确的类型放入 map 和 reduce 函数中?

couchdb - 在 CouchDB View 映射函数中使用 'limit' 参数

hadoop - Avro mapreduce 作业失败 java.lang.IncompatibleClassChangeError

java - 这个java函数有什么作用呢?

java - 使用 Spring Web Service 将 Hibernate 映射程序拆分为前端和后端