java - 具有多个文件并杀死其中映射器的Hadoop Wordcount示例

标签 java hadoop mapreduce

我有3个输入文件:file1.txt，file2.txt和file3.txt。 file1.txt包含一些错误数据。当我在MapReduce作业中提交这些文件时，将创建3个映射器。
现在，我需要杀死包含错误文件file1.txt的映射器。杀死映射器后，我希望从映射器中丢弃错误文件，并将其存储在hdfs中。
如何杀死映射器并丢弃文件？
如果我杀死了映射器，剩下的映射器应该完成他们的过程，并且整个工作都应该完成。请帮忙

最佳答案

这可能不是一种选择方法。将元组(K，V)存储在 map 内存中，如果不满足无效条件，则在最后将其发出。

关于java - 具有多个文件并杀死其中映射器的Hadoop Wordcount示例，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19994637/

上一篇：hadoop - 使用 hadoop 从 S3 'requester pay' 存储桶下载数据时出错

下一篇：java - 使用hadoop作业的输出作为另一个的输入

相关文章：

java - 如何将包含整数和字符串的文本文件读入数组

java - 检查投影到线段上的点是否不在线段之外

hadoop - 伪分布式:需要更改映射器节点数

hadoop - 配置单元:存储桶表完整性检查

apache-spark - EMR 没有检测到所有的内存

java - 如何(在 Hadoop 中)将数据以正确的类型放入 map 和 reduce 函数中？

couchdb - 在 CouchDB View 映射函数中使用 'limit' 参数

hadoop - Avro mapreduce 作业失败 java.lang.IncompatibleClassChangeError

java - 这个java函数有什么作用呢？

java - 使用 Spring Web Service 将 Hibernate 映射程序拆分为前端和后端