我正在做一项 Hadoop 工作,对一个或多个可能非常大的 PGM 文件进行卷积。每个映射器将处理来自其中一个文件的一定数量的行,并且缩减器将文件重新组合在一起。但是,每个映射器都需要在其进行卷积的上下几行。通常这不是问题,因为我创建了一个 RecordReader 来获得这种冗余,但它对 InputSplit 的第一行和最后一行提出了一个问题,因为我无法访问上次拆分的行。
有什么方法可以使 InputSplits 重叠,以便第一行的最后几行是第二行的前几行?
最佳答案
您可以编写自己的自定义拆分器。参见 this post通过史蒂文·刘易斯
关于image - Hadoop InputSplit 之间是否重叠?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16110747/