我正在阅读与 Hadoop 的 HIPI 图像处理 API 相关的论文,网址为: http://cs.ucsb.edu/~cmsweeney/papers/undergrad_thesis.pdf
在解释其中的协方差示例时,该论文说“因为 HIPI 为每个映射任务分配一个图像,所以很容易随机抽取 100 个补丁的图像并执行此计算”。
但是论文中显示的第一个图描绘了一个架构,其中多个图像被输入到一个 map task 中!
令人惊讶的是,他们写道一张图像由一个 map task 处理,因为它会产生太多 map task ,因为他们也在解决小文件问题。
如果这是真的,那么带有 MultithreadedMapper 的序列文件是一个更好的选择,我是对还是错?
提前致谢..
最佳答案
虽然我无法解释作者在论文中所说的内容,但查看 HIPI 的 API,我只能看到一个 InputFormat:
这适用于 ImageBundle,顾名思义 - 单个文件中的图像集合(束)。
我想作者可能想说的是:
Because HIPI allocates one image per map function, it is simple to randomly sample an image for 100 patches and perform this calculation
查看相关Covariance example的代码支持这一理论。
关于java - HIPI API : does it process 1 image per map task?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9836647/