java - HIPI API : does it process 1 image per map task?

标签 java hadoop mapreduce

我正在阅读与 Hadoop 的 HIPI 图像处理 API 相关的论文,网址为: http://cs.ucsb.edu/~cmsweeney/papers/undergrad_thesis.pdf

在解释其中的协方差示例时,该论文说“因为 HIPI 为每个映射任务分配一个图像,所以很容易随机抽取 100 个补丁的图像并执行此计算”。

但是论文中显示的第一个图描绘了一个架构,其中多个图像被输入到一个 map task 中!

令人惊讶的是,他们写道一张图像由一个 map task 处理,因为它会产生太多 map task ,因为他们也在解决小文件问题。

如果这是真的,那么带有 MultithreadedMapper 的序列文件是一个更好的选择,我是对还是错?

提前致谢..

最佳答案

虽然我无法解释作者在论文中所说的内容,但查看 HIPI 的 API,我只能看到一个 InputFormat:

这适用于 ImageBundle,顾名思义 - 单个文件中的图像集合(束)。

我想作者可能想说的是:

Because HIPI allocates one image per map function, it is simple to randomly sample an image for 100 patches and perform this calculation

查看相关Covariance example的代码支持这一理论。

关于java - HIPI API : does it process 1 image per map task?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9836647/

相关文章:

java - Eclipse:如何使java文件夹显示为树?

hadoop - Hiveserver2 未启动

hadoop - 数据节点上的 map 由谁运行?

hadoop - hadoop流错误,使用python mapreduce

java - 为什么 Oozie 在运行 MapReduce 作业时分配更多内存?

java - testng - 如何分离测试和支持方法?

java - 错误 : can only iterate over an array or an instance of java. lang.Iterable

java - 使用原始套接字发送 HTTP 响应,客户端未收到消息

java - 使用 MultiSinkTap 生成多个输出文件

hadoop - Hive - 删除重复项,保留最新记录 - 所有这些