我有一个针对单个文件迭代运行的 hadoop 作业。现在,如果我必须为目录中的每个文件并行运行多个作业,那么在 HADOOP 中休假的最佳实践是什么。
最佳答案
可以引用项目haloop它解决了迭代映射减少。 然后,如果文件很大,那么继续使用 haloop,否则你可能会合并小文件以获得更好的性能。
关于hadoop - 如何在 HADOOP 中并行运行多个迭代作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12528738/