hadoop - 如何在 HADOOP 中并行运行多个迭代作业

标签 hadoop

我有一个针对单个文件迭代运行的 hadoop 作业。现在,如果我必须为目录中的每个文件并行运行多个作业,那么在 HADOOP 中休假的最佳实践是什么。

最佳答案

可以引用项目haloop它解决了迭代映射减少。 然后,如果文件很大,那么继续使用 haloop,否则你可能会合并小文件以获得更好的性能。

关于hadoop - 如何在 HADOOP 中并行运行多个迭代作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12528738/

相关文章:

java - hadoop mapreduce IntWritable范围有多长?

python - Python中的Hadoop流作业失败(失败)

hadoop - 使用 master 'yarn' 运行时,必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR

java - 在 Java hdfs 中读取文件

ubuntu - Hadoop 伪分布式模式。连接被拒绝

跨集群记录

hadoop - MRUnit 不适用于 MultipleOutputs

java - 如何通过网络运行Hadoop程序

hadoop - WebHdfsFileSystem本地ip与网络ip hadoop

hadoop - 槽以近乎实时的方式复制RDBMS数据