hadoop - 如何在 HADOOP 中并行运行多个迭代作业

标签 hadoop

我有一个针对单个文件迭代运行的 hadoop 作业。现在，如果我必须为目录中的每个文件并行运行多个作业，那么在 HADOOP 中休假的最佳实践是什么。

最佳答案

可以引用项目haloop它解决了迭代映射减少。然后，如果文件很大，那么继续使用 haloop，否则你可能会合并小文件以获得更好的性能。

关于hadoop - 如何在 HADOOP 中并行运行多个迭代作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12528738/

上一篇：hadoop - 如何在hdfs中持久化namenode信息

下一篇：Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点

相关文章：

java - hadoop mapreduce IntWritable范围有多长？

python - Python中的Hadoop流作业失败(失败)

hadoop - 使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR

java - 在 Java hdfs 中读取文件

ubuntu - Hadoop 伪分布式模式。连接被拒绝

跨集群记录

hadoop - MRUnit 不适用于 MultipleOutputs

java - 如何通过网络运行Hadoop程序

hadoop - WebHdfsFileSystem本地ip与网络ip hadoop

hadoop - 槽以近乎实时的方式复制RDBMS数据

©2024 IT工具网联系我们