Hadoop Map Reduce 程序进行服务调用

标签 hadoop hadoop2

我想为 File 的每一行调用服务。我们的源文件大于 50 GB。迭代超过 50GB 的 Row 可能需要更多时间。是否需要编写任何内置功能或任何 Map Reduce 程序来为每一行调用服务。由于 Map Reduce 提供了一点并行化。是否有任何自定义工具已经构建了此需求

最佳答案

map-reduce 的基本要求是任务应该并行运行而不会对单个结果产生任何影响。如果您的服务调用独立于其他内容,则可以使用 map reduce。我认为只有 map 就足够了,负责读取每一行并进行服务调用。但是,您也需要考虑 map 的另一面。您将如何处理服务调用以及最终的 map 。那部分决定 reducer 的事情

关于Hadoop Map Reduce 程序进行服务调用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30901969/

相关文章:

python-3.x - 如果任何 Datanode 驱动器(存储)发生故障,如何在 Hadoop 集群中进行检测

hadoop - 使用 TotalOrderPartitioner MapReduce 时遇到错误

hadoop - 如何强制执行 mapreduce 程序来执行组合器?

Java Mapreduce 排序复合值

hadoop - 如何在 Mac 上完全卸载 Hadoop

python - 如何使用python客户端实时捕获来自HiveServer2的查询日志?

hadoop - 如何在 hive 中验证和匹配不同的日期格式

c++ - 从 HDFS 读取和打印文本文件

hadoop - 在 Spark Java 中将文本文件转换为序列格式

java - YARN(Hadoop)中的容器分配代码