我想为 File 的每一行调用服务。我们的源文件大于 50 GB。迭代超过 50GB 的 Row 可能需要更多时间。是否需要编写任何内置功能或任何 Map Reduce 程序来为每一行调用服务。由于 Map Reduce 提供了一点并行化。是否有任何自定义工具已经构建了此需求
最佳答案
map-reduce 的基本要求是任务应该并行运行而不会对单个结果产生任何影响。如果您的服务调用独立于其他内容,则可以使用 map reduce。我认为只有 map 就足够了,负责读取每一行并进行服务调用。但是,您也需要考虑 map 的另一面。您将如何处理服务调用以及最终的 map 。那部分决定 reducer 的事情
关于Hadoop Map Reduce 程序进行服务调用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30901969/