java - 我应该使用Hadoop吗？

As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be supported by facts, references, or expertise, but this question will likely solicit debate, arguments, polling, or extended discussion. If you feel that this question can be improved and possibly reopened, visit the help center提供指导。

已关闭8年。

我有一个批处理作业，可检索大量相互独立的Web服务。从一个REST响应中检索的数据绝不依赖于其他REST数据，或与其他REST数据一起使用，除了在处理完所有数据后会计算一些轻量级统计信息。

目前，我的有效负载集分布在11个段中，每个段都在单独的Java线程中运行。完成最后一个线程后，将计算最终统计信息。根据每个REST请求是否具有相对于先前检索到的新数据，整个批处理可能需要4到25分钟之间的任何时间。

批处理大小相对适中，并且上述时间范围还不错，因为数据仅每小时左右更新一次，因此，如果我每隔30分钟执行一次cron作业，则实际上消除了跳过时间序列的机会。但是，我正在考虑增加批量大小。

我是Hadoop的新手，我想知道这个用例场景是否是MapReduce实现的一个很好的例子。通常，您如何决定何时使用多线程应用程序，而不是逐步使用Hadoop？

谢谢

最佳答案

我要说的是，将网络爬网分为多个要处理的站点列表确实是Hadoop案例。在那里，它实际上不用作MapReduce，而是用作可伸缩的分布式调度程序。
您给的数字(11段)以边界格的形式出现。如果您要说100则答案是显而易见的
同时，如果除了每个段中的数据处理之外，您还具有有意义的结果汇总，那么使用Hadoop MapReduce将是另一个加分。

关于java - 我应该使用Hadoop吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12439315/

上一篇：java - 如何在 NetBeans 7.2 中安装 CLDC 平台？

下一篇：java - 如何将 Java 安全层(Apache Shiro|Spring Security)集成到 webapp 菜单系统

Java方法线程安全

hadoop - hive 错误:metastore.RetryingRawStore:JDO数据存储错误。 1000毫秒后重试metastore命令(尝试1之1)

java - 执行 jps 命令时的额外内容

java - Spring 3 MVC @Controller 与 AOP 拦截器？

java - ByteBuffer.putLong 使用非原生 ByteOrder 快 2 倍

java - 按下时更改 float 操作按钮颜色

C#做更多的线程加速写入控制台而不相互干扰

java - 我如何才能将 ArrayList<String> 插入到接受 List<Integer> 的构造函数中？

hadoop - 集群重启后获取Hadoop集群上已执行的作业列表