As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be supported by facts, references, or expertise, but this question will likely solicit debate, arguments, polling, or extended discussion. If you feel that this question can be improved and possibly reopened,
visit the help center提供指导。
已关闭8年。
我有一个批处理作业,可检索大量相互独立的Web服务。从一个REST响应中检索的数据绝不依赖于其他REST数据,或与其他REST数据一起使用,除了在处理完所有数据后会计算一些轻量级统计信息。
目前,我的有效负载集分布在11个段中,每个段都在单独的Java线程中运行。完成最后一个线程后,将计算最终统计信息。根据每个REST请求是否具有相对于先前检索到的新数据,整个批处理可能需要4到25分钟之间的任何时间。
批处理大小相对适中,并且上述时间范围还不错,因为数据仅每小时左右更新一次,因此,如果我每隔30分钟执行一次cron作业,则实际上消除了跳过时间序列的机会。但是,我正在考虑增加批量大小。
我是Hadoop的新手,我想知道这个用例场景是否是MapReduce实现的一个很好的例子。通常,您如何决定何时使用多线程应用程序,而不是逐步使用Hadoop?
谢谢