hadoop - 哪一项任务将从SPARK中受益最多？

我公司有两个工作，我们将只选择一个工作。任务是:

第一项工作是分析大量文本以查找错误消息(grep)。

第二项工作是机器学习，并以迭代方式对某些数据计算模型预测。

我的问题是:这两个工作中的哪一个将从SPARK中受益最多？

SPARK依赖于内存，因此我认为它更适合于机器学习。与日志作业相比，DATA的数量并不大。但我不确定。如果我忽略了一些信息，这里有人可以帮助我吗？

最佳答案

Spark部署策略取决于数据量以及如何接收。它可以同时适用于方案和您的应用程序。

方案1-如果收到流数据，也可以为第一项工作部署spark。 Spark Streaming支持实时数据流的可扩展，高吞吐量，容错流处理。可以从许多来源(例如Kafka，Flume，Kinesis或TCP套接字)中提取数据，并可以使用Spark的不同功能对其进行处理。最后，可以将处理后的数据推送到Hadoop HDFS文件系统。

如果您的数据已经在HDFS上，则仍然可以使用Spark进行处理。这将使您的处理速度更快。但是，如果它是批处理，并且如果您的Hadoop集群中没有足够的资源，则MapReduce是此类方案的首选。

场景2-您的第一个应用程序将处理数据并将其存储在HDFS上，您可以在此处使用Spark MLlib操作进行进一步的操作。请验证您将使用此操作执行的预测类型。

最后，在这里我可以说Spark适用于您的两种情况，您可以将其用于两种操作。

关于hadoop - 哪一项任务将从SPARK中受益最多？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48136922/

hadoop - 哪一项任务将从SPARK中受益最多？

上一篇：docker - 使用Docker和Jenkins自动进行Flyway迁移

下一篇：postgresql - 在已包含在DockerFile中的postgresql docker中运行sql脚本