我公司有两个工作,我们将只选择一个工作。任务是:
我的问题是:这两个工作中的哪一个将从SPARK中受益最多?
SPARK依赖于内存,因此我认为它更适合于机器学习。与日志作业相比,DATA的数量并不大。但我不确定。如果我忽略了一些信息,这里有人可以帮助我吗?
最佳答案
Spark部署策略取决于数据量以及如何接收。它可以同时适用于方案和您的应用程序。
方案1-如果收到流数据,也可以为第一项工作部署spark。 Spark Streaming支持实时数据流的可扩展,高吞吐量,容错流处理。可以从许多来源(例如Kafka,Flume,Kinesis或TCP套接字)中提取数据,并可以使用Spark的不同功能对其进行处理。最后,可以将处理后的数据推送到Hadoop HDFS文件系统。
如果您的数据已经在HDFS上,则仍然可以使用Spark进行处理。这将使您的处理速度更快。但是,如果它是批处理,并且如果您的Hadoop集群中没有足够的资源,则MapReduce是此类方案的首选。
场景2-您的第一个应用程序将处理数据并将其存储在HDFS上,您可以在此处使用Spark MLlib操作进行进一步的操作。请验证您将使用此操作执行的预测类型。
最后,在这里我可以说Spark适用于您的两种情况,您可以将其用于两种操作。
关于hadoop - 哪一项任务将从SPARK中受益最多?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48136922/