hadoop - 哪一项任务将从SPARK中受益最多?

标签 hadoop apache-spark

我公司有两个工作,我们将只选择一个工作。任务是:

  • 第一项工作是分析大量文本以查找错误消息(grep)。
  • 第二项工作是机器学习,并以迭代方式对某些数据计算模型预测。

  • 我的问题是:这两个工作中的哪一个将从SPARK中受益最多?

    SPARK依赖于内存,因此我认为它更适合于机器学习。与日志作业相比,DATA的数量并不大。但我不确定。如果我忽略了一些信息,这里有人可以帮助我吗?

    最佳答案

    Spark部署策略取决于数据量以及如何接收。它可以同时适用于方案和您的应用程序。

    方案1-如果收到流数据,也可以为第一项工作部署spark。 Spark Streaming支持实时数据流的可扩展,高吞吐量,容错流处理。可以从许多来源(例如Kafka,Flume,Kinesis或TCP套接字)中提取数据,并可以使用Spark的不同功能对其进行处理。最后,可以将处理后的数据推送到Hadoop HDFS文件系统。

    如果您的数据已经在HDFS上,则仍然可以使用Spark进行处理。这将使您的处理速度更快。但是,如果它是批处理,并且如果您的Hadoop集群中没有足够的资源,则MapReduce是此类方案的首选。

    场景2-您的第一个应用程序将处理数据并将其存储在HDFS上,您可以在此处使用Spark MLlib操作进行进一步的操作。请验证您将使用此操作执行的预测类型。

    最后,在这里我可以说Spark适用于您的两种情况,您可以将其用于两种操作。

    关于hadoop - 哪一项任务将从SPARK中受益最多?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48136922/

    相关文章:

    apache-spark - 使用 pyspark 向 hive 表添加注释

    scala - Spark - 如何将映射函数输出(行,行)元组转换为一个数据帧

    scala - 如何在 Spark 中获取 WrappedArray 的第一个值?

    hadoop - 将数据从一个配置单元表插入到另一个

    hadoop - hbase复制和快照命令之间的区别

    hadoop - Oozie 协调器未以指定的频率间隔运行

    java - Hadoop:对文件进行分组以进行映射

    shell - shell 脚本中的 SQOOP 导出失败

    hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

    apache-spark - Prometheus 中的 Spark 3.0 流指标