apache-spark - 今天使用 MapReduce 代替 Spark 有什么好处?

标签 apache-spark hadoop mapreduce

我正在设置一个 Hadoop 集群用于测试/PoC 目的。今天有什么不能用 Spark 作为处理引擎来完成的吗?在我看来,Spark 已经取代了 MR,并且围绕 Hadoop 构建的所有其他工具/抽象也与 Spark 兼容(Hive、Sqoop、Flume、HBase、Pig...)——是否有其他限制? 据我了解,即使对于批处理作业,Spark 至少与 MR 一样快,如果您想在未来扩展您的用例(流式处理),那么无论如何您都需要适应 Spark。

我问这个问题是因为直到今天,大多数介绍和教程都在教您有关 Hadoop 和 MapReduce 的知识。

最佳答案

很简单,不,现在没有理由使用 MapReduce。 Spark 更快、更易于使用、有更多的持续开发、更多的连接器、更多的用户、更多的优化...

在教程中使用 MapReduce 是因为许多教程已经过时,而且还因为 MapReduce 演示了在所有分布式系统中处理数据的底层方法。在我看来,任何想要使用“大数据”的人都应该(至少在概念上)了解 MapReduce。

关于apache-spark - 今天使用 MapReduce 代替 Spark 有什么好处?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55241905/

相关文章:

python - 在 PySpark 中读取文本文件时有没有办法控制分区数

apache-spark - 何时加载自定义 TableCatalog?

python - 如果没有可用的指定分区路径,SPARK SQL 将失败

hadoop - 如何在HIVE分区中重命名文件

hadoop - 如何在没有 MapReduce 的情况下在 HBase 中进行分布式更新

hadoop - mapreduce任务仅在namenode上运行

java - 如何使用spark Streaming从HDFS读取数据?

shell - Oozie shell 操作

AWS 免费套餐中的 Hadoop?

java - 既然可以在map()或reduce()中初始化参数,为什么还需要MapReduce中的setup()方法呢?