apache-spark - 今天使用 MapReduce 代替 Spark 有什么好处？

标签 apache-spark hadoop mapreduce

我正在设置一个 Hadoop 集群用于测试/PoC 目的。今天有什么不能用 Spark 作为处理引擎来完成的吗？在我看来，Spark 已经取代了 MR，并且围绕 Hadoop 构建的所有其他工具/抽象也与 Spark 兼容(Hive、Sqoop、Flume、HBase、Pig...)——是否有其他限制？据我了解，即使对于批处理作业，Spark 至少与 MR 一样快，如果您想在未来扩展您的用例(流式处理)，那么无论如何您都需要适应 Spark。

我问这个问题是因为直到今天，大多数介绍和教程都在教您有关 Hadoop 和 MapReduce 的知识。

最佳答案

很简单，不，现在没有理由使用 MapReduce。 Spark 更快、更易于使用、有更多的持续开发、更多的连接器、更多的用户、更多的优化...

在教程中使用 MapReduce 是因为许多教程已经过时，而且还因为 MapReduce 演示了在所有分布式系统中处理数据的底层方法。在我看来，任何想要使用“大数据”的人都应该(至少在概念上)了解 MapReduce。

关于apache-spark - 今天使用 MapReduce 代替 Spark 有什么好处？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55241905/

上一篇：python - 使用 pyspark 从 Hadoop 中删除文件(查询)

下一篇：hadoop - Hadoop fs 和常规 Unix 命令有什么区别？

相关文章：

python - 在 PySpark 中读取文本文件时有没有办法控制分区数

apache-spark - 何时加载自定义 TableCatalog？

python - 如果没有可用的指定分区路径，SPARK SQL 将失败

hadoop - 如何在HIVE分区中重命名文件

hadoop - 如何在没有 MapReduce 的情况下在 HBase 中进行分布式更新

hadoop - mapreduce任务仅在namenode上运行

java - 如何使用spark Streaming从HDFS读取数据？

shell - Oozie shell 操作

AWS 免费套餐中的 Hadoop？

java - 既然可以在map()或reduce()中初始化参数，为什么还需要MapReduce中的setup()方法呢？