java - Apache Spark 还是级联框架?

标签 java apache-spark cascading

<分区>

我很困惑何时使用 Cascading 框架以及何时使用 Apache Spark。每个都有哪些合适的用例?

感谢任何帮助。

最佳答案

本质上,Cascading 是在 MapReduce 等执行引擎之上的高级 API。它在这个意义上类似于 Apache Crunch。 Cascading 还有一些其他相关项目,例如 Scala 版本 (Scalding) 和 PMML 评分 (Pattern)。

Apache Spark 在某种意义上是相似的,它公开了一个用于数据管道的高级 API,并且在 Java 和 Scala 中可用。

它更像是一个执行引擎本身,而不是一层之上的一层。它有许多相关项目,如 MLlib、Streaming、GraphX,用于 ML、流处理、图形计算。

总的来说,我发现现在的 Spark 更有趣了,但它们并不完全相同。

关于java - Apache Spark 还是级联框架?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25240679/

相关文章:

标签背景方 block 上的 Java Gif 显示?

csv - 如何将具有大量列数的 csv 文件导入 Apache Spark 2.0

java - 级联加入两个文件很慢

java - 需要包含 <my reference> 的封闭实例

java - 选择可能的最大数字

java - 部署到 WildFly 时出错 : "Caused by: java.lang.ClassCastException: org.dom4j.DocumentFactory cannot be cast to org.dom4j.DocumentFactory"

python - .persist() 行有时会导致 Java Out of Heap Space 错误

java - 将应用程序提交到Spark集群:错误本地类不兼容

java - jpa级联删除反向关系

scala - 创建像 TextLine 这样的 Scalding Source,将多个文件组合成单个映射器