我们有非常复杂的管道,我们需要对其进行组合和调度。我看到 Hadoop 生态系统为此提供了 Oozie。当我在 Mesos 或 Standalone 上运行 Spark 并且没有 Hadoop 集群时,基于 Spark 的作业有哪些选择?
最佳答案
与 Hadoop 不同,使用 Spark 链接事物非常容易。所以写一个 Spark Scala 脚本可能就足够了。我的第一个建议是捆绑。
如果你喜欢保持它像 SQL 一样,你可以试试 SparkSQL。
如果你有一个非常复杂的流程,值得看看谷歌数据流https://github.com/GoogleCloudPlatform/DataflowJavaSDK .
关于hadoop - Spark 的 oozie 等价物是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33883623/