apache-spark - 在应用程序中使用嵌入式 Spark 的缺点

我有一个用例，在这个用例中，我在应用程序服务器中启动本地 spark(嵌入式)，而不是去 spark rest 作业服务器或内核。因为前者(嵌入式 Spark )与其他相比具有非常低的延迟。我感兴趣

附言低延迟是这里的首要任务。

编辑:大多数情况下正在处理的数据大小将小于 100mb。

最佳答案

我不认为这是一个缺点。如果你看一下 Hive Thriftserver 的实现在 Spark 项目本身中，他们还在 Hive Server 中管理 SQLContext 等过程。如果数据量很小并且驱动程序可以轻松处理，情况尤其如此。所以我也将此视为一个提示，这可以用于生产。

但我完全同意，在大数据管道的信息背后，缺乏关于如何将 Spark 集成到面向客户的交互式应用程序中的文档或建议。

关于apache-spark - 在应用程序中使用嵌入式 Spark 的缺点，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39336185/