apache-spark - 在应用程序中使用嵌入式 Spark 的缺点

标签 apache-spark application-server

我有一个用例,在这个用例中,我在应用程序服务器中启动本地 spark(嵌入式),而不是去 spark rest 作业服务器或内核。因为前者(嵌入式 Spark )与其他相比具有非常低的延迟。我感兴趣

  • 这种方法的缺点(如果有的话)。
  • 同样可以用于生产吗?

附言低延迟是这里的首要任务。

编辑:大多数情况下正在处理的数据大小将小于 100mb。

最佳答案

我不认为这是一个缺点。如果你看一下 Hive Thriftserver 的实现在 Spark 项目本身中,他们还在 Hive Server 中管理 SQLContext 等过程。如果数据量很小并且驱动程序可以轻松处理,情况尤其如此。所以我也将此视为一个提示,这可以用于生产。

但我完全同意,在大数据管道的信息背后,缺乏关于如何将 Spark 集成到面向客户的交互式应用程序中的文档或建议。

关于apache-spark - 在应用程序中使用嵌入式 Spark 的缺点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39336185/

相关文章:

apache-spark - 获取 StructType 格式的 Parquet 文件的架构

java - 使用 Apache Spark 获取 S3 存储桶中的所有文件名列表

hadoop - yarn - Spark 工作的执行者

java - Web服务器和应用服务器的区别

Java 应用程序服务器监视和分析概念

scala - 限制 yarn 容器一次仅执行一项任务

xml - Apache Spark 数据框列爆炸为多个列

java - 我可以在一台服务器上拥有多个 Java 应用程序服务器吗?

web-applications - Weblogic 集群上的 ServletContext 状态复制

java - Glassfish 在后台运行