Java - Apache Spark 通信

标签 java apache-spark

我是 Spark 的新手,正在寻找一些指导:-)

Java MVC 应用程序与 Spark 通信的典型方式是什么?为了简化事情,假设我想计算某个文件中的单词数,该文件的名称是通过 GET 请求提供给我的服务器的。

我最初的方法是打开上下文并在我的 MVC 应用程序中的类中实现转换/计算。这意味着在运行时我必须想出一个 super jar 的 spark-core。问题是:

也许 Maven 中“提供的”作用域对我有帮助,但我使用的是 ant。

我的应用程序是否应该 - 如页面中所建议的 - 已经有一个带有实现的 jar(没有任何 spark 库)并在我每次收到请求时使用 spark-submit。我猜它会将结果留在某处。

我是否遗漏了任何中间方法?

最佳答案

每次都使用 spark-submit 是一种沉重的负担,我建议使用某种长时间运行的 Spark 上下文。我认为您可能正在寻找的“中间道路”选项是让您的工作使用诸如 IBM Spark 内核、Zepplin 或 Ooyala 的 Spark Job Server 之类的东西。

关于Java - Apache Spark 通信,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30675368/

相关文章:

java - maven 自定义原型(prototype)发布到存储库

scala - 避免加入Spark Scala DataFrame

apache-spark - Spark Streaming forEachBatch 在写入数据库时​​给出不一致/无序的结果

python - 如何计算pyspark中每行某些列的最大值

java - 无法将请求映射到 Spring MVC 3 中的 Controller

java - 在 libGDX 中一一淡入文本字符串

java - 使用 Pageable 排序时重复

java - 我需要如何使用 MouseListener 启动后台线程?

java - Spark 序列化的奇怪之处

scala - Spark RDD 将一行数据映射为多行