hadoop - Spark如何在提交后获取输入

我正在设计一个应用程序，它需要非常快的响应，并且需要在给定一个输入(命令)的情况下从hadoop文件系统检索和处理大量数据(>40G)。

我在想，是否可以使用spark在分布式内存中捕获如此大量的数据，并让应用程序一直运行。如果我给应用程序一个命令，它就可以开始根据输入处理数据。

我觉得捕捉这么大的数据不是问题。但是，如何让应用程序运行并接受输入？

据我所知，在“spark-submit”命令之后没有什么可以做的...

最佳答案

您可以尝试spark job server和 Named Objects将数据集缓存在分布式内存中并在各种输入命令中使用它。

关于hadoop - Spark如何在提交后获取输入，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40390913/

相关文章：

Hadoop FileUtil copymerge - 忽略 header