我正在设计一个应用程序,它需要非常快的响应,并且需要在给定一个输入(命令)的情况下从hadoop文件系统检索和处理大量数据(>40G)。
我在想,是否可以使用spark在分布式内存中捕获如此大量的数据,并让应用程序一直运行。如果我给应用程序一个命令,它就可以开始根据输入处理数据。
我觉得捕捉这么大的数据不是问题。但是,如何让应用程序运行并接受输入?
据我所知,在“spark-submit”命令之后没有什么可以做的...
最佳答案
您可以尝试spark job server和 Named Objects将数据集缓存在分布式内存中并在各种输入命令中使用它。
关于hadoop - Spark如何在提交后获取输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40390913/