hadoop - Spark如何在提交后获取输入

标签 hadoop apache-spark

我正在设计一个应用程序,它需要非常快的响应,并且需要在给定一个输入(命令)的情况下从hadoop文件系统检索和处理大量数据(>40G)。

我在想,是否可以使用spark在分布式内存中捕获如此大量的数据,并让应用程序一直运行。如果我给应用程序一个命令,它就可以开始根据输入处理数据。

我觉得捕捉这么大的数据不是问题。但是,如何让应用程序运行并接受输入?

据我所知,在“spark-submit”命令之后没有什么可以做的...

最佳答案

您可以尝试spark job serverNamed Objects将数据集缓存在分布式内存中并在各种输入命令中使用它。

关于hadoop - Spark如何在提交后获取输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40390913/

相关文章:

Hadoop FileUtil copymerge - 忽略 header

python - hadoop集群: map task run only on one machine and not all

hadoop - RANK操作失败

scala - 条件应用 `filter`/`where`到一个Spark `Dataset`/`Dataframe`

scala - 如何覆盖 sbt 中对特定任务的依赖

java - ClassNotFoundException : org. apache.hive.jdbc.HiveDriver

java - Hadoop Map Reduce 程序键值传递

apache-spark - Spark SQL 中的 OUTER 和 FULL OUTER 之间有区别吗?

azure - 如何在 Azure HDInsight 上的 Spark 中设置 Parquet block 大小?

scala - 为spark rdd元素添加前缀