是否可以缓存数据框,然后在另一个脚本中引用(查询)它?...我的目标如下:
最佳答案
使用标准 Spark 二进制文件是不可能的。 Spark DataFrame
绑定(bind)到特定的 SQLContext
它已用于创建它,并且在它之外无法访问。
有一些工具,例如 Apache Zeppelin 或 Databricks,它们使用注入(inject)不同 session 的共享上下文。这是您可以在不同 session 和/或 guest 语言之间共享临时表的方式。
还有其他平台,包括 spark-jobserver
和 Apache Ignite ,它提供了共享分布式数据结构的替代方法。你也可以看看Livy server .
另见:Share SparkContext between Java and R Apps under the same Master
关于apache-spark - 如何缓存 Spark 数据帧并在另一个脚本中引用它,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35583493/