apache-spark - 如何缓存 Spark 数据帧并在另一个脚本中引用它

标签 apache-spark pyspark apache-spark-sql pyspark-sql

是否可以缓存数据框，然后在另一个脚本中引用(查询)它？...我的目标如下:

在脚本 1 中，创建一个数据框 (df)

运行脚本 1 并缓存 df

在脚本 2 中，查询 df

中的数据

最佳答案

使用标准 Spark 二进制文件是不可能的。 Spark DataFrame绑定(bind)到特定的 SQLContext它已用于创建它，并且在它之外无法访问。

有一些工具，例如 Apache Zeppelin 或 Databricks，它们使用注入(inject)不同 session 的共享上下文。这是您可以在不同 session 和/或 guest 语言之间共享临时表的方式。

还有其他平台，包括 spark-jobserver 和 Apache Ignite ，它提供了共享分布式数据结构的替代方法。你也可以看看Livy server .

另见:Share SparkContext between Java and R Apps under the same Master

关于apache-spark - 如何缓存 Spark 数据帧并在另一个脚本中引用它，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35583493/

上一篇：r - 当范围每天都在变化时，如何使用 plot() 调整 x 轴？

下一篇：webrtc - 如何在 WebRTC 的 MediaStream 中添加Track

python - 如何从 pyspark 中的另一列中查找一列的顶级层次结构？

apache-spark - 在没有安装 Hadoop 的情况下在 Spark 上提交 .py 脚本

python - 派斯帕克； DecimalType乘法精度损失

hadoop - 使用 spark 进行任务调度

python - 在 PySpark 上将日期时间转换为日期

python - java.lang.OutOfMemoryError : Unable to acquire 100 bytes of memory, 得到 0

apache-spark - 收集 Spark 作业运行统计信息并将其保存到数据库的最佳方法是什么

scala - 如何最有效地将 Scala DataFrame 的 Row 转换为 case 类？

scala - 如何从包含枚举的案例类创建 Spark 数据集或数据框