apache-spark - 如何缓存 Spark 数据帧并在另一个脚本中引用它

标签 apache-spark pyspark apache-spark-sql pyspark-sql

是否可以缓存数据框,然后在另一个脚本中引用(查询)它?...我的目标如下:

  • 在脚本 1 中,创建一个数据框 (df)
  • 运行脚本 1 并缓存 df
  • 在脚本 2 中,查询 df
  • 中的数据

    最佳答案

    使用标准 Spark 二进制文件是不可能的。 Spark DataFrame绑定(bind)到特定的 SQLContext它已用于创建它,并且在它之外无法访问。

    有一些工具,例如 Apache Zeppelin 或 Databricks,它们使用注入(inject)不同 session 的共享上下文。这是您可以在不同 session 和/或 guest 语言之间共享临时表的方式。

    还有其他平台,包括 spark-jobserver Apache Ignite ,它提供了共享分布式数据结构的替代方法。你也可以看看Livy server .

    另见:Share SparkContext between Java and R Apps under the same Master

    关于apache-spark - 如何缓存 Spark 数据帧并在另一个脚本中引用它,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35583493/

    相关文章:

    sql-server - Azure Synapse pyspark 将外部表的 STRING 数据类型转换为 varchar(8000)

    python - 如何从 pyspark 中的另一列中查找一列的顶级层次结构?

    apache-spark - 在没有安装 Hadoop 的情况下在 Spark 上提交 .py 脚本

    python - 派斯帕克; DecimalType乘法精度损失

    hadoop - 使用 spark 进行任务调度

    python - 在 PySpark 上将日期时间转换为日期

    python - java.lang.OutOfMemoryError : Unable to acquire 100 bytes of memory, 得到 0

    apache-spark - 收集 Spark 作业运行统计信息并将其保存到数据库的最佳方法是什么

    scala - 如何最有效地将 Scala DataFrame 的 Row 转换为 case 类?

    scala - 如何从包含枚举的案例类创建 Spark 数据集或数据框