python - 如何在 Django 中管理 Apache Spark 上下文?

标签 python django apache-spark

我有一个与 Cassandra 数据库交互的 Django 应用程序,我想尝试使用 Apache Spark 在此数据库上运行操作。我有一些使用 Django 和 Cassandra 的经验,但我是 Apache Spark 的新手。

我知道要与 Spark 集群交互,首先我需要创建一个 SparkContext,如下所示:

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)

我的问题如下:我应该如何处理这个上下文?我应该在我的应用程序启动时实例化它并让它在执行期间运行,还是应该在每次在集群中运行操作之前启动一个 SparkContext,然后在操作完成时将其终止?

提前谢谢你。

最佳答案

最近几天我一直在研究这个,因为没有人回答我会发布我的方法。

显然,创建 SparkContext 会产生一些开销,因此在每次操作后停止上下文并不是一个好主意。

此外,显然,在应用程序运行时让上下文存在也没有什么坏处。

因此,我的方法是将 SparkContext 视为数据库连接,我创建了一个单例,在应用程序开始运行时实例化上下文,并在需要时使用它。

我希望这对某人有所帮助,并且我愿意接受有关如何处理此问题的新建议,我对 Apache Spark 还是个新手。

关于python - 如何在 Django 中管理 Apache Spark 上下文?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39373608/

相关文章:

python - 了解 Python 中的多处理 : Shared Memory Management, 锁和队列

MySQL ERROR 2026 - SSL 连接错误 - Ubuntu 20.04

python - Django:如何过滤和显示页面上类别的帖子

apache-spark - 为什么我必须在 Spark 作业之间不断重新启动 Spark 服务?

python - 按日期分组 Spark 数据框

python - 计算三种方法的欧氏距离

python - pulp solve 函数给出相同的输出

javascript - 在 Django 中显示来自 API 的 JSON 数据

python - 用于大型应用程序的 Django 风格的 Flask URL 模式

java - Spark 结构化流状态管理