python - 如何在数据 block 集群上运行非 Spark 代码?

标签 python databricks azure-databricks databricks-connect

我能够从 databricks connect 中提取数据并完美地运行 spark 作业。我的问题是如何在远程集群上运行非 spark 或 native python 代码。出于保密原因不共享代码。

最佳答案

当您使用 databricks connect 时,您的本地计算机是您的 Spark 作业的驱动程序,因此非 Spark 代码将始终在您的本地计算机上执行。如果您想远程执行它,则需要将其打包为 wheel/egg,或将 Python 文件上传到 DBFS(例如,通过 databricks-cli )并将您的代码作为 Databricks 作业执行(例如,使用 Run Submit command Jobs REST API,或 create a Job with databricks-cli 并使用 databricks jobs run-now 来执行它)

关于python - 如何在数据 block 集群上运行非 Spark 代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69527922/

相关文章:

Python Pandas - 根据组中值的存在来过滤组

python - PyCharm 重新格式化代码不会将行换行至指定长度

python - 使用 Pyspark-SQL 与 Pyspark 使用 Delta 格式查询表有什么区别?

azure - 从 Azure databricks 向 MS Onelake 写入数据时出错

python - flask-reSTLess validation_exceptions 不适用于 flask-sqlalchemy 模型中的少数列

python - Pandas 连续日期

azure - 是否可以使用 Databricks 的专用终结点连接到 Azure 存储帐户?

apache-spark - 在 SPARK 中将多列组合成单列

配置了专用链接的 Azure Databricks SCIM 预配

pyspark - PySpark - 使用 Databricks Spark 在 Synapse 中执行合并