pyspark - 如何在pyspark中加载databricks包dbutils

标签 pyspark databricks

我试图在 pyspark 中运行以下代码。

dbutils.widgets.text('config', '', 'config')

这是给我一个错误说
 Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
 NameError: name 'dbutils' is not defined

那么,有什么方法可以通过包含 databricks 包(例如导入)在 pyspark 中运行它?

感谢您的帮助

最佳答案

如解释
https://docs.azuredatabricks.net/user-guide/dev-tools/db-connect.html#access-dbutils

根据您直接在 databricks 服务器上执行代码的位置(例如,使用 databricks notebook 调用您的项目 egg 文件)或使用 databricks-connect 从您的 IDE 中,您应该初始化 dbutils,如下所示。 (其中 spark 是您的 SparkSession)

def get_dbutils(spark):
    try:
        from pyspark.dbutils import DBUtils
        dbutils = DBUtils(spark)
    except ImportError:
        import IPython
        dbutils = IPython.get_ipython().user_ns["dbutils"]
    return dbutils

dbutils = get_dbutils(spark)

关于pyspark - 如何在pyspark中加载databricks包dbutils,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51885332/

相关文章:

scala - 如何列出Azure Databricks中的所有安装点?

dataframe - Pyspark:序列化任务超过允许的最大值。考虑增加 spark.rpc.message.maxSize 或对大值使用广播变量

apache-spark - 导入 Pyspark Delta Lake 模块时找不到模块错误

python - 文本列上的 Pyspark DataFrame UDF

sql - 数据 block : Equivalent code for SQL query

azure - 在 Databricks API 2.0 中创建范围 - INVALID_PARAMETER_VALUE

azure - Azure Databricks Unity 目录中的数据分类

datetime - Pyspark:将 12 小时制的字符串日期时间转换为 24 小时制的日期时间(时区更改)

python - 如何将多列添加到 pyspark aws emr 中的现有数据帧?

databricks - 无法将 dbt 连接到 Databricks