python - 如何使用 python 从 azure databricks 笔记本连接到本地 Windows 服务器?

标签 python azure pyspark databricks azure-databricks

需要在 azure databricks 和本地 Windows 服务器之间建立连接。我尝试了下面的Python代码:

import os

filePath = "\\\\SERVER001\\folder\\"
fileExtension = ".xml"

def get_file_count(filePath, fileExtension):
  try:
    fileCount = len([name for name in os.listdir(filePath) if name.endswith(fileExtension)])
    print(fileCount)
  except Exception as e:
    print(str(e))
get_file_count(filePath, fileExtension)

但它给了我错误:

[Errno 2] No such file or directory: '\\\\SERVER001\\folder\\'

我猜它正在 databricks 目录中搜索。连接本身并没有发生。我是 databricks 领域的初学者。任何帮助将不胜感激。

最佳答案

开箱即用是不可能的,因为该服务器是本地部署的,而 Databricks 位于云中,无需了解您的本地环境。

你有两个选择:

  1. 您需要将文件上传到 DBFS,然后访问它们。例如,您可以通过 UI 来完成此操作 - 通过 DBFS 文件浏览器 ( docs ) 或通过上传数据 UI ( docs )。如果您有很多文件很大,那么您可以使用类似 az-copy 的内容将文件上传到 Azure 存储

  2. 理论上您可以将网络环境设置为 connect to on-premise via VPN (您需要带有“自带 VNet”的工作区),然后访问文件共享,但这可能具有挑战性,因为您需要确保在防火墙等上打开了所有必要的端口。

我建议选择第一个选项。

关于python - 如何使用 python 从 azure databricks 笔记本连接到本地 Windows 服务器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68708393/

相关文章:

python - 处理多类问题。随机森林分类器可以处理 >100,000 个类别吗?

pyspark - 未找到 Spark Cell 魔法

python - 如何将函数应用于两列以创建第三列

python - 如何在 Pandas 中有效地执行相当于 Excel MATCH 功能(小于)的功能?

azure - 如何在 velero 部署上运行 helm 升级?

azure - 在哪里可以看到已声明的同义词映射?

python - 如何理解wxGridBagSizer?

Python 2.7 方法解析顺序覆盖

azure - VS2019 Azure服务身份验证帐户选择用于本地调试

python - 缓存有序的 Spark DataFrame 会创建不需要的作业