python - 如何使用 python 从 azure databricks 笔记本连接到本地 Windows 服务器？

标签 python azure pyspark databricks azure-databricks

需要在 azure databricks 和本地 Windows 服务器之间建立连接。我尝试了下面的Python代码:

import os

filePath = "\\\\SERVER001\\folder\\"
fileExtension = ".xml"

def get_file_count(filePath, fileExtension):
  try:
    fileCount = len([name for name in os.listdir(filePath) if name.endswith(fileExtension)])
    print(fileCount)
  except Exception as e:
    print(str(e))
get_file_count(filePath, fileExtension)

但它给了我错误:

[Errno 2] No such file or directory: '\\\\SERVER001\\folder\\'

我猜它正在 databricks 目录中搜索。连接本身并没有发生。我是 databricks 领域的初学者。任何帮助将不胜感激。

最佳答案

开箱即用是不可能的，因为该服务器是本地部署的，而 Databricks 位于云中，无需了解您的本地环境。

你有两个选择:

您需要将文件上传到 DBFS，然后访问它们。例如，您可以通过 UI 来完成此操作 - 通过 DBFS 文件浏览器 ( docs ) 或通过上传数据 UI ( docs )。如果您有很多文件很大，那么您可以使用类似 az-copy 的内容将文件上传到 Azure 存储
理论上您可以将网络环境设置为 connect to on-premise via VPN (您需要带有“自带 VNet”的工作区)，然后访问文件共享，但这可能具有挑战性，因为您需要确保在防火墙等上打开了所有必要的端口。

我建议选择第一个选项。

关于python - 如何使用 python 从 azure databricks 笔记本连接到本地 Windows 服务器？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68708393/

上一篇：azure - 如何使用azure python sdk获取资源成本？

下一篇：c# - 断言签名验证失败

pyspark - 未找到 Spark Cell 魔法

python - 如何将函数应用于两列以创建第三列

python - 如何在 Pandas 中有效地执行相当于 Excel MATCH 功能(小于)的功能？

azure - 如何在 velero 部署上运行 helm 升级？

azure - 在哪里可以看到已声明的同义词映射？

python - 如何理解wxGridBagSizer？

Python 2.7 方法解析顺序覆盖

azure - VS2019 Azure服务身份验证帐户选择用于本地调试

python - 缓存有序的 Spark DataFrame 会创建不需要的作业