python-wheel - 如何使用 Azure Synapse Analytics 将自定义 Python 库导入到 apache Spark 池中？

标签 python-wheel azure-synapse

根据 Microsoft 的文档，可以上传 python 轮文件，以便您可以在 Synapse Analytics 中使用自定义库。这是该文档:https://learn.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-azure-portal-add-libraries

我创建了一个简单的库，其中只有一个 hello world 函数，我可以使用 pip 将其安装在我自己的计算机上。所以我知道我的轮文件可以工作。

我已将 Wheel 文件上传到 Microsoft 文档中规定的上传文件的位置。

我还发现了一个 YouTube 视频，其中一个人正在做我想做的事情。这是视频:https://www.youtube.com/watch?v=t4-2i1sPD4U

微软的文档提到了这一点，“可以在 session 之间添加或修改自定义包。但是，您需要等待池和 session 重新启动才能看到更新的包。”

据我所知，无法重新启动池，而且我也不知道如何判断池是否已关闭或已重新启动。

当我尝试在笔记本中使用该库时，出现模块未找到错误。

最佳答案

按照 HimanshuSinha-msft 的建议，更改 Spark 池的规模设置会重新启动 Spark 池。但这不是我的问题。

实际问题是我需要在存储文件的数据湖存储中使用存储 Blob 数据贡献者角色。我假设是因为我已经拥有所有者权限，并且因为我可以创建一个文件夹并上传到那里，所以我拥有所有权限我需要。一旦我获得了存储 Blob 数据贡献者角色，尽管一切正常。

关于python-wheel - 如何使用 Azure Synapse Analytics 将自定义 Python 库导入到 apache Spark 池中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66108836/

上一篇：bitmap - 如何在 Rider 调试 session 中预览位图？

下一篇：c++ - 如何在非选定选项卡中的 QTabWidget 中绘制 Qt 小部件？

azure-synapse - 何时使用多个 azure synapse 工作区？

python - 在安装构建依赖项之前检查 PyPI 上是否存在 Python 轮

python - 如何使用 poetry 将 Python wheel 打包为可执行的 cli？

python - 如何使用 setup.py 安装 wheel-style 包

Azure SQL 数据仓库相当于 AWS Redshift 的 "UNLOAD"语句

python - 如何在 Windows 上将多个 python 轮子打包成一个轮子？

Python wheel 包 Linux vs windows

sql-server - 在 Azure 上添加新的链接服务时，为什么会收到错误 22300？

azure-sql-database - 在 Azure SQL 数据仓库中创建 BLOB_STORAGE 类型外部数据源时出错