python - Azure Databricks Python 作业

标签 python azure azure-data-factory azure-databricks

我需要在 Azure 中近乎实时地解析大量小型非结构化文件,并将解析后的数据加载到 SQL 数据库中。我选择了Python(因为考虑到源文件的数量及其大小,我认为任何Spark集群或大数据都不适合)并且解析逻辑已经写好了。我期待使用 Azure PaaS 以不同的方式安排这个 python 脚本

  1. Azure 数据工厂
  2. Azure Databricks
  3. 都是 1+2

请问从 Azure 数据工厂运行指向 Azure Databricks 的 Python 笔记本事件有何含义?我能够充分利用集群(Driver & Workers)的潜力吗?

另外,如果您认为脚本必须转换为 PySpark 才能满足我在 Azure Databricks 中运行的用例要求,请建议我?这里唯一的犹豫是文件以 KB 为单位,并且它们是非结构化的。

最佳答案

如果脚本是纯Python,那么它只能在Databricks集群的驱动程序节点上运行,这使得它非常昂贵(并且由于集群启动时间而缓慢)。

您可以重写为 pyspark,但如果数据量像您所说的那么低,那么这仍然是昂贵且缓慢的。最小的集群将消耗两个虚拟机——每个虚拟机有 4 个核心。

我会考虑使用 Azure Functions。 Python 现在是一个选项:https://learn.microsoft.com/en-us/azure/python/tutorial-vs-code-serverless-python-01

Azure Functions 还与 Azure 数据工厂进行了很好的集成,因此您的工作流程仍然可以正常工作。

关于python - Azure Databricks Python 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59485248/

相关文章:

python - numpy:将(an,)数组转换为(n,1)数组的语法/习惯用法?

python - 如何使用 flask_restplus 显示模式示例?

azure - 如何持续将数据从本地 SQL 数据库迁移到 Azure SQL 数据库

Azure 数据流 md5 函数不将十进制值识别为唯一

python - 为什么当我启动 Python 脚本时 main() 函数不运行?脚本从哪里开始运行?

python - GDALWarp 返回 NULL 且未设置错误

asp.net - Web api 接口(interface)可以在本地运行,但不能在 Azure 上运行

azure - 如何列出 Azure 数据湖第 2 代中按 Azure 数据工厂中的上次修改日期筛选的所有路径?

azure - 使用 python 将文件从 blob 容器复制到另一个容器

azure - Application Insights 中没有自定义事件