azure - 如何在数据工厂中使用脚本操作创建 HDInsightOnDemand LinkedService?

标签 azure pyspark pip azure-data-factory azure-hdinsight

我们正在创建一个用于运行 pySpark 作业的 DataFactory,该作业使用 HDInsight 按需集群。

问题是我们需要使用未安装的额外 python 依赖项来运行此作业,例如 numpy。

我们认为这样做的方法是为 HDInsightOnDemandLinkedService 配置脚本操作,但我们在 DataFactory 或 LikedServices 上找不到此选项。

是否有其他方法可以自动安装依赖项的 HDInsightOnDemand?

最佳答案

目前不支持 HDInsightOnDemandLinkedService 的脚本操作。您可以使用 Azure 自动化运行 PowerShell 脚本来执行以下操作:

  1. 创建 HDInsight 群集
  2. 执行脚本操作
  3. 在 DataFactory 中运行管道
  4. 删除集群。

关于azure - 如何在数据工厂中使用脚本操作创建 HDInsightOnDemand LinkedService?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49456110/

相关文章:

azure - 应用服务计划存储增加 - Azure

MongoDB pyspark 连接器问题,[错误 13] 权限被拒绝 'home/.cache'

python - 如何获取未安装的 pip 包的简短和详细描述?

asp.net - http 服务 503 不可用 仅适用于 HTTPS

azure - ASP .Net core 项目 CI\CD 在使用 DevOps 项目发布时失败

python - MS Teams 中的主动消息传递

python - 在 PySpark UDF 中使用不同的数据框

python - 转换数据帧: several columns to single by order

python - 如何通过pip安装包?

python - 错误 : Double requirement given: Pillow==6. 1.0(来自 -r requirements.txt(第 25 行))