我们正在创建一个用于运行 pySpark 作业的 DataFactory,该作业使用 HDInsight 按需集群。
问题是我们需要使用未安装的额外 python 依赖项来运行此作业,例如 numpy。
我们认为这样做的方法是为 HDInsightOnDemandLinkedService 配置脚本操作,但我们在 DataFactory 或 LikedServices 上找不到此选项。
是否有其他方法可以自动安装依赖项的 HDInsightOnDemand?
最佳答案
目前不支持 HDInsightOnDemandLinkedService 的脚本操作。您可以使用 Azure 自动化运行 PowerShell 脚本来执行以下操作:
- 创建 HDInsight 群集
- 执行脚本操作
- 在 DataFactory 中运行管道
- 删除集群。
关于azure - 如何在数据工厂中使用脚本操作创建 HDInsightOnDemand LinkedService?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49456110/