python - 使用按需 HOT Insight 集群从 Azure 数据工厂 V2 访问数据湖

标签 python pyspark azure-hdinsight azure-data-factory azure-data-lake

我正在尝试使用 Azure 数据工厂从按需 HD Insight 集群执行 Spark 作业。

文档清楚地表明,ADF(v2) 不支持按需 HD Insight 集群的数据湖链接服务,并且必须将数据从复制事件复制到 Blob 上,然后执行作业。但如果数据湖上有十亿个文件,这种解决方法似乎会耗费巨大的资源。是否有任何有效的方法可以从执行 Spark 作业的 python 脚本或任何其他方式直接访问文件来访问 datalake 文件。

P.S 是否有可能从 v1 做类似的事情,如果是的话怎么做? “使用 Azure 数据工厂在 HDInsight 中创建按需 Hadoop 集群”描述了访问 Blob 存储的按需 Hadoop 集群,但我想要访问数据湖的按需 Spark 集群。

提前致谢

最佳答案

目前,我们在 ADF v2 中不支持使用 HDI Spark 集群的 ADLS 数据存储。我们计划在未来几个月内添加这一内容。在那之前,您将必须继续使用您在上面的帖子中提到的解决方法。很抱歉给您带来不便。

关于python - 使用按需 HOT Insight 集群从 Azure 数据工厂 V2 访问数据湖,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48165947/

相关文章:

python - 是否可以将 python 及其必要的库导出到与环境无关的文件中?

apache-spark - pyspark spark-submit 中的 Java 堆空间 OutOfMemoryError?

Azure 数据湖 VS Azure HDInsight

azure - 如何将数据上传到 HDInsight 中的 Hive?

hadoop - Hive 中分区列的顺序重要吗?

python - 如何在不覆盖 Excel 中的第一行的情况下将标题添加到数据框(使用 ".parse"从 excel 创建)

用于访问股票市场信息的 Python API

Python SQL 到 pandas DataFrame

python - 过滤窗隔板至少有 3 个 5 分钟间隙

Pyspark 用户定义的列聚合计算