我有以下情况:
- 将会定期向 ADLS Gen 2 发送文件。没有时间表。文件夹结构如下所示:f1/sf1/sf2/sf3/file(s)。
- 只要 sf3 中有任何文件可用,数据工厂触发器就会立即触发
- 触发数据工厂后,我们必须获取文件路径和文件名,并将其作为输入传递到 ADB 笔记本
请对方法提出任何建议。
最佳答案
查看 Databricks 中的 cloudfiles 流源。请参阅Streaming data processing和 Databricks Autoloader 。您可以连续运行该作业,或者just once对于每个新文件。
它将为您跟踪文件,可以连续运行或由数据工厂触发,但您不需要数据工厂将文件名传递给 Databricks。
从 trigger event 中获取文件名也支持,您可以将它们传递为 parameters to databricks .
关于Azure 数据工厂存储事件触发器文件路径,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72579459/