我是 Azure databricks 的新手,我需要帮助。我对一切都有点困惑。 Databricks 如何使用 Azure 文件系统事件?什么是 Azure 文件系统事件? Databricks 可以通过什么方式检查错过的事件?谢谢您的帮助。
最佳答案
Databricks 有一个名为 Auto Loader 的功能- 它允许从 ADLS、Azure Blob 存储或其他云存储系统上的文件高效加载数据。虽然OSS Spark也支持从云存储加载文件,但它只是通过列出文件来实现,当目录中有很多文件时,它可能会很慢。 Auto Loader 还支持通过列出文件来发现数据,并且它比标准 Spark 更加优化。
但是自动装载机的功能更强大new files discovery mode - 通过在云存储级别使用文件通知。在这种情况下,数据摄取过程直接接收新文件的名称,无需列出它们,因此速度更快、效率更高。关于丢失事件,自动加载器还具有异步回填机制,该机制将检查事件丢失的文件。
关于python - 带有 databricks 的 Azure 文件系统事件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71883315/