python - 带有 databricks 的 Azure 文件系统事件

标签 python azure databricks azure-databricks

我是 Azure databricks 的新手,我需要帮助。我对一切都有点困惑。 Databricks 如何使用 Azure 文件系统事件?什么是 Azure 文件系统事件? Databricks 可以通过什么方式检查错过的事件?谢谢您的帮助。

最佳答案

Databricks 有一个名为 Auto Loader 的功能- 它允许从 ADLS、Azure Blob 存储或其他云存储系统上的文件高效加载数据。虽然OSS Spark也支持从云存储加载文件,但它只是通过列出文件来实现,当目录中有很多文件时,它可能会很慢。 Auto Loader 还支持通过列出文件来发现数据,并且它比标准 Spark 更加优化。

但是自动装载机的功能更强大new files discovery mode - 通过在云存储级别使用文件通知。在这种情况下,数据摄取过程直接接收新文件的名称,无需列出它们,因此速度更快、效率更高。关于丢失事件,自动加载器还具有异步回填机制,该机制将检查事件丢失的文件。

关于python - 带有 databricks 的 Azure 文件系统事件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71883315/

相关文章:

rest - 对 Azure Insights REST API for Events(审核日志)的查询的速率限制策略

python - 将 Spark API 数据帧上的 pandas 保存到 azure databricks 中的新表中

database - 如何仅在 Azure Cosmos DB 中的文档创建(而不是修改)后触发 Azure 函数?

azure - 如何使用个人访问 token 连接 azure synapse 和企业 git 存储库?

azure - Pyspark - 如何在 pyspark 中转换/Date(1593786688000+0200)/格式的日期/时间戳?

azure - 如何在 Pyspark 中关闭值中的科学记数法?

python - 如何用 Pandas 替换数据框的所有行?

python - 如何使用 session 的权重来初始化新 session 的权重?

python - 用于 URL 替换的 pdf-redactor 语法

python - 从嵌入式 python 安装中打开 REPL