python - 带有 databricks 的 Azure 文件系统事件

标签 python azure databricks azure-databricks

我是 Azure databricks 的新手，我需要帮助。我对一切都有点困惑。 Databricks 如何使用 Azure 文件系统事件？什么是 Azure 文件系统事件？ Databricks 可以通过什么方式检查错过的事件？谢谢您的帮助。

最佳答案

Databricks 有一个名为 Auto Loader 的功能- 它允许从 ADLS、Azure Blob 存储或其他云存储系统上的文件高效加载数据。虽然OSS Spark也支持从云存储加载文件，但它只是通过列出文件来实现，当目录中有很多文件时，它可能会很慢。 Auto Loader 还支持通过列出文件来发现数据，并且它比标准 Spark 更加优化。

但是自动装载机的功能更强大new files discovery mode - 通过在云存储级别使用文件通知。在这种情况下，数据摄取过程直接接收新文件的名称，无需列出它们，因此速度更快、效率更高。关于丢失事件，自动加载器还具有异步回填机制，该机制将检查事件丢失的文件。

关于python - 带有 databricks 的 Azure 文件系统事件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/71883315/

上一篇：azure - 网关在指定时间内没有收到 'Microsoft.Sql'的响应

下一篇：azure - 没有足够的核心来在 Azure for Students 上部署资源组错误

python - 将 Spark API 数据帧上的 pandas 保存到 azure databricks 中的新表中

database - 如何仅在 Azure Cosmos DB 中的文档创建(而不是修改)后触发 Azure 函数？

azure - 如何使用个人访问 token 连接 azure synapse 和企业 git 存储库？

azure - Pyspark - 如何在 pyspark 中转换/Date(1593786688000+0200)/格式的日期/时间戳？

azure - 如何在 Pyspark 中关闭值中的科学记数法？

python - 如何用 Pandas 替换数据框的所有行？

python - 如何使用 session 的权重来初始化新 session 的权重？

python - 用于 URL 替换的 pdf-redactor 语法

python - 从嵌入式 python 安装中打开 REPL