python - 有没有办法将实时流从 azure blob 存储复制到 azure my sql

标签 python azure apache-spark google-cloud-platform databricks

我们基本上可以使用 databricks 作为中间,但我坚持使用 python 脚本来每 30 秒将数据从 blob 存储复制到 azure 我的 sql,我们在这里使用 CSV 文件。该脚本需要将 csv 存储在当前时间戳中。

最佳答案

spark/databricks 中没有适用于 mysql 的就绪流选项,因为它不是流源/接收器技术。

您可以在databricks writeStream中使用.forEach(df).forEachBatch(df)选项。这样它会创建临时数据帧,您可以将其保存在您选择的位置(因此写入 mysql)。

我个人会选择简单的解决方案。在Azure Data Factor中,y 足以创建两个数据集(甚至可以没有它) - 一个 mysql、一个 blob,并使用具有复制事件的管道来传输数据。

关于python - 有没有办法将实时流从 azure blob 存储复制到 azure my sql,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70345519/

相关文章:

python - 验证和登录之间有什么区别?

python - Django form.errors 没有出现在模板中

asp.net - Azure AD 中的 jwt-bearer 代表授权问题

scala - 如何在 spark-ml CrossValidatorModel 中获得最佳逻辑回归的系数?

Python 值错误 : Can only compare identically-labeled Series objects

python - 根据条件获取随机元素

c# - Azure Blob 存储 | AcquireLeaseAsync,同步等待直到锁释放

Python Azure WebJob 导入错误 - 无法导入 Python 扩展模块

scala - Spark 2 选项数据集

scala - 如何将 Spark 行(StructType)转换为 scala 案例类