我们基本上可以使用 databricks 作为中间,但我坚持使用 python 脚本来每 30 秒将数据从 blob 存储复制到 azure 我的 sql,我们在这里使用 CSV 文件。该脚本需要将 csv 存储在当前时间戳中。
最佳答案
spark/databricks 中没有适用于 mysql 的就绪流选项,因为它不是流源/接收器技术。
您可以在databricks writeStream中使用.forEach(df)
或.forEachBatch(df)
选项。这样它会创建临时数据帧,您可以将其保存在您选择的位置(因此写入 mysql)。
我个人会选择简单的解决方案。在Azure Data Factor中,y 足以创建两个数据集(甚至可以没有它) - 一个 mysql、一个 blob,并使用具有复制事件的管道来传输数据。
关于python - 有没有办法将实时流从 azure blob 存储复制到 azure my sql,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70345519/