假设我们有一些数据库(任何支持 csv 转储的数据库),实时收集原始数据以便在 ML 中进一步使用。 另一方面,我们有 DVC,它可以处理 csv 文件。
我想使用日期时间参数组织存储的 SELECT 到该数据库的计划运行(并且还支持手动运行),以创建新的 csv 文件,并将它们发送到 DVC。
在DVC文档和示例中我发现,csv文件已经存在。
我可以使用 DVC 本身与数据库进行交互,还是我出了问题,并且有一个单独的 csv 转储工具?
最佳答案
此过程分为 3 个步骤:
- 创建 CSV 转储。许多数据库都有这些工具,但 DVC 本身并不支持这些工具。
- 对 CSV 转储进行版本控制并将其移至某个存储。 DVC 可以完成这项工作。
- 安排定期转储。您可以使用 Cron(简单)、AirFlow(不容易)或 periodical jobs in GitHub Actions/GitLab CI/CD 。 DVC 团队的另一个项目可以帮助 CI/CD 选项:https://cml.dev .
关于export-to-csv - DVC - 进行预定的 csv 转储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67209146/