export-to-csv - DVC - 进行预定的 csv 转储

标签 export-to-csv dvc

假设我们有一些数据库(任何支持 csv 转储的数据库),实时收集原始数据以便在 ML 中进一步使用。 另一方面,我们有 DVC,它可以处理 csv 文件。

我想使用日期时间参数组织存储的 SELECT 到该数据库的计划运行(并且还支持手动运行),以创建新的 csv 文件,并将它们发送到 DVC。

在DVC文档和示例中我发现,csv文件已经存在。

我可以使用 DVC 本身与数据库进行交互,还是我出了问题,并且有一个单独的 csv 转储工具?

最佳答案

此过程分为 3 个步骤:

  1. 创建 CSV 转储。许多数据库都有这些工具,但 DVC 本身并不支持这些工具。
  2. 对 CSV 转储进行版本控制并将其移至某个存储。 DVC 可以完成这项工作。
  3. 安排定期转储。您可以使用 Cron(简单)、AirFlow(不容易)或 periodical jobs in GitHub Actions/GitLab CI/CD 。 DVC 团队的另一个项目可以帮助 CI/CD 选项:https://cml.dev .

关于export-to-csv - DVC - 进行预定的 csv 转储,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67209146/

相关文章:

angular - 使用 primeNG 和 dataTable 进行 CSV 导出的嵌套 json 对象

mysql - 如何: Export a recordset as a semicolon separated csv file in MySQL workbench?

python - 从已过滤的 Excel 文件写入 CSV

git - DVC 文件不完整

authentication - 使用 github 操作时自动进行 DVC 身份验证

windows - 使用数据版本控制在 mingw 中解析路径失败

vba - 动态添加并运行一段vba代码

powershell - 更改CSV电子邮件地址

google-client - 使用 Google Drive Remote 进行数据版本控制 : "googleapiclient.errors.UnknownApiNameOrVersion: name: drive version: v2"