我正在设计一个数据仓库系统,原始数据源有两个:文件(十六进制格式,记录结构已知)和PostgreSQL数据库。 ETL 阶段必须读取两个源(文件和数据库)的内容并组合/集成/清理它们。之后,加载数据到DW。
为此,工具(例如 Talend)或临时解决方案(使用编程语言编写临时例程)哪个更好?
最佳答案
我建议您使用 Bulk Loader将您的平面文件放入数据库。这允许您自定义加载规则,然后使用常规 SQL 处理/清理结果数据集(无需编写其他自定义代码)
关于postgresql - ETL 工具还是临时解决方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11454789/