我有这样的场景,我需要从 Oracle 数据库获取数百万条记录,然后需要将这些记录以 1000 条为一组发送到 Apache Kafka 生产者。
下次获取记录时,我必须避免将已推送的记录拉取到 Kafka,而是选择更新的记录。这是增量负载处理的一种形式,
请告诉我是否有针对这种情况我应该遵循的方法。
最佳答案
使用 CDC 将更改从 Oracle 等数据库流式传输到 Kafka。您有多种选择,包括 GoldenGate、DBVisit、Attunity 等。
或者使用JDBC Kafka Connect connector根据递增键或时间戳的更改将记录流式传输到 Kafka。这不像 CDC 那样可扩展或灵活的解决方案 - 但具有免费的优点:)
关于java - Apache Kafka 中数据的增量加载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47071364/