我正在构建数据湖以集成多个数据源以进行高级分析。
首先,我选择HDFS作为数据湖存储。但是我需要更新和删除数据源,而这些数据源必须与数据湖同步。
为了了解Data Lake的不变性,我将考虑Data Source中的LastModifiedDate来检测该记录是否已更新,并将此记录插入当前日期的Data Lake中。这个想法是选择带有max(date)的记录。
但是,我无法理解
您能建议我针对这种情况的良好做法吗?
最佳答案
通常,在Hadoop中创建数据湖时,这始终是一个约束,不能仅仅更新或删除其中的记录。您可以尝试的一种方法是
关于apache-spark - 将数据湖与已删除的记录同步,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49694901/