我从 Remove duplicates in SSIS Data Flow 学到的如何使用排序转换删除具有重复数据值的行。
就我而言,我正在读取一个分隔文件,需要消除重复项,并记录具有重复键的行。我需要将这些行输出到另一个分隔文件,并将其通过电子邮件发送给客户,以便他们可以更正数据并重试。
不过,我不太清楚如何做到这一点。我将尝试使用 Aggregate 和 Merge Join,但我希望有一种已知的模式可以做到这一点。
最佳答案
嗨,我的回答适用于任何数据,因为互联网中的某些解决方案需要行的主键,我的解决方案不需要主键 .
这里的示例结构和示例数据集:
a b
1 23
1 23
16 59
12 12
13 45
12 12
45 56
只需按所有列分组并添加最后一列 - 全部计数(如果有两列或更多列,您只需要在“聚合”元素中放置所有列和 foreach 组,最后放置“全部计数”列) :
然后只需添加条件拆分元素并获取超过 1 个相同行的所有行:
真实例子:
关于SSIS 数据流如何删除重复行但在 SSIS 中记录重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12306256/