我是hadoop的新手。我想知道:如果我们摄取数据,如何进行数据验证检查。
1.是否包含任何损坏的数据?
2.是否包含NULL值?
3.是否包含任何重复值?
4.如何限制同一文件不应该加载到同一表中?
如果您知道除此以外还进行了其他任何数据验证检查,请告诉我。
最佳答案
它是一个自由的世界。...没有验证,配置单元可以重复,为空,损坏(在商业上明智)等。
关于hadoop - 配置单元中的数据验证检查,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39092868/