hadoop - 配置单元中的数据验证检查

标签 hadoop hive

我是hadoop的新手。我想知道:如果我们摄取数据,如何进行数据验证检查。

1.是否包含任何损坏的数据?
2.是否包含NULL值?
3.是否包含任何重复值?
4.如何限制同一文件不应该加载到同一表中?

如果您知道除此以外还进行了其他任何数据验证检查,请告诉我。

最佳答案

它是一个自由的世界。...没有验证,配置单元可以重复,为空,损坏(在商业上明智)等。

关于hadoop - 配置单元中的数据验证检查,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39092868/

相关文章:

java - HBase countRow Nullpointer异常在validateArgAndGetPB

json - HQL返回ISO时间戳

json - 在 Hive 中分解 json

hadoop - 在Hadoop上配置Hive,Map Reduce无法正常工作-错误:找不到或加载主类1600

string - Hadoop中文本和字符串的区别

hadoop - flink-sql 如何处理 'count(distinct )' 这样的场景

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

hadoop - 使用 Hive QL 按时间间隔对时间序列进行采样并计算跳跃

jdbc - 汇集 Hive JDBC 连接的最佳实践是什么

java - 如何使用java在Apache Spark程序中指定Hive的元存储?