我有 json 文件,体积约为 500 TB。我已经将完整的集合加载到配置单元数据仓库中。
我将如何验证或测试加载到 Hive 仓库中的数据
。我的测试策略
应该是什么?
客户希望我们验证 json 数据。加载到hive中的数据是否正确。有没有想念的如果有,是哪个字段?
请帮忙。
最佳答案
您的数据如何存储在 Hive 表中?
一个选项是创建一个 Hive UDF 函数来接收 JSON 字符串并验证数据并返回另一个带有错误消息的字符串,如果 JSON 字符串格式正确则返回一个空字符串。
这是一个 Hve UDF 教程:http://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html
有了 Hive UDF 函数,您可以执行如下查询:
select strjson, validateJson(strjson) from jsonTable where validateJson(strjson) != "";
关于json - hadoop - 验证加载到 hive 仓库中的 json 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38089216/