json - hadoop - 验证加载到 hive 仓库中的 json 数据

标签 json hadoop testing hive

我有 json 文件,体积约为 500 TB。我已经将完整的集合加载到配置单元数据仓库中。

我将如何验证或测试加载到 Hive 仓库中的数据。我的测试策略应该是什么?

客户希望我们验证 json 数据。加载到hive中的数据是否正确。有没有想念的如果有,是哪个字段?

请帮忙。

最佳答案

您的数据如何存储在 Hive 表中?

一个选项是创建一个 Hive UDF 函数来接收 JSON 字符串并验证数据并返回另一个带有错误消息的字符串,如果 JSON 字符串格式正确则返回一个空字符串。

这是一个 Hve UDF 教程:http://blog.matthewrathbone.com/2013/08/10/guide-to-writing-hive-udfs.html

有了 Hive UDF 函数,您可以执行如下查询:

select strjson, validateJson(strjson) from jsonTable where validateJson(strjson) != "";

关于json - hadoop - 验证加载到 hive 仓库中的 json 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38089216/

相关文章:

c# - 如何在我上传文件的 Asp.Net 核心 Web API 端点上进行集成测试?

c# - 如何在 net-core 2.0 中手动解析 JSON 字符串

hadoop - 容器运行超出内存限制

unit-testing - 基本 block 覆盖——准确的定义是什么?

java - 从 Java 程序运行 Hadoop 作业

c# - Hadoop/Spark 上的 .NET 场景模拟(DAG 作业)的分布式计算

reactjs - 如何测试包裹在 antd Form 中的组件?

Java:将嵌套的 JSON 文件转换为单个、下一个的 ArrayList

java - Jackson xml 和 json 根元素

json - 反序列化 double 组