mongodb - 如何将子文档数据数组从mongodb加载到Hive

标签 mongodb hadoop hive apache-hive mongodb-hadoop

我们正在尝试在配置单元中使用mongodb数据,文档具有子文档数组。如何将复杂数据加载到配置单元中?

这是示例json:

{
    "_id" : ObjectId("582c8cb9913e2f21e062aaa6"),
    "acct" : NumberLong(12345),
    "history" : [ 
        {
            "startDate" : ISODate("2016-09-01T16:00:00.000Z"),
            "endDate" : ISODate("2016-09-30T16:00:00.000Z"),
            "averageDailyBal" : "2653.85"
        }, 
        {
            "startDate" : ISODate("2016-10-01T16:00:00.000Z"),
            "endDate" : ISODate("2016-10-31T16:00:00.000Z"),
            "averageDailyBal" : "1840.15"
        }, 
        {
            "startDate" : ISODate("2016-11-01T16:00:00.000Z"),
            "endDate" : ISODate("2016-11-30T17:00:00.000Z"),
            "averageDailyBal" : "2796.14"
        }
    ]
}

谢谢...

最佳答案

如您所知,MongoDB中的数据以JSON格式存储,因此您可以使用任何Json Serde解析其中的数据。

Refer this

关于mongodb - 如何将子文档数据数组从mongodb加载到Hive,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41619766/

相关文章:

java - 在hadoop中进行集合成员资格测试的最佳方法是什么?

hadoop - 使用 “MAX_FAILED_UNIQUE_FETCHES; bailing-out”映射作业失败

hadoop - 在配置单元中将时间戳四舍五入为小时

hadoop - 如何计算从一个 Hive 表复制到另一个表的行数

mysql - 是否可以限制扫描文档的数量,类似于MySQL subselect?

node.js - 如何在 2 个应用程序之间共享 Mongoose 模型?

mongodb - mongorestore 随机崩溃( fatal error )

c# - 尝试使用带有 GUID 的 C# 持久化的 mongodb 读取 nodejs 中的数据

hadoop - hadoop -getmerge 有替代方案吗?

date - 如何在 Hive 中将时间戳(秒和毫秒之间的点)转换为日期(yyyyMMdd)?