arrays - 将MySql表联接到Hive表的嵌套json格式后执行Sqoop导入

标签 arrays json hadoop hive sqoop

你好古鲁斯,

我们正在开始将MySQL数据迁移到NOSQL,我们希望将所有表格格式数据迁移到嵌套JSON格式。
在某些情况下,我们将执行联接以获取数据(应以嵌套数组或struct格式保存),因此我们应如何将数据放入嵌套json格式。我们将需要一些建议。
我们正在尝试借助诸如sqoop,hive,pig的hadoop工具构建此解决方案。

请您提出一些建议,以实现我们的目标。

我们尝试使用以下sqoop import命令:
sqoop import --username * --password * --connect'jdbc:mysql://realstart.abc:3306 / retail_db'--query'select order.order_id,customers.customer_id AS“customers.customer_id”,客户.customer_fname AS“customers.customer_fname”从订单中将客户加入JOINT订单上。order_customer_id= customers.customer_id WHERE $ CONDITIONS'--hcatalog数据库默认--hatalog表订单-由order_id分割

我们使用以下查询创建了hcat表:
“hcat -e”创建表订单(order_id int,客户结构)行格式serde'org.openx.data.jsonserde.JsonSerDe'”

但是不确定在sqoop import的--query中如何匹配hcat模式的模式。

感谢和问候,
马亨德拉

最佳答案

我认为最好的选择是使用hadoop map reduce类并编写自定义作业以创建嵌套的JSON输出,或者从mysql db进行转储并转换数据。您可以查看有关hadoop或pig中的自定义作业的文档:

  • http://joshualande.com/read-write-json-apache-pig
  • A way to read table data from Mysql to Pig

  • 我认为Sqoop中没有用于创建JSON输出的任何“准备使用”选项。

    关于arrays - 将MySql表联接到Hive表的嵌套json格式后执行Sqoop导入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45413812/

    相关文章:

    C++ 更快的字符数组比较

    javascript - 如何在javascript中获取数组列表中的数组中的值

    java - 使用 GSON 解析 Ajax 请求中的 JSON 数组

    hadoop - Hadoop Map Reduce程序有多复杂?

    hadoop - 如何在hadoop2.2中使 'mapreduce.tasktracker.map.tasks.maximum'工作

    java - Array Can't Initialised Properly 它缺少 4 和 8 为什么在下面的代码中?

    arrays - 对于字符串数组中最长的公共(public)前缀字符串,此解决方案的时间复杂度是多少?

    javascript - JSON 对象和 JSON 文档有什么区别?

    json - Elasticsearch:批量请求在 Elasticsearch 6.1.1 中抛出错误

    hadoop - 为什么hadoop对reducer的输入进行排序?