sql-server - 将数据加载到Hive中时面临的问题

标签 sql-server hadoop hive cloudera cloudera-cdh

我们正在通过Sqoop将数据从SQL Server加载到Hive。我们遇到的一些问题如下所述

答:我们可以通过Sqoop在Hive中创建表架构,同时将来自SQL Server的多个表与联接组合在一起吗?

我想创建与Sqoop命令参数中指定的查询的联接输出相对应的架构

B.上次修改模式下的配置单元增量更新需要SQL Server表中的时间戳列。 Sqoop将使用该列将值与提供的时间戳进行比较。

当我在SQL Server中尝试timestamp数据类型时,Sqoop无法创建带有错误的Hive表

Hive does not support the SQL type for column LastUpdated.



LastUpdated在SQL Server中具有时间戳记数据类型。 SQL Server时间戳不符合SQL 92标准。日期时间数据类型也不起作用。为SQL Server Datetime列创建配置单元字符串列。

支持Sqoop增量功能的最新修改模式的其他替代方法是什么?

谢谢

最佳答案

当您阅读sqoop文档时,您的答案都应该清楚了。

答:是的:第7.2.3章。自由格式查询导入@ sqoop docs

您可以在sqoop内部运行查询以进行初始摄取。

B.是的:您可以合并数据进行更新,另请参阅文档@ 13.2。句法

如果您想做更多,更复杂的事情,则应考虑仅提取原始数据。然后在hadoop内部对其应用逻辑。毕竟,它是用于处理数据的。 Sqoop不支持UDF,因此您可能需要查看Pig,Spark,SparkSQL。

关于sql-server - 将数据加载到Hive中时面临的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35152112/

相关文章:

java - JAVA中Hive JDBC连接

oracle - 在哪里做连接以展平表..? Hive或Oracle

sql - 在 SQL Server 中将行旋转到具有自定义列名称的列

sql - 在 SQL 中对多个 SELECT 结果执行数学运算

php - PDO MSSQL 服务器 - 未找到驱动程序

azure - 有没有办法获取 hadoop HDInsight 节点的图像/快照并将其用于集群创建?

sql - MS SQL Server 零填充

java - 如何在 IntelliJ IDEA 中为 Hadoop 程序设置 multi-reducer?

java - hadoop 中的 ClassCastException

scala - Hive:读取超时异常