java - 用Sqoop导出Hive表,有些行没有分隔

标签 java hadoop hive amazon-emr sqoop

我有一个使用 Hive 生成​​的表(在 Amazon Elastic MapReduce JobFlow 上)。我可以看到数据位于 hdfs:///mnt/hive_081/warehouse/[table name]

我把Sqoop打包成一个jar(没有做任何改动),上传到master节点进行测试。

我这样运行我的 sqoop jar:

/usr/lib/jvm/java-6-sun/bin/java -cp /home/hadoop/conf:/usr/lib/jvm/java-6-sun/lib/tools.jar:/home/hadoop:/home/hadoop/hadoop-tools-1.0.3.jar:/home/hadoop/hadoop-tools.jar:/home/hadoop/hadoop-core-1.0.3.jar:/home/hadoop/hadoop-core.jar:/home/hadoop/lib/*:/home/hadoop/lib/jetty-ext/* -Xmx1000m -Dhadoop.log.dir=/mnt/var/log/hadoop/steps/6 -Dhadoop.log.file=syslog -Dhadoop.home.dir=/home/hadoop -Dhadoop.id.str=hadoop -Dhadoop.root.logger=INFO,DRFA -Djava.io.tmpdir=/mnt/var/lib/hadoop/steps/6/tmp -Djava.library.path=/home/hadoop/native/Linux-i386-32 org.apache.hadoop.util.RunJar /home/hadoop/fsa/anet-dw-sqoop-0.0.1-SNAPSHOT.jar $ARGS

$ARGS 在哪里(敏感的 mysql 标志被省略):

--export-dir hdfs:///mnt/hive_081/warehouse/[table name] --input-null-non-string '\\\N' --direct --input-null-string '\\\N' --username root --input-fields-terminated-by '\0x009' --driver com.mysql.jdbc.Driver --table [table name]

我正在对我模拟的十行数据进行测试。没有空值。每行在所有列中重复相同的数字是唯一的。当我执行命令时,我得到很多

java.lang.NumberFormatException: For input string: "231 231     231     231     231     231     231     231     231     231     231     231     231     231     231     231     231      231     231     231     231     231     -25     231     -25     -25     231     231     -25"

我每次都会收到相同的四行(共 10 行)的这条消息(忽略负值,这些是 TINYINT 的列,不适合数字)。

您可以看到行中前两个值之间的空间要小得多。这是我的问题吗?什么会导致这个?仅供引用,如果我将数据文件从 HDFS 复制到本地 FS,并指向它,我不会收到此消息 - 但数据也没有到达其目的地:/。不管怎样,我正在尝试自动化一个多步骤过程,所以我希望能够直接对 HDFS 数据进行操作,而无需复制任何内容。

非常感谢任何建议!

更新:当我使用逗号作为分隔符时也会发生这种情况。观察到相同的四行。当我将 Hive 表限制为只有一行(而不是以前测试中的错误行之一)时,会发生同样的错误。

最佳答案

在 sqoop-export 的参数中,--input-fields-terminated-by 值必须没有引号。这有效:

--输入字段终止于\t

关于java - 用Sqoop导出Hive表,有些行没有分隔,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13849890/

相关文章:

java - 在Java中使用图像的问题

java - 共享可执行的 .jar 文件

java - 请建议我使用 GridBag 布局之外的基本布局

hadoop - FQDN Cloudera Manager问题hadoop管理员

hadoop - 如何使用PIG将数据从本地系统加载到hdfs

hadoop - 将Sqoop连接到mysql

csv - 如何创建具有多个 hdfs 文件的 Hive 表

hive - 如何通过列名称而不是列顺序从多个CSV在AWS Athena中创建表

java - 如何处理Camel FTP的 "Host attempting data connection x.x.x.x is not the same as server y.y.y.y"错误?

hadoop - Pig- 无法转储数据