hadoop - 与 sqoop-import 相关的查询?

标签 hadoop sqoop

场景:

我已将数据从 SQl Server 导入到 HDFS。 HDFS 目录中的数据存储在多个文件中为:

part-m-00000
part-m-00001
part-m-00002
part-m-00003

问题:

我的问题是,在从 HDFS 目录读取存储的数据时,我们必须读取所有文件 (part-m-00000,01,02,03) 或仅读取 part-m- 00000。因为当我读取那个数据的时候,我发现HDFS里面的数据有点少了。 那么,是它发生了还是我错过了什么?

最佳答案

您需要读取所有文件,而不仅仅是 00000。存在多个文件的原因是 sqoop 以 map-reduce 方式工作,将“导入”工作拆分为多个部分。每个部分的输出都放在一个单独的文件中。

强化

关于hadoop - 与 sqoop-import 相关的查询?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8602282/

相关文章:

apache-spark - 人们在谈论Hadoop,Spark和大数据时, “intermediate results”是什么意思?

java - Hadoop map-reducer 没有写入任何输出

java - hadoop NaturalKeyGroupingComparator - Reducer 中发生了什么?

amazon-web-services - 我失去了从主服务器到从服务器(AWS EC2 Hadoop)的 ssh 连接能力

sql - Sqoop无法导入任何行

java - 不能使用sqoop将数据表导入hbase

hadoop - 映射器执行时间之间的巨大差异

hadoop - 具有独立模式的MRUnit

mysql - 在 Cloudera 中使用 sqoop 将数据从 HDFS 导出到 mysql 时作业失败

hadoop - sqoop import - 数据导入之间的作业失败