场景:
我已将数据从 SQl Server 导入到 HDFS。 HDFS 目录中的数据存储在多个文件中为:
part-m-00000
part-m-00001
part-m-00002
part-m-00003
问题:
我的问题是,在从 HDFS 目录读取存储的数据时,我们必须读取所有文件 (part-m-00000,01,02,03
) 或仅读取 part-m- 00000
。因为当我读取那个数据的时候,我发现HDFS里面的数据有点少了。
那么,是它发生了还是我错过了什么?
最佳答案
您需要读取所有文件,而不仅仅是 00000。存在多个文件的原因是 sqoop 以 map-reduce 方式工作,将“导入”工作拆分为多个部分。每个部分的输出都放在一个单独的文件中。
强化
关于hadoop - 与 sqoop-import 相关的查询?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8602282/