hadoop - 与 sqoop-import 相关的查询？

场景:

我已将数据从 SQl Server 导入到 HDFS。 HDFS 目录中的数据存储在多个文件中为:

part-m-00000
part-m-00001
part-m-00002
part-m-00003

我的问题是，在从 HDFS 目录读取存储的数据时，我们必须读取所有文件 (part-m-00000,01,02,03) 或仅读取 part-m- 00000。因为当我读取那个数据的时候，我发现HDFS里面的数据有点少了。那么，是它发生了还是我错过了什么？

最佳答案

您需要读取所有文件，而不仅仅是 00000。存在多个文件的原因是 sqoop 以 map-reduce 方式工作，将“导入”工作拆分为多个部分。每个部分的输出都放在一个单独的文件中。

强化

关于hadoop - 与 sqoop-import 相关的查询？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8602282/