hadoop - map 缩小: Which is the underlying Data Structure used

我想知道，如果在Hadoop MapReduce中使用这么大的数据集，那么hadoop使用的数据结构是什么。如果可能的话，请有人向我提供 hadoop 中底层数据结构的详细 View 。

最佳答案

HDFS是Hadoop默认的底层存储平台。从某种意义上说，它与任何其他文件系统一样 - 它不关心文件具有什么结构。它仅确保文件以冗余方式保存并可供快速检索。

因此，完全取决于用户，以您喜欢的任何结构存储文件。

MapReduce程序只是将文件数据作为输入提供给它。不一定是整个文件，而是其中的一部分，具体取决于输入格式等。然后，Map 程序可以制作以任何想要的方式使用数据。

'Hive' - 另一方面处理表(列/行)。您可以使用 Hive-QL 以类似 SQL 的方式查询它们。

关于hadoop - map 缩小: Which is the underlying Data Structure used，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21986572/