我想知道,如果在Hadoop MapReduce中使用这么大的数据集,那么hadoop使用的数据结构是什么。如果可能的话,请有人向我提供 hadoop 中底层数据结构的详细 View 。
最佳答案
HDFS是Hadoop默认的底层存储平台。 从某种意义上说,它与任何其他文件系统一样 - 它不关心文件具有什么结构。它仅确保文件以冗余方式保存并可供快速检索。
因此,完全取决于用户,以您喜欢的任何结构存储文件。
MapReduce程序只是将文件数据作为输入提供给它。不一定是整个文件,而是其中的一部分,具体取决于输入格式等。然后,Map 程序可以制作 以任何想要的方式使用数据。
'Hive' - 另一方面处理表(列/行)。您可以使用 Hive-QL 以类似 SQL 的方式查询它们。
关于hadoop - map 缩小: Which is the underlying Data Structure used,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21986572/