hadoop - map 缩小: Which is the underlying Data Structure used

标签 hadoop dictionary reduce

我想知道,如果在Hadoop MapReduce中使用这么大的数据集,那么hadoop使用的数据结构是什么。如果可能的话,请有人向我提供 hadoop 中底层数据结构的详细 View 。

最佳答案

HDFS是Hadoop默认的底层存储平台。 从某种意义上说,它与任何其他文件系统一样 - 它不关心文件具有什么结构。它仅确保文件以冗余方式保存并可供快速检索。

因此,完全取决于用户,以您喜欢的任何结构存储文件。

MapReduce程序只是将文件数据作为输入提供给它。不一定是整个文件,而是其中的一部分,具体取决于输入格式等。然后,Map 程序可以制作 以任何想要的方式使用数据。

'Hive' - 另一方面处理表(列/行)。您可以使用 Hive-QL 以类似 SQL 的方式查询它们。

关于hadoop - map 缩小: Which is the underlying Data Structure used,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21986572/

相关文章:

hadoop - 在重新启 Action 业跟踪器之前,我们是否需要将名称节点置于安全模式?

dictionary - 有什么方法可以将字典连接到 Linux 中的 pdf 阅读器吗?

python - 使用flask-sqlalchemy将字典列表保存到数据库

Python:索引列表列表的问题

javascript - 我如何对数组中的所有数组进行减法和求和

javascript - 是否可以使用 Array.prototype.reduce 创建数组的线性随机选择?

hadoop - 将参数传递给MapReduce程序

hadoop - 创建配置单元表 : no files matching path file. .. 但文件存在于路径中

swift - 快速调用复杂字典(关联数组)上的过滤器

hadoop - 作业在子队列中提交,但不在父队列中提交