hadoop - 要求澄清一些 HDFS 概念

标签 hadoop mapreduce hdfs

我不确定这个问题是否属于这里。如果没有,那我道歉。我正在阅读 HDFS 论文,发现很难理解一些术语。请在下面找到我的问题。

1) 根据该论文,“HDFS 命名空间是文件和目录的层次结构。文件和目录在 NameNode 上由 inode 表示,它记录权限、修改和访问时间、命名空间和磁盘空间配额等属性。 “ inode 中的命名空间信息到底是什么意思?是指文件的完整路径吗?因为,前面的语句说“HDFS 命名空间是文件和目录的层次结构”。

2) 根据论文“NameNode 维护命名空间树和文件 block 到 DataNode 的映射 (文件数据的物理位置)。”namespace tree和namespace一样吗?关于namespace的定义请引用第1点。namespace tree信息是如何存储的?它是否作为inode的一部分存储,每个inode也会有父 inode 指针吗?

3) 根据该论文,“HDFS 将整个命名空间保存在 RAM 中。inode 数据和属于每个文件的 block 列表构成了名为图像的名称系统的元数据。”图像是否也包含命名空间?

4) namespace ID 的用途是什么?是用来区分两个不同的文件系统实例吗?

谢谢,

文卡特

最佳答案

What exactly does namespace information mean in inode. Does it mean the complete path of the file? Because, the previous statement says "The HDFS namespace is a hierarchy of files and directories

这意味着您可以像在系统上一样浏览文件(通过 hadoop dfs -ls 之类的命令)您将看到如下结果:/user/hadoop/myFile.txt 但实际上这个文件根据您的复制因子分布在您的集群中的几个 block 中

Are both namespace tree and namespace the same? Please refer to point 1 about definition of the namespace. How is the namespace tree information stored? Is it stored as part of inodes where each inode will also have a parent inode pointer?

当您使用 hadoop dfs -copyFrom local myfile.txt/user/hadoop/myfile.txt 等命令在 HDFS 上复制文件时,文件会根据 dfs 进行拆分。 block.size 值(默认为 64MB)。然后 block 分布在您的数据节点(用于存储的节点)上。 namenode 保留所有 block 的映射,以便在启动时验证您的数据完整性(或使用 hadoop fsck/ 之类的命令)。

Does the image also contain the namespace?

对于这个我不确定,但我认为命名空间也在 RAM 中。

What is the use of a namespace id? Is it used to distinguish between two different file system instances?

是的,namespace id只是一个ID,它保证了datanode数据的一致性。

我希望这对您有所帮助,即使它离详尽的解释还很远。

关于hadoop - 要求澄清一些 HDFS 概念,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17814100/

相关文章:

hadoop - 在mapper/reducer中获取 yarn 容器日志目录

java - Mongo-Hadoop 简单测试因 NPE 而失败

hadoop - 通过 oozie 进行 Sqoop 作业

map - 解释什么是 Hadoop 和 Map/Reduce 的最简单方法是什么?

hadoop - 如何在查询中获取昨天的日期?

java - Hadoop 错误 .ClassCastException : org. apache.hadoop.io.LongWritable 无法转换为 org.apache.hadoop.io.Text

google-app-engine - Google App Engine中TaskQueue和MapReduce之间的区别

hadoop - 计算HDFS中的HashCode函数

hadoop - hdfs 将多个文件复制到同一目标目录

hadoop - 如何格式化NameNode?