我已经安装了一个总共有 3 台机器的 hadoop 集群,其中 2 个节点充当数据节点,1 个节点充当名称节点和一个数据节点。 我想澄清一些关于 hadoop 集群安装和架构的疑虑。 这是我正在寻找答案的问题列表----
- 我在集群中上传了一个大约 500mb 大小的数据文件,然后检查了 hdfs 报告。 我注意到我制作的名称节点在 hdfs 中也占用了 500mb 大小,以及复制因子为 2 的数据节点。 这里的问题是我不希望名称节点在其上存储任何数据,简而言之,我不希望它作为数据节点工作,因为它还存储我正在上传的文件。那么有什么办法让它只充当Master Node而不是datanode呢?
我尝试在名称节点上运行命令 hadoop -daemon.sh stop 以停止其上的数据节点服务,但没有任何帮助。
- 对于通常为 1 GB 的文件大小,Namenode 会生成多少元数据?任何近似值?
最佳答案
转到主服务器上 $HADOOP_HOME 目录中的 conf 目录。编辑名为 slaves 的文件并从中删除与您的名称节点对应的条目。这样,您只要求其他两个节点充当从节点,而名称节点仅充当主节点。
关于没有 HDFS 存储的 Hadoop Namenode,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24163925/