hadoop - 通过 IP 连接到 cloudera 虚拟机中的 Hadoop HDFS

我正在寻找通过 hdfs 的服务器地址连接到 cloudera 虚拟机上的 hadoop 实例。有谁知道如何找到这个的IP地址吗？

如果没有，我如何在本地连接到虚拟机中的 hdfs，因为它们都在同一台计算机上运行。

需要为 pentaho kettle 连接执行此操作。

最佳答案

如果您尝试配置 Pentaho Data Integration (Kettle) 以使用 HDFS 作为输入数据源，那么首先您需要获取 HDFS NameNode 服务的主机名/IP 地址和端口号，您将然后进入 (Pentaho) Spoon(Kettle 的 GUI)。

获取HDFS NameNode IP/端口号

Hadoop HDFS NameNode 服务的默认端口在 CDH4 和 5 (source) 中都是 8020。

如果出于某种原因您没有使用默认值，那么可以在 Cloudera Manager 中找到 HDFS NameNode 服务的主机名/端口(例如，如果您使用的是 Cloudera Quickstart VM，则应该安装它):

浏览PDI中的HDFS文件确认

通过打开 Pentaho Data Integration (Spoon) 并创建一个“Hadoop Copy Files”转换步骤来进行测试，例如，然后在“浏览文件”区域中输入您的 HDFS 详细信息，并检查是否显示目录列表。

关于hadoop - 通过 IP 连接到 cloudera 虚拟机中的 Hadoop HDFS，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23780759/

相关文章：

hadoop - 如何更改hbase表扫描结果的顺序