我正在寻找通过 hdfs 的服务器地址连接到 cloudera 虚拟机上的 hadoop 实例。有谁知道如何找到这个的IP地址吗?
如果没有,我如何在本地连接到虚拟机中的 hdfs,因为它们都在同一台计算机上运行。
需要为 pentaho kettle 连接执行此操作。
最佳答案
如果您尝试配置 Pentaho Data Integration (Kettle) 以使用 HDFS 作为输入数据源,那么首先您需要获取 HDFS NameNode 服务的主机名/IP 地址和端口号,您将然后进入 (Pentaho) Spoon(Kettle 的 GUI)。
获取HDFS NameNode IP/端口号
Hadoop HDFS NameNode 服务的默认端口在 CDH4 和 5 (source) 中都是 8020。
如果出于某种原因您没有使用默认值,那么可以在 Cloudera Manager 中找到 HDFS NameNode 服务的主机名/端口(例如,如果您使用的是 Cloudera Quickstart VM,则应该安装它):
- 单击 Cloudera Manager 主页面上的 HDFS 服务
- 点击配置 - 查看和编辑
- 单击 NameNode - 端口和地址。
- “NameNode 端口”是您想要的,即不是“NameNode Web UI 端口”。由于 PDI 需要 NameNode 端口。
浏览PDI中的HDFS文件确认
通过打开 Pentaho Data Integration (Spoon) 并创建一个“Hadoop Copy Files”转换步骤来进行测试,例如,然后在“浏览文件”区域中输入您的 HDFS 详细信息,并检查是否显示目录列表。
关于hadoop - 通过 IP 连接到 cloudera 虚拟机中的 Hadoop HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23780759/