hadoop - 通过 IP 连接到 cloudera 虚拟机中的 Hadoop HDFS

标签 hadoop hdfs pentaho cloudera kettle

我正在寻找通过 hdfs 的服务器地址连接到 cloudera 虚拟机上的 hadoop 实例。有谁知道如何找到这个的IP地址吗?

如果没有,我如何在本地连接到虚拟机中的 hdfs,因为它们都在同一台计算机上运行。

需要为 pentaho kettle 连接执行此操作。

最佳答案

如果您尝试配置 Pentaho Data Integration (Kettle) 以使用 HDFS 作为输入数据源,那么首先您需要获取 HDFS NameNode 服务的主机名/IP 地址和端口号,您将然后进入 (Pentaho) Spoon(K​​ettle 的 GUI)。

获取HDFS NameNode IP/端口号

Hadoop HDFS NameNode 服务的默认端口在 CDH4 和 5 (source) 中都是 8020。

如果出于某种原因您没有使用默认值,那么可以在 Cloudera Manager 中找到 HDFS NameNode 服务的主机名/端口(例如,如果您使用的是 Cloudera Quickstart VM,则应该安装它):

  • 单击 Cloudera Manager 主页面上的 HDFS 服务
  • 点击配置 - 查看和编辑
  • 单击 NameNode - 端口和地址。
  • “NameNode 端口”是您想要的,即不是“NameNode Web UI 端口”。由于 PDI 需要 NameNode 端口。

浏览PDI中的HDFS文件确认

通过打开 Pentaho Data Integration (Spoon) 并创建一个“Hadoop Copy Files”转换步骤来进行测试,例如,然后在“浏览文件”区域中输入您的 HDFS 详细信息,并检查是否显示目录列表。

关于hadoop - 通过 IP 连接到 cloudera 虚拟机中的 Hadoop HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23780759/

相关文章:

hadoop - 如何更改hbase表扫描结果的顺序

xml - Hive XML Serde - NULLPOINTEREXCEPTION

hadoop - 默认 map 减少工作?多少个映射器和约简器

java - 使用 Hadoop 处理大量小文件

hadoop - 找到接口(interface) org.apache.hadoop.mapreduce.TaskAttemptContext,但 class 是 mapreduce 中的预期错误

hadoop - 使用边缘节点运行 Hadoop 集群时如何连接到 Impala

java - hdfs文件权限

http - 使用 Pentaho Kettle,我如何自动重试由于连接中断而失败的休息请求?

sql - 获取有效的日期范围。最小值和最大值

mdx - 如何更改 Pentaho Mondrian 4 缓存生命周期?