amazon-web-services - 尝试从本地计算机访问 AWS 上的 HDFS 文件时出现错误

标签 amazon-web-services hadoop apache-spark amazon-ec2 hdfs

我已经在 this tutorial 之后在 AWS EC2 上成功安装了 hadoop 和 spark . 我可以从 AWS 上的 spark 访问 HDFS。

但是，当我尝试通过以下方式从本地计算机访问 HDFS 文件时

val lines = sc.textFile("hdfs://namenode_public_DNS:9000/datasets/wikipedia/wikipedia.dat")
lines.first()

我明白了

17/04/10 16:35:41 WARN BlockReaderFactory: I/O error constructing remote block reader.
org.apache.hadoop.net.ConnectTimeoutException: 60000 millis timeout while waiting for channel to be ready for connect. ch : java.nio.channels.SocketChannel[connection-pending remote=/datanode_ip:50010]

我该如何解决这个问题？

提前致谢。

所有 AWS 实例都设置为允许所有流量。
我只有 1 个名称节点和 1 个数据节点

最佳答案

您用于 hdfs 的端口应该可以从外部访问。尝试在您的本地计算机上运行此命令。

$telnet namenode_public_DNS 9000

并检查您是否能够访问您的 hdfs 端口。

关于amazon-web-services - 尝试从本地计算机访问 AWS 上的 HDFS 文件时出现错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43326197/

上一篇：hadoop - hive - double

下一篇：hadoop - dfs.replication提供复制因子，file.replication提供什么

相关文章：

apache-spark - 数据 block 中的存储选项

apache-spark - 将 Spark DataFrame 中列的 Null 值替换为其平均值

amazon-web-services - Cloudsearch 模糊术语和短语

node.js - 文件下载在 Nodejs 中给出损坏的文件

hadoop - hive 圈-哪个执行引擎支持？ Spark ，先生，泰兹

variables - 通过参数初始化Hadoop中的公共(public)静态变量

mysql - 从空的配置单元表传递增量值

http - AWS Load Balancer 是否可以配置为过滤掉请求？

javascript - 从客户端下载AWS S3文件

apache-spark - 为什么我必须在 Spark 作业之间不断重新启动 Spark 服务？

©2024 IT工具网联系我们