java - Amazon Web 服务 EMR 文件系统

标签 java hadoop amazon-web-services amazon-s3 elastic-map-reduce

我正在尝试在 AWS EMR 集群上运行作业。我遇到的问题如下:

aws java.io.IOException:方案没有文件系统:hdfs

我不知道我的问题到底出在哪里(在我的 java jar 作业中或作业的配置中)

在我的 S3 存储桶中,我创建了一个文件夹(输入),并在其中放置了一堆包含我的数据的文件。然后在参数中我给出输入文件夹的路径,然后将相同的路径用作 FileInputPath.getInputPath(args[0])。

我的问题是 - 首先,作业会抓取输入文件夹中的所有文件并处理它们,还是我必须提供每个文件的所有路径?

第二个问题 - 如何解决上述异常?

谢谢

最佳答案

将您的输入文件保留在 S3 中。例如s3://mybucket/输入/ 将所有要压的文件保存在我的存储桶下的输入文件夹中。

在您的 map 中减少使用代码如下

FileInputFormat.addInputPath(job,"s3n://mybucket/input/")

这将自动处理输入文件夹下的所有文件。

关于java - Amazon Web 服务 EMR 文件系统,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26460177/

相关文章:

java - 重新序列化后,对象是否可能具有不同的字节大小?

java - 在二维数组中找到到角点的最短路径

shell - 抑制 hadoop fs -get -p 命令的警告

php - 即使已在 AWS SQS PHP SDK 中提供,也会出现缺少参数错误

heroku - AWS、Heroku 与其他可扩展平台?

java - 自定义 Vaadin Flow Grid 组件的选择列标题

java - Vertx - 停止 verticle 实例

hadoop - 大数据分析选择技术栈

hadoop - hive |无法创建分区表 |解析异常

amazon-web-services - AWS Cloud Formation 环境因进入终止状态而无法启动