hadoop - MIT StarCluster 和 S3

标签 hadoop amazon-web-services amazon-ec2 amazon-s3 starcluster

我正在尝试在 spot 实例上运行 mapreduce 作业。 我使用 StarClusters 及其 hadoop 插件启动我的实例。我上传数据没有问题,然后将其放入 HDFS,然后将结果从 HDFS 复制回来。 我的问题是有没有办法直接从 s3 加载数据并将结果推回 s3? (我不想手动将数据从 s3 下载到 HDFS 并将结果从 HDFS 推送到 s3,有没有办法在后台执行此操作)?

我使用的是标准的 MIT starcluster ami

最佳答案

你不能这样做,但你可以写一个脚本来做到这一点。 例如你可以使用: hadoop distcp s3n://ID:key@mybucket/file/user/root/file 将文件直接从 s3 放到 hdfs

关于hadoop - MIT StarCluster 和 S3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29997056/

相关文章:

sql - Apache Hive正则表达式中的错误

Maven 目标无法执行

asp.net-mvc - Serilog 不会将日志写入 AWS Elasticsearch Service

node.js - 在 AWS EC2 上安装 NPM

hadoop - 配置单元按日期分区—一次处理多个日期?

hadoop - 在NetBeans中安装KarmaSphere插件

amazon-web-services - golang aws CreateChangeSet 验证错误

php - 如何调试 AWS Elastic Beanstalk 中的性能问题

amazon-web-services - aws云形成基于标签识别ami id并创建实例

amazon-ec2 - 亚马逊网络服务 : Different between Images and Instances