hadoop - 如何使用Hadoop MapReduce将数据从AWS S3导入HDFS

标签 hadoop amazon-s3 mapreduce

我知道Apache Hadoop提供了discp将文件从AWS s3复制到HDFS。但是似乎效率不高,并且记录不灵活。

在我的项目中,每次向HDFS传输文件成功或失败后,都需要以自定义格式编写日志。由于要加载大量数据,因此使用Hadoop MapReduce将AWS数据加载到HDFS集群中绝对是最有效的方法,也就是说我要编写类似于discp的Hadoop MapReduce作业。

我的计划是让每个节点上的每个Mapper都使用aws Java SDK加载一个s3目录,因为有许多s3目录要加载到HDFS中。任何人都可以对如何实现这一目标提出一些建议吗?提前致谢!

最佳答案

您是否尝试过s3as3a是原始s3n的后继者-消除了一些限制(文件大小)并提高了性能?另外distcp似乎是什么问题-您在S3上使用哪个文件系统(s3ns3a?)?最近在distcp中做了一些工作-值得检查最新版本。

关于hadoop - 如何使用Hadoop MapReduce将数据从AWS S3导入HDFS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37103736/

相关文章:

hadoop - 我在 hadoop 2.5.2 (yarn) 中看不到正在运行的应用程序

sql - Hive SQL Integer YYYYMM 前几个月

hadoop - Hue 文件浏览器的问题

apache - 我的 Yarn Map-Reduce 作业花费了大量时间

Python boto3 按大小对 s3 对象进行排序

amazon-web-services - Amazon S3 在另一个账户中触发另一个 Lambda 函数

amazon-web-services - 向数百万个 S3 对象添加元数据

database - 大数据去了哪里以及如何存储?

mapreduce - 组合器和 reducer 可以不同吗?

javascript - Mongodb Map/Reduce - Reduce 不会被调用