amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

我的 hadoop 作业在 HDFS 上生成大量文件，我想编写一个单独的线程将这些文件从 HDFS 复制到 S3。

谁能告诉我处理它的任何 Java API。

谢谢

最佳答案

“对 S3 block 文件系统的支持已添加到 Hadoop 0.11.0 中的 ${HADOOP_HOME}/bin/hadoop distcp 工具中(参见 HADOOP-862)。distcp 工具设置 MapReduce 作业来运行副本。使用distcp，一个成员众多的集群，可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source和target可以指不同的文件系统类型。例如，源可能指的是本地文件系统或以 S3 为目标的 hdfs。”

在此处查看运行批量复制进出 S3 http://wiki.apache.org/hadoop/AmazonS3

关于amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3711666/

上一篇：hadoop - 使用 mahout 和 hadoop

下一篇：hadoop - 在一致性 ONE 下读取查询期间 Cassandra 超时(需要 1 个响应，但只有 0 个副本响应)

hadoop - Sqoop 导出到 RDBMS .lzo .gz 文件超过 64 MB 加载重复

amazon-s3 - 使用 S3 存储桶作为源的 Cloud9 工作区？

oracle - 是否可以将配置单元表与 oracle 表连接起来？

Hadoop Distcp 将目录中的内容复制到同名目录

java - 使用快速数据顺序错误进行mapreduce

hadoop - 并行复制到 HDFS

csv - 如何从 Hdfs 读取 CSV 文件？

php - 突然无法连接到 Amazon S3

django admin 上传图片到s3然后调整图片大小和保存thumb问题