amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

标签 amazon-s3 hadoop hdfs

我的 hadoop 作业在 HDFS 上生成大量文件,我想编写一个单独的线程将这些文件从 HDFS 复制到 S3。

谁能告诉我处理它的任何 Java API。

谢谢

最佳答案

“对 S3 block 文件系统的支持已添加到 Hadoop 0.11.0 中的 ${HADOOP_HOME}/bin/hadoop distcp 工具中(参见 HADOOP-862)。distcp 工具设置 MapReduce 作业来运行副本。使用distcp,一个成员众多的集群,可以快速复制大量数据。map任务的数量是通过统计source中的文件数来计算的:即每个map任务负责复制一个文件。source和target可以指不同的文件系统类型。例如,源可能指的是本地文件系统或以 S3 为目标的 hdfs。”

在此处查看运行批量复制进出 S3 http://wiki.apache.org/hadoop/AmazonS3

关于amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3711666/

相关文章:

amazon-s3 - 通过 Ansible 从 AWS S3 存储桶中获取整个存储桶或多个对象

hadoop - Sqoop 导出到 RDBMS .lzo .gz 文件超过 64 MB 加载重复

amazon-s3 - 使用 S3 存储桶作为源的 Cloud9 工作区?

oracle - 是否可以将配置单元表与 oracle 表连接起来?

Hadoop Distcp 将目录中的内容复制到同名目录

java - 使用快速数据顺序错误进行mapreduce

hadoop - 并行复制到 HDFS

csv - 如何从 Hdfs 读取 CSV 文件?

php - 突然无法连接到 Amazon S3

django admin 上传图片到s3然后调整图片大小和保存thumb问题