java - 如何在java代码中使用S3DistCp

标签 java hadoop amazon-s3 amazon-emr

我想以编程方式将作业输出从 EMR 集群复制到 Amazon S3。

如何在 java 代码中使用 S3DistCp 来做同样的事情。

最佳答案

hadoop ToolRunner 可以运行这个.. 因为 S3DistCP extends Tool

下面是使用示例:

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.util.ToolRunner;
import com.amazon.external.elasticmapreduce.s3distcp.S3DistCp

public class CustomS3DistCP{
  private static final Log log = LogFactory.getLog(CustomS3DistCP.class);

public static void main(String[] args) throws Exception {
     log.info("Running with args: " + args);

     System.exit(ToolRunner.run(new S3DistCp(), args));
   }

你的类路径中必须有 s3distcp jar 您可以从 shell 脚本调用此程序。

希望对您有所帮助!

关于java - 如何在java代码中使用S3DistCp,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18124845/

相关文章:

java - 将 JavaRDD<List<String>> 转换为 JavaPairRDD<String, Integer>

hadoop - 检查条件后如何终止mapreduce作业?

hadoop - 如何处理 inputsplit 的多行记录?

amazon-web-services - 为什么 S3 的大写存储桶名称在 US-EAST 允许使用,但在其他区域不允许使用?

c++ - AWS C++ S3 SDK PutObjectRequest 无法连接到端点

amazon-web-services - aws s3 ls 过滤器存储类(标准)

java - 如何设置添加选定单元格的文本

java - 方法必须调用 Netbeans 中的 super() 错误

java - JMS 订户客户端 ID 可以跨主机迁移吗?

hadoop - 什么时候需要 "no mapper"?