我有一个 jar 文件,该文件正在 jar 中的方法中提供给 Spark-submit.With 。我正在尝试做一个
Import sys.process._
s3-dist-cp —src hdfs:///tasks/ —dest s3://<destination-bucket>
我还在所有从属设备上安装了 s3-dist-cp 以及主设备。 应用程序启动并成功,没有错误,但没有将数据移动到 S3。
最佳答案
这不是对您问题的正确直接回答,但我使用了 hadoop distcp ( https://hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html ),并且它成功地移动了数据。在我的测试中,与spark.write.parquet(path)相比,它相当慢(当计算使用hadoop distcp所需的额外写入hdfs所需的时间时)。不过,我也对你问题的答案很感兴趣;我认为考虑到亚马逊所做的额外优化,s3-dist-cp 可能会更快。
关于scala - 如何在 Spark-Submit 应用程序中执行 S3-dist-cp 命令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53878406/