amazon-web-services - Glue Spark Scala 脚本检查文件是否存在于 S3 中?

标签 amazon-web-services scala apache-spark amazon-s3 aws-glue

我是编写 AWS Glue 脚本的新手,我想检查是否有办法使用 Spark/Scala 检查 S3 存储桶中是否已存在 key 、文件或路径名?

谢谢!

最佳答案

是的,您可以使用像 this 这样的库,检查 S3 中是否存在文件。您必须将 jar 上传到 S3,以便可以在 Glue Job 中将其作为外部库引用。

另一种方法是使用 Filesystem.Get 方法,如下所示:

var sc = new SparkContext()
if(FileSystem.get(URI.create("s3://s3bucket/"), sc.hadoopConfiguration).exists(new Path("s3://s3bucket/")))
{
     println("File exists")
}

关于amazon-web-services - Glue Spark Scala 脚本检查文件是否存在于 S3 中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67314917/

相关文章:

amazon-web-services - 使用 CDK 和管道自动化,使用给定的模板文件创建资源

amazon-web-services - 使用 aws education 访问 aws root 用户

amazon-web-services - 从浏览器访问两个容器

mysql - AWS Lambda 和 RDS 之间的间歇性超时

scala - 以编程方式减少 spark shell 中的日志

scala - 在 Sbt 中包含 Spark 包

java - 在保持字段可访问的同时在 Scala 中扩展 Java 类

scala - Spark 中 rtrim 函数的意外结果

apache-spark - 如何处理 Spark ALS 从 MLlib 生成的模型中的新用户/项目?

scala - Apache spark消息理解