我在 S3 中只有几个 (5-10) 个 5KB 以下的配置文件。可以使用 AWS S3 或使用 RDD 读取这些文件。因此,如果有 10 个文件,则会创建 10 个 RDD 对象,并使用 collect()
将其转换为列表。
既然RDD是分布式的,是否建议使用aws-s3 Java SDK而不是RDD来读取?
最佳答案
您应该始终更喜欢将配置文件传递给 Spark 驱动程序,然后使用 python open 命令本身或 java(如果您使用的是 awsglue)读取它们。
如果您使用 EMR 或 native 集群,则可以使用 boto3 读取文件并将其传递给驱动程序或进行相应处理。
关于java - Spark : Read by S3 aws-sdk or as RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61587310/