java - Spark : Read by S3 aws-sdk or as RDD

我在 S3 中只有几个 (5-10) 个 5KB 以下的配置文件。可以使用 AWS S3 或使用 RDD 读取这些文件。因此，如果有 10 个文件，则会创建 10 个 RDD 对象，并使用 collect() 将其转换为列表。

既然RDD是分布式的，是否建议使用aws-s3 Java SDK而不是RDD来读取？

最佳答案

您应该始终更喜欢将配置文件传递给 Spark 驱动程序，然后使用 python open 命令本身或 java(如果您使用的是 awsglue)读取它们。

如果您使用 EMR 或 native 集群，则可以使用 boto3 读取文件并将其传递给驱动程序或进行相应处理。

关于java - Spark : Read by S3 aws-sdk or as RDD，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61587310/

相关文章：

java - JEditorPane 中的换行符