java - Spark : Read by S3 aws-sdk or as RDD

标签 java apache-spark rdd

我在 S3 中只有几个 (5-10) 个 5KB 以下的配置文件。可以使用 AWS S3 或使用 RDD 读取这些文件。因此,如果有 10 个文件,则会创建 10 个 RDD 对象,并使用 collect() 将其转换为列表。

既然RDD是分布式的,是否建议使用aws-s3 Java SDK而不是RDD来读取?

最佳答案

您应该始终更喜欢将配置文件传递给 Spark 驱动程序,然后使用 python open 命令本身或 java(如果您使用的是 awsglue)读取它们。

如果您使用 EMR 或 native 集群,则可以使用 boto3 读取文件并将其传递给驱动程序或进行相应处理。

关于java - Spark : Read by S3 aws-sdk or as RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61587310/

相关文章:

java - JEdi​​torPane 中的换行符

sql - SparkSQL支持子查询吗?

pyspark - 如何制作 PySpark Row 对象的变异副本?

dataframe - 如何在 Spark Scala 中检查 df 列中的 Luhn

apache-spark - 如果一个分区丢失,我们可以使用lineage来重建它。是否会再次加载基础 RDD?

python - 如何在 Python 中解压 RDD 中每个项目的值(列表)?

java - ReSTLet 中 url 的基本身份验证

java - 让 RecyclerView 像 Whatsapp 一样更新

java - 为什么不给静态最终变量赋予默认值?

hadoop - Apache HAWQ 生产使用