performance - Spark不忽略空分区

标签 performance apache-spark amazon-s3 partitioning parquet

我正在尝试使用下推谓词读取数据集的子集。
我的输入数据集包含 1,2TB 和 43436 个存储在 s3 上的 Parquet 文件。使用下推谓词，我应该读取 1/4 的数据。
看到 Spark UI。我看到作业实际上读取了 1/4 的数据(300GB)，但在作业的第一阶段仍有 43436 个分区，但是这些分区中只有 1/4 有数据，其他 3/4 是空的(检查附加屏幕截图中的中值输入数据)。
我期待 Spark 只为非空分区创建分区。与直接通过另一个作业(数据的 1/4)读取预过滤数据集相比，使用下推谓词读取整个数据集时，我看到了 20% 的性能开销。我怀疑这个开销是由于我在第一阶段有大量的空分区/任务，所以我有两个问题:

是否有任何解决方法可以避免这些空分区？

您认为是否有其他原因需要对开销负责？可能是下推过滤器执行自然有点慢？

先感谢您

最佳答案

使用 S3 Select ，您只能检索数据的一个子集。

With Amazon EMR release version 5.17.0 and later, you can use S3 Select with Spark on Amazon EMR. S3 Select allows applications to retrieve only a subset of data from an object.

否则，S3 充当对象存储，在这种情况下，必须读取整个对象。 在您的情况下，您必须读取所有文件中的所有内容，并在客户端过滤它们 .
其实有很相似的question ，通过测试您可以看到: