我有一个中等大小的 xml 文件(200MB,bz2),我正在 AWS emr 集群上使用 Spark-xml 加载该文件,该集群有 1 个主节点和两个核心节点,每个节点有 8 个 CPU 和 32GB RAM。
import org.apache.spark.sql.SQLContext
import com.databricks.spark.xml._
val sqlContext = new SQLContext(sc)
val experiment = sqlContext.read
.format("com.databricks.spark.xml")
.option("rowTag", "EXPERIMENT")
.load("s3n://bucket/path/meta_experiment_set.xml.bz2")
此加载需要相当长的时间,据我所知,仅使用一个分区即可完成。是否可以告诉 Spark 在加载时对文件进行分区以更好地使用计算资源?我知道加载后可以分区。
最佳答案
关于scala - 如何提高使用 Spark-xml 加载大型 XML 文件的并行度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48817169/