apache-spark - 垃圾收集时间是apache spark中任务执行时间的一部分吗?

标签 apache-spark

我是 apache spark 的初学者,遇到了 apache spark webUI 中任务的垃圾收集时间。任务的执行时间是否包括任务垃圾回收时间?

最佳答案

答案是肯定的,垃圾收集器的 Spark UI 中显示的执行是总执行时间的一部分。如果您的 GC 花费的时间比实际执行的时间多,最好检查一下您在做什么。

如果您在 GC 方面遇到任何问题,有很多解决方案可以改善 Spark 的内存使用或 GC 管理。

根据 Databricks 博客,GC 执行时间是任何使用 GB 内存执行任务的大公司的递归问题:

For example, garbage collection takes a long time, causing program to experience long delays, or even crash in severe cases.



可以查看全文here .

您可以看到的其他事情是如何改进或调整您的 Spark 应用程序以避免执行的 GC 时间,或 GC 开销限制,甚至是执行期间的 OOM 错误。

请查收 this文档的一部分。

关于apache-spark - 垃圾收集时间是apache spark中任务执行时间的一部分吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44868044/

相关文章:

hadoop - 从 Spark 调用 distcp

oracle - Spark - Oracle 时区错误

python - 如何在spark中按多个键分组?

scala - 为什么在某些阶段之后,所有任务都分配给spark中的一台机器(执行器)?

intellij-idea - 从 IntelliJ IDEA 在 YARN 上运行 Apache Spark 程序

json - 这是从 S3 : Spark 读取 Json 文件的最快方法

apache-spark - 具有多个加密 key 提供商的 EMR

sql - 如何根据 INPUT 和 OUTPUT 计算 Assets 的运行余额

Java Spark 将 HIVE View 重制为 INSERT

apache-spark - 如何使用 mapPartitions 和 saveAsTextFiles