我正在学习 Spark,经常遇到一些导致任务和阶段失败的问题。使用我的默认配置,会有几轮重试和一堆错误消息。
虽然我完全欣赏当我最终进入生产环境时重试任务的想法,但我很想知道如何让我的应用程序在出现问题的第一个迹象时就失败,这样我就可以避免日志中的所有额外噪音和在应用程序历史记录本身内。例如,如果我运行内存不足,我希望在日志末尾附近看到 OOM 异常,并使整个应用程序失败。
为这种工作流程设置配置的最佳方法是什么?
最佳答案
您可以将spark.task.maxFailures
设置为1。
spark.task.maxFailures
是放弃作业之前单个任务失败的次数,默认值为4。
关于apache-spark - 如何让 Spark 快速清晰地失败,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36066403/