apache-spark - Spark-Shell中进度条上的数字是什么意思?

标签 apache-spark

在我的 Spark-Shell 中,当我执行函数时,下面的条目意味着什么?

[Stage7:===========>                              (14174 + 5) / 62500]

最佳答案

你得到的是一个控制台进度条[Stage 7: 显示您现在所处的阶段,并且 (14174 + 5)/62500](numCompletedTasks + numActiveTasks)/totalNumOfTasksInThisStage]。进度条显示 numCompletedTasks/totalNumOfTasksInThisStage

两者 spark.ui.showConsoleProgress 为 true(默认情况下) conf/中的日志级别时显示log4j.propertiesERRORWARN(!log.isInfoEnabled 为 true)。

让我们看看 ConsoleProgressBar.scala 中的代码这表明了这一点:

private def show(now: Long, stages: Seq[SparkStageInfo]) {
  val width = TerminalWidth / stages.size
  val bar = stages.map { s =>
    val total = s.numTasks()
    val header = s"[Stage ${s.stageId()}:"
    val tailer = s"(${s.numCompletedTasks()} + ${s.numActiveTasks()}) / $total]"
    val w = width - header.length - tailer.length
    val bar = if (w > 0) {
      val percent = w * s.numCompletedTasks() / total
      (0 until w).map { i =>
        if (i < percent) "=" else if (i == percent) ">" else " "
      }.mkString("")
    } else {
    ""
    }
    header + bar + tailer
  }.mkString("")

  // only refresh if it's changed of after 1 minute (or the ssh connection will be closed
  // after idle some time)
  if (bar != lastProgressBar || now - lastUpdateTime > 60 * 1000L) {
    System.err.print(CR + bar)
    lastUpdateTime = now
  }
  lastProgressBar = bar
}

关于apache-spark - Spark-Shell中进度条上的数字是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30245180/

相关文章:

apache-spark - pyspark数据框添加一列(如果不存在)

hadoop - Spark : Silently execute sc. wholeTextFiles

scala - 使用partitionBy写入现有目录Dataframe

mysql - 如何有效地使用窗口函数根据 N 个先前值来决定接下来的 N 个行

java - 使用 group by 根据数据的两个不同子集获取两个聚合的不同计数

r - 使用sparklyr::spark_read_json时添加文件名

scala - 如何将DataFrame直接保存到Hive中?

scala - 如何解析日期时间?

Java Spark Collect() javaRdd 因内存错误而失败(EMR 集群)

apache-spark - Spark SQL 中的 Oracle INSTR 等效项