eclipse - 从 Eclipse 运行 Spark 应用程序

标签 eclipse scala apache-spark scala-ide

我正在尝试在 Eclipse 上开发一个 spark 应用程序,然后通过单步调试它。

我下载了 Spark 源代码,并在 Eclipse 中添加了一些 spark 子项目(例如 spark-core)。现在,我正在尝试使用 Eclipse 开发一个 spark 应用程序。我已经在 Eclipse 上安装了 ScalaIDE。我根据 Spark 网站中给出的示例创建了一个简单的应用程序。

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system
    val conf = new SparkConf().setAppName("Simple Application")
    val sc = new SparkContext(conf)
    val logData = sc.textFile(logFile, 2).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  }
}

在我的项目中,我将 spark-core 项目添加为依赖项目(右键单击 -> 构建路径 -> 添加项目)。现在,我正在尝试构建我的应用程序并运行它。但是,我的项目显示它有错误,但我没有在 Eclipse 的问题 View 中看到任何错误,也没有看到任何以红色突出显示的行。所以,我不确定是什么问题。我的假设是我需要将外部 jar 添加到我的项目中,但我不确定这些 jar 是什么。该错误是由 val conf = new SparkConf().setAppName("Simple Application") 和后续行引起的。我尝试删除这些行,错误消失了。我将不胜感激任何帮助和指导,谢谢!

最佳答案

您似乎没有使用任何应该消除任何版本控制问题的包/库管理器(例如 sbt、maven)。 自行设置 java、scala、spark 及其所有后续依赖项的正确版本可能具有挑战性。 我强烈建议将您的项目更改为 Maven: Convert Existing Eclipse Project to Maven Project

就个人而言,我在 IntelliJ IDEA ( https://confluence.jetbrains.com/display/IntelliJIDEA/Getting+Started+with+SBT ) 上使用 sbt 有很好的经验,它易于设置和维护。

关于eclipse - 从 Eclipse 运行 Spark 应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29321237/

相关文章:

java - 如何在 map v2 中显示标记并在另一个类中调用坐标?

java - 如何在 Eclipse 中用新内容替换搜索到的行?

eclipse - 将 eclipse 项目转换为 tomcat servlet 的最佳方法?

java - 在 Eclipse 中跳转到 block 的开头/结尾

scala - 如何在 Scala 中使用 java.nio.file.Files.walkFileTree

scala - 允许组合时在Scala中声明 protected 方法的惯用方式?

scala - 使用偏移量对数组进行分区

scala - 如何在 Spark 中获取 map task 的 ID?

hadoop - hive 圈-哪个执行引擎支持? Spark ,先生,泰兹

apache-spark - 如何使用用户提供的 Hadoop 正确配置 Spark 2.4