apache-spark - 无法加载数据源 : com. databricks.spark.csv 的类

标签 apache-spark

我的build.sbt文件有这个:

scalaVersion := "2.10.3"
libraryDependencies += "com.databricks" % "spark-csv_2.10" % "1.1.0"

我在独立集群模式下运行 Spark,我的 SparkConf 为 SparkConf().setMaster("spark://ec2-[ip].compute-1.amazonaws.com:7077").setAppName("简单应用程序”)(我没有使用方法setJars,不确定我是否需要它)。

我使用命令 sbt package 打包 jar。我用来运行应用程序的命令是 ./bin/spark-submit --master spark://ec2-[ip].compute-1.amazonaws.com:7077 --class "[classname]"target/scala-2.10/[jarname]_2.10-1.0.jar.

运行此程序时,我收到此错误:

java.lang.RuntimeException: Failed to load class for data source: com.databricks.spark.csv

有什么问题吗?

最佳答案

相应地使用依赖项。例如:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.10</artifactId>
    <version>1.6.1</version>
</dependency>

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.10</artifactId>
    <version>1.6.1</version>
</dependency>

<dependency>
    <groupId>com.databricks</groupId>
    <artifactId>spark-csv_2.10</artifactId>
    <version>1.4.0</version>
</dependency>

关于apache-spark - 无法加载数据源 : com. databricks.spark.csv 的类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31596670/

相关文章:

python - 如何在 PySpark 中获取数据框的最频繁值

apache-spark - Spark作业优化: Is there a way to tune spark job which has too many joins

python - 如何在 PySpark Word2vec 模型中设置迭代次数?

apache-spark - PySpark Array<double> 不是 Array<double>

java - 覆盖 AWS EMR 主节点上的默认 aws-sdk jar

python - 如何模拟对 pyspark sql 函数的内部调用

apache-spark - 具有两个日期列的 Spark 时间序列查询

scala - Spark 未使用 core-site.xml 中的正确配置

java - Spark Streaming StreamingContext 错误

apache-spark - 在 pyspark.ml 中使用 RandomForestClassifier 时,maxCategories 在 VectorIndexer 中无法按预期工作