eclipse - Spark 在客户端机器上提交

标签 eclipse scala hadoop apache-spark

我在本地系统的 Eclipse 中运行 Spark Twitter 情感分析代码。服务器中的所有 hadoop 和 spark 集群设置。是否可以在集群设置不是他们的本地系统中运行?

如果是,请指导我如何操作。 在运行时我给出的论点是

> --class com.dhruv.Predict \
> --master spark://<spark cluster ip>:7077 \
> --num-executors 2 \
> --executor-memory 512m \
> --executor-cores 2 \ target/twittersentiment-0.0.1-jar-with-dependencies.jar \
> hdfs://tmp/tweets/dataset.csv trainedModel \
> --consumerKey  \
> --consumerSecret  \
> --accessToken  \
> --accessTokenSecret

但是它不起作用。请指导我

最佳答案

如评论中所述:

文件必须是全局可见的,所以它应该在每台机器或分布式文件系统中的相同路径中,例如在 HDFS 中

将您的 JAR 复制到每台机器或 HDFS

关于eclipse - Spark 在客户端机器上提交,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40784224/

相关文章:

java - Eclipse 找不到 JSP 标记库

java.lang.OutOfMemory错误: Java heap space on Payara and Eclipse

scala - SBT 在编译混合项目时给出 "class file has wrong version 51.0, should be 49.0"?

java - 如何在 Hadoop 流中将不可打印指定为键值分隔符

android - 为什么在通过 Eclipse 添加 JAR 后在 Android 上出现 NoClassDefFoundError?

java - 如何将Double类型的数据插入phpmyadmin?

Scala:避免冗余类型参数

java - Akka 是否有内置的解决方案来从广播路由器收集答案?

hadoop - Configuration.addResource() 方法如何在 hadoop 中工作

hadoop - 如何安装Sqoop 2服务器和客户端?