<分区>
我正在 spark 中运行 wordcount java 程序。如何从命令行运行它。
<分区>
我正在 spark 中运行 wordcount java 程序。如何从命令行运行它。
最佳答案
从 say: https://github.com/holdenk/fastdataprocessingwithsparkexamples/tree/master/src/main/scala/pandaspark/examples 中选取 wordcount 示例. 按照以下步骤创建 fat jar 文件:
mkdir example-java-build/; cd example-java-build
mvn archetype:generate \
-DarchetypeGroupId=org.apache.maven.archetypes \
-DgroupId=spark.examples \
-DartifactId=JavaWordCount \
-Dfilter=org.apache.maven.archetypes:maven-archetype-quickstart
cp ../examples/src/main/java/spark/examples/JavaWordCount.java
JavaWordCount/src/main/java/spark/examples/JavaWordCount.java
您添加相关的 spark-core 和 spark examples 依赖项。确保您具有基于您的 spark 版本的依赖项。我使用 spark 1.1.0,所以我有相关的依赖项。 我的 pom.xml 看起来像这样:
<dependencies>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>3.8.1</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-examples_2.10</artifactId>
<version>1.1.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.10</artifactId>
<version>1.1.0</version>
</dependency>
</dependencies>
使用 mvn 构建您的 jar 文件。
cd example-java-build/JavaWordCount
mvn package
这会在目标目录中创建您的 fat jar 文件。
将 jar 文件复制到服务器上的任意位置。
转到您的 spark 的 bin 文件夹。 (在我的例子中:/root/spark-1.1.0-bin-hadoop2.4/bin
)
提交 spark 作业:我的作业如下所示:
./spark-submit --class "spark.examples.JavaWordCount" --master yarn://myserver1:8032 /root/JavaWordCount-1.0-SNAPSHOT.jar hdfs://myserver1:8020/user/root/hackrfoe.txt
这里 --class 是:您的应用程序的入口点(例如 org.apache.spark.examples.SparkPi) --master:集群的主 URL(例如 spark://23.195.26.187:7077) 最后一个参数是您为程序选择的任何文本文件。
输出应该像这样,给出文本文件中所有单词的字数。
in: 17
sleeping.: 1
sojourns: 1
What: 4
protect: 1
largest: 1
other: 1
public: 1
worst: 1
hackers: 12
detected: 1
from: 4
and,: 1
secretly: 1
breaking: 1
football: 1
answer.: 1
attempting: 2
"hacker: 3
希望这对您有所帮助!
关于hadoop - 如何从命令行运行 Spark-java 程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22252534/
相关文章:
apache-spark - 如何创建与远程Spark服务器的连接并从运行在本地计算机上的ipython读取数据?
apache-spark - Spark saveAsNewAPIHadoopFile 适用于本地模式,但不适用于集群模式
java - 如何使用spark java解压存储在hdfs中的文件
java - 如何通过sparkSession提交多个jar给worker?
scala - 如何让 Spark 2.0.0 SparkContext 和 SparkSql 函数在 scalatest/junit 测试环境中工作?