hadoop - 如何从命令行运行 Spark-java 程序

<分区>

我正在 spark 中运行 wordcount java 程序。如何从命令行运行它。

最佳答案

从 say: https://github.com/holdenk/fastdataprocessingwithsparkexamples/tree/master/src/main/scala/pandaspark/examples 中选取 wordcount 示例. 按照以下步骤创建 fat jar 文件:

mkdir example-java-build/; cd example-java-build

mvn archetype:generate \
   -DarchetypeGroupId=org.apache.maven.archetypes \
   -DgroupId=spark.examples \
   -DartifactId=JavaWordCount \
   -Dfilter=org.apache.maven.archetypes:maven-archetype-quickstart

cp ../examples/src/main/java/spark/examples/JavaWordCount.java
JavaWordCount/src/main/java/spark/examples/JavaWordCount.java

您添加相关的 spark-core 和 spark examples 依赖项。确保您具有基于您的 spark 版本的依赖项。我使用 spark 1.1.0，所以我有相关的依赖项。我的 pom.xml 看起来像这样:

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>

<dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-examples_2.10</artifactId>
        <version>1.1.0</version>
</dependency>
<dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.10</artifactId>
        <version>1.1.0</version>
</dependency>
  </dependencies>

使用 mvn 构建您的 jar 文件。

cd example-java-build/JavaWordCount
mvn package

这会在目标目录中创建您的 fat jar 文件。将 jar 文件复制到服务器上的任意位置。转到您的 spark 的 bin 文件夹。 (在我的例子中:/root/spark-1.1.0-bin-hadoop2.4/bin)

提交 spark 作业:我的作业如下所示:

./spark-submit --class "spark.examples.JavaWordCount" --master yarn://myserver1:8032 /root/JavaWordCount-1.0-SNAPSHOT.jar  hdfs://myserver1:8020/user/root/hackrfoe.txt

这里 --class 是:您的应用程序的入口点(例如 org.apache.spark.examples.SparkPi) --master:集群的主 URL(例如 spark://23.195.26.187:7077) 最后一个参数是您为程序选择的任何文本文件。

输出应该像这样，给出文本文件中所有单词的字数。

in: 17
sleeping.: 1
sojourns: 1
What: 4
protect: 1
largest: 1
other: 1
public: 1
worst: 1
hackers: 12
detected: 1
from: 4
and,: 1
secretly: 1
breaking: 1
football: 1
answer.: 1
attempting: 2
"hacker: 3

希望这对您有所帮助!

关于hadoop - 如何从命令行运行 Spark-java 程序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22252534/

上一篇：Hadoop YARN如何确定容器数量

下一篇：R+Hadoop : How to read CSV file from HDFS and execute mapreduce?

hadoop - NoClassDefFoundError org/apache/hadoop/yarn/server/timelineservice/collector/TimelineCollectorManager

apache-spark - Spark saveAsNewAPIHadoopFile 适用于本地模式，但不适用于集群模式

java - 如何使用spark java解压存储在hdfs中的文件

java - 如何通过sparkSession提交多个jar给worker？

scala - 将数据帧字符串列转换为数组[Int]

scala - 如何让 Spark 2.0.0 SparkContext 和 SparkSql 函数在 scalatest/junit 测试环境中工作？

mysql - 错误:使用Sqoop将所有表从MariaDB导入到Hive数据库时，文件路径无效

hadoop - 从厨房执行工作时的不同行为

hadoop - YARN 中作业的聚合资源分配