hadoop - 为什么使用 yarn-client 启动 spark-shell 失败并显示 "java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream"?

标签 hadoop apache-spark hadoop-yarn

我正尝试在家里设置一个集群以满足我的个人需求(学习)。首先我做了Hadoop+Yarn。 MR2 正在工作。其次 - 我正在尝试添加 Spark 但收到有关缺少类的错误。

[root@master conf]# spark-shell --master yarn-client
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
...
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream

我关注了这些instructions并添加到 spark-env.sh

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop)

更多信息:
Cent_OS.86_64
Hadoop 目录:/usr/local/hadoop

Hadoop 版本:

[root@master conf]# hadoop version
Hadoop 2.7.1
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 15ecc87ccf4a0228f35af08fc56de536e6ce657
Compiled by jenkins on 2015-06-29T06:04Z
Compiled with protoc 2.5.0
From source with checksum fc0a1a23fc1868e4d5ee7fa2b28a58a
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-2.7.1.jar

Manual说我必须有 2 个变量:HADOOP_CONF_DIR 或 YARN_CONF_DIR

[root@master conf]# echo $HADOOP_CONF_DIR
/usr/local/hadoop/etc/hadoop
[root@master conf]# echo $YARN_CONF_DIR
/usr/local/hadoop/etc/hadoop

Spark 是 spark-1.5.0-bin-without-hadoop.tgz -> /usr/local/spark

我正在尝试在 hadoop+yarn 启动并可用时同时启动 spark-shell --master yarn-client http://master:50070/dfshealth.html #tab-overview http://master:8088/cluster/apps http://master:19888/jobhistory

如果重要的话,我没有安装 Scala。 有什么想法我会在 Spark 设置中错过什么吗?谢谢。

最佳答案

回答我自己的问题: 首先这是我个人的错误。 调用 spark-shell 我从旧的(错误的)地方启动它 /opt/cloudera/parcels/CDH-5.4.5-1.cdh5.4.5.p0.7/bin/ Spark 壳。我确信我已经通过 yum remove cloudera* 从 CDH 测试中删除了所有内容。

[root@master bin]# type spark-shell
spark-shell is hashed (/usr/bin/spark-shell)
[root@master bin]# hash -d spark-shell

现在,从旧的 spark-1.5.0-bin-without-hadoop.tgz 启动 if 仍然给我同样的错误。下载了 spark-1.5.0-bin-hadoop2.6,添加了 export SPARK_DIST_CLASSPATH=$HADOOP_HOME - spark-shell 现在正在运行。

关于hadoop - 为什么使用 yarn-client 启动 spark-shell 失败并显示 "java.lang.ClassNotFoundException: org.apache.hadoop.fs.FSDataInputStream"?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32639038/

相关文章:

python - 可以将任何算法实现到 hadoop 流式 mapreduce 工作中吗?

java - Eclipse:Apache Spark 2.1.1,org.apache.spark.logging 无法解析

scala - 无法使用 spark 从 s3 存储桶中读取

apache-spark - spark-yarn集群环境下只允许运行一次spark-submit

hadoop - Spark 1.6.1 SASL

hadoop - 同一 HBase 集群内的随机读取和扫描

linux - 无法使用 cygwin 在本地运行 hadoop

scala - Apache Spark RDD - 不更新

hadoop - 在 hadoop 中获取名称服务的事件名称节点的任何命令?

android - React Native 'yarn android' 失败,出现 'Task :app:compileDebugJavaWithJavac FAILED' 和 'package org.unimodules.core.interfaces does not exist'