hadoop - CentOS 7 上的 Spark 和 IPython

我正在试验 Hadoop 和 Spark，因为我工作的公司正准备开始加速 Hadoop，并希望使用 Spark 和其他资源对我们的数据进行大量机器学习。
大部分都落在我身上，所以我正在通过自己的学习来准备。

我有一台机器，我已将其设置为单节点 Hadoop 集群。
这是我所拥有的:

CentOS 7(最小服务器安装，为 GUI 添加了 XOrg 和 OpenBox)
python 2.7
Hadoop 2.7.2
星火 2.0.0

我按照这些指南进行了设置:

当我尝试运行“pyspark”时，我得到以下信息:

IPYTHON and IPYTHON_OPTS are removed in Spark 2.0+. Remove these from the environment and set PYSPARK_DRIVER_PYTHON and PYSPARK_DRIVER_PYHTON_OPTS instead.

我在 vi 中打开了 pyspark 文件并检查了它。
我看到那里发生了很多事情，但我不知道从哪里开始进行我需要进行的更正。
我的 Spark 安装位于:

/opt/spark-latest

pyspark 在 /opt/spark-latest/bin/ 下，我的 Hadoop 安装(虽然我不认为这个因素)是 /opt/hadoop/.
我知道我必须在某个地方的 pyspark 文件中进行更改，我只是不知道该在哪里进行更改。
我进行了一些谷歌搜索并找到了类似内容的引用资料，但没有任何内容表明解决此问题的步骤。

任何人都可以在正确的方向上插入我吗？

最佳答案

如果刚开始学习 Spark 在 Hadoop 环境中的兼容性，目前官方不支持 Spark 2.0(Cloudera CDH 或 Hortonworks HDP)。我将继续并假设您的公司没有在这些发行版之一之外支持 Hadoop(因为企业支持)。

也就是说，Spark 1.6(和 Hadoop 2.6)是最新的受支持版本。原因是 Spark 2.0 中有一些重大变化。

现在，如果使用 Spark 1.6，则不会出现这些错误。 Anaconda 不是完全必要的(PySpark 和 Scala shell 应该可以)。如果使用 Jupyter 笔记本，您可以查找 Apache Toree ，我在笔记本设置方面取得了很大的成功。否则，Apache Zeppelin 可能是生产 Hadoop 集群中推荐的笔记本环境。

关于hadoop - CentOS 7 上的 Spark 和 IPython，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39259741/

hadoop - CentOS 7 上的 Spark 和 IPython

上一篇：hadoop - 在配置单元表中为唯一 ID 添加一个新列

下一篇：hadoop - 即使从 hdfs 删除后，Hive 如何读取数据？