hadoop - CentOS 7 上的 Spark 和 IPython

标签 hadoop apache-spark ipython pyspark

我正在试验 Hadoop 和 Spark,因为我工作的公司正准备开始加速 Hadoop,并希望使用 Spark 和其他资源对我们的数据进行大量机器学习。
大部分都落在我身上,所以我正在通过自己的学习来准备。

我有一台机器,我已将其设置为单节点 Hadoop 集群。
这是我所拥有的:

  • CentOS 7(最小服务器安装,为 GUI 添加了 XOrg 和 OpenBox)
  • python 2.7
  • Hadoop 2.7.2
  • 星火 2.0.0

我按照这些指南进行了设置:

当我尝试运行“pyspark”时,我得到以下信息:

IPYTHON and IPYTHON_OPTS are removed in Spark 2.0+. Remove these from the environment and set PYSPARK_DRIVER_PYTHON and PYSPARK_DRIVER_PYHTON_OPTS instead.

我在 vi 中打开了 pyspark 文件并检查了它。
我看到那里发生了很多事情,但我不知道从哪里开始进行我需要进行的更正。
我的 Spark 安装位于:

/opt/spark-latest

pyspark 在 /opt/spark-latest/bin/ 下,我的 Hadoop 安装(虽然我不认为这个因素)是 /opt/hadoop/.
我知道我必须在某个地方的 pyspark 文件中进行更改,我只是不知道该在哪里进行更改。
我进行了一些谷歌搜索并找到了类似内容的引用资料,但没有任何内容表明解决此问题的步骤。

任何人都可以在正确的方向上插入我吗?

最佳答案

如果刚开始学习 Spark 在 Hadoop 环境中的兼容性,目前官方不支持 Spark 2.0(Cloudera CDH 或 Hortonworks HDP)。我将继续并假设您的公司没有在这些发行版之一之外支持 Hadoop(因为企业支持)。

也就是说,Spark 1.6(和 Hadoop 2.6)是最新的受支持版本。原因是 Spark 2.0 中有一些重大变化。

现在,如果使用 Spark 1.6,则不会出现这些错误。 Anaconda 不是完全必要的(PySpark 和 Scala shell 应该可以)。如果使用 Jupyter 笔记本,您可以查找 Apache Toree ,我在笔记本设置方面取得了很大的成功。否则,Apache Zeppelin 可能是生产 Hadoop 集群中推荐的笔记本环境。

关于hadoop - CentOS 7 上的 Spark 和 IPython,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39259741/

相关文章:

sql - 配置单元-最早日期1年内选择行

memory-leaks - IPython.parallel 模块中的内存泄漏?

java - Flume Java自定义接收器和源

python - 值错误: Length of object (3) does not match with length of fields

scala - Scala:使用Spark读取Elasticsearch中的数组值

scala - Apache Spark 中的大型 RDD [MatrixEntry] 超出了 GC 开销限制

python - 缩进错误: unindent does not match any outer indentation level python

python - 是否可以设置 ipython 来标记完整的函数参数参数

hadoop - hadoop mapreduce程序中的错误

c# - 如何在查询中将 .net DateTime.Ticks 转换为 Hive DateTime?