python - 如何在 HDP 中的 zeppelin-spark2 中将库安装到 python

标签 python pyspark hortonworks-data-platform apache-zeppelin

我正在使用 HDP 版本:2.6.4

您能否提供有关如何将库安装到spark2下的以下python目录的分步说明?

sc.version(spark版本)返回

res0: String = 2.2.0.2.6.4.0-91

spark2解释器名称和值如下

zeppelin.pyspark.python:    /usr/local/Python-3.4.8/bin/python3.4

Python 版本和当前库是

%spark2.pyspark

import pip
import sys

sorted(["%s==%s" % (i.key, i.version) for i in pip.get_installed_distributions()])

print("--")     
print (sys.version)
print("--")
print(installed_packages_list)

--
3.4.8 (default, May 30 2018, 11:05:04) 
[GCC 4.4.7 20120313 (Red Hat 4.4.7-18)]
--
['pip==9.0.1', 'setuptools==28.8.0']

更新 1:使用 pip install [package name] 实际上会导致两个问题

1) HDP 指向 python2.6 而不是 python3.4.8

2) pip3 由于某种原因不存在

因此,我正在考虑安装 miniconda 并指向 Zeppelin 并安装 conda 中的所有软件包,以防止 python 2.6 和 3.4.8 之间的冲突

最佳答案

这对我们来说是痛苦的。有效的解决方法是:

  1. 相应地使用 pippip3 从终端安装所需的 python 软件包。
  2. 默认情况下,spark 解释器上的 zeppelin.pyspark.python 设置为:python。该 python 无法识别我们使用终端安装的软件包。我们必须更新 zeppelin.pyspark.python :/usr/bin/python (python 命令的路径,您可以使用命令 'which python' 获取它)

现在解释器和 zeppelin 笔记本能够访问我们从终端安装的所有软件包。

关于python - 如何在 HDP 中的 zeppelin-spark2 中将库安装到 python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50603891/

相关文章:

python - 如何向行添加值?

python - 切片数组并通过在 Python 中使用循环为每个小数组指定特定名称

Python/Pandas/spacy - 遍历 DataFrame 并计算 pos_ 标签的数量

python - 与 .join() pyspark 相反

python - 如何将pyspark UDF导入主类

apache-spark - 使用 pyspark 从每行的数组中获取不同的计数

apache - 在 HDP2.1 Hbase 中找不到 graceful_stop.sh

python - 让 Cron 根据用户输入运行

hadoop - apache-pig map-reduce错误分组

python-3.x - 如何在 HDP 2.6 上启用 Python3 支持