amazon-web-services - AWS JupyterHub pyspark notebook 使用 pandas 模块

标签 amazon-web-services docker apache-spark pyspark jupyterhub

我有一个安装了 JupyterHub 的 docker 容器，在 AWS 集群上运行，如此处所述 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-jupyterhub.html .它有 Python 3 内核、PySpark 3、PySpark、SparkR 和 Spark 内核，并且在容器内安装了 conda 和许多其他 python 包，但没有 spark。问题是，当我运行 pyspark 或 pyspark3 内核时，它连接到 spark，安装在主节点上(在 docker 容器之外)，并且所有内部模块不再可用于此笔记本(尽管它们对 python 内核可见，但在这种情况下 Spark 不可见)。

所以问题是如何使安装在 docker 内的模块对 pyspark/pyspark3 笔记本可用和可见？我认为我缺少的设置中有一些东西。

我非常想在一个笔记本中使用 docker 内部安装的模块和外部安装的 spark 的方法。

到目前为止，我只能得到一个或另一个。

最佳答案

我刚刚在这里找到了一半的答案https://blog.chezo.uno/livy-jupyter-notebook-sparkmagic-powerful-easy-notebook-for-data-scientist-a8b72345ea2d在这里https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-jupyter-notebook-kernels .秘诀是在单元格中使用 %%local 魔法，它可以让我们访问已安装的 Python 模块本地 (在 docker 容器中)。现在我只是不知道如何保存在笔记本的“pyspark 部分”中创建的 pandas 数据框，因此它在“本地”部分中可用。

关于amazon-web-services - AWS JupyterHub pyspark notebook 使用 pandas 模块，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52413038/

上一篇：Yii2 AssetManager 发布路径包括 URL 方案

下一篇：Neo4j:不知道如何将图形映射到 Spring Data bean

apache - ELB 或 EC2 上的 SSL 证书？

python - 找不到满足 tensorflow 要求的版本 - 在 docker 中

docker - 如何为图像位桶管道配置环境

apache-spark - 什么时候应该在 Spark 编程中使用 groupByKey API？

scala - 如何验证数据框的日期列

apache-spark - Apache Spark 流与 Spring XD Streams

amazon-web-services - S3 同步与跨区域复制

amazon-web-services - 如何销毁特定的 Terraform 托管资源？

python - Kubernetes POD 重启