docker - 使用 Docker 容器设置数据科学前端的简单方法是什么？

我想使用 Docker 容器设置数据科学前端测试环境。该平台应提供一个用户友好的界面，并能够管理巨大的 CSV 文件。我的第一种方法是使用 Anaconda 发行版，以利用 Python 和 Jupyter Notebook 的灵 active 。不幸的是，考虑到我的团队主要使用带有 Python 的数据科学库(例如 Pandas)，这个解决方案在处理巨大的 CSV 文件时速度太慢。我考虑过使用像 Hue 这样的前端迁移到 HDFS，以便在导出数据之前使用 SQL 处理数据并使用其他工具对其进行数据科学处理。但是，这种方法过于复杂(需要设置 Hadoop 和许多其他东西才能使用 Hue)。而且，据我所知，官方并没有提供Hadoop的容器。据我了解，Hue Docker 容器不提供 HDFS。

有没有什么东西已经可以作为容器使用，它提供了以下内容:

可以在网络图形用户界面或通过简单方式(例如 .SFTP)加载(大)文件(例如 CSV)
使用类似 SQL 的工具通过网络图形用户界面处理大数据，以创建中间数据/可视化
能够以 CSV 或其他格式导出数据
与其他数据科学工具集成将大有裨益

谢谢!

最佳答案

Hue 要求您在现有 Hadoop 集群上启用 WebHDFS 以使用文件浏览器。

默认的 Docker 镜像配置为仅访问本地主机上运行的所有服务，但您不应在 Hue 容器中安装 Hadoop。

我个人认为 BigData Europe 容器的可配置性最高。您将需要一个名称节点和数据节点容器。

然后，如果您的 HDFS 正在执行用户帐户检查，您需要在 Hue 中配置一种将通过您的 HDFS 用户名的登录方法。我不相信默认值会这样做。

可以通过为 hue.ini 配置文件使用卷挂载来配置 Hue 容器

关于docker - 使用 Docker 容器设置数据科学前端的简单方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51492529/

docker - 使用 Docker 容器设置数据科学前端的简单方法是什么？

上一篇：hadoop - "insert into"正在覆盖数据

下一篇：hadoop - 如何从中心点终止 apache Impala 2.10 中正在运行的查询