我参加了一个将使用 Cloudera CDH 和 Hadoop 等的类(class)。
类(class)的当前设置涉及使用带有 VirtualBox 的虚拟机。
我只是想知道是否有更快、更有效的程序实现可供我使用。该程序可以以某种方式安装在我的本地环境中吗?
(我使用的是带有 OS High Sierra 的 2017 Macbook Pro)
最佳答案
您可以在您的 Mac Os 中以所谓的伪分布式模式安装 Hadoop、Spark、Hive、Pig。它是本地机器上的一个安装,其中“集群”的每个节点都是一个 Java 虚拟机。 起点是 Hadoop 安装,您可以按照本教程进行操作:
https://www.quickprogrammingtips.com/big-data/how-to-install-hadoop-on-mac-os-x-el-capitan.html
有很多关于在 mac OS 中安装 Hadoop 生态系统其他部分的教程,至少对于 El Capitan。 (我在 High Sierra 上关注他们时没有遇到任何问题)。
您在 Cloudera、MapR 或其他沙箱中的 Hadoop 体验完全不同。非常光滑。您运行 Hue 并从那里开始编码:您已经为您设置了 Impala(Mac OS 尚不可用)、Hive、Sqoop、Pig 编辑器和许多其他在 HDFS 上运行的服务。一切都准备好被利用。您只需在 VM 中打开 Firefox 浏览器,从 Cloudera 管理器启动所有服务,即可开始分析数据。在学习方面,我想这是你现阶段可能关心的,这是最高效的方式。
安装 Cloudera 快速入门的一种更有效的方法是使用 Docker。首先下载 Mac 社区版:
https://store.docker.com/editions/community/docker-ce-desktop-mac
然后从终端类型:
docker pull cloudera/quickstart
并在以下位置进行安装:
https://store.docker.com/community/images/cloudera/quickstart
你会发现它比虚拟机运行效率更高,也更稳定。
云服务带来计算意义上的效率。您可以使用 AWS、Azure、GCP 或其他云提供商,并在第二阶段体验 Hadoop 的真正威力。有许多免费试用云服务的优惠,但它们在时间或您可以花费的免费积分(以美元计)方面受到限制。所以我建议在获得最重要的技能之后再去那里。
关于macos - Cloudera CDH Mac,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48266478/