我有一个大数据类测试,我必须对“较小”的数据集进行某种大数据分析。我实际上已经弄清楚了我的东西。我从源代码在我的 Ubuntu 16.04 上以独立模式安装了 Hadoop 2.8.1 和 Spark 2.2.0(我使用 PySpark 构建程序)。其实我很乐意自己去做我的事情。
问题是,我的一些 friend 正在努力配置所有这些,我心想“我为什么不和我的同学一起做一个自己的小集群”。所以我正在寻找建议。
我的笔记本电脑有 12 GB RAM 和 Intel Core i5。
最佳答案
如果我没理解错的话,您的 friend 在独立模式下设置 spark 有困难(意味着根本没有集群,只是本地计算)。我不认为建立一个他们可以使用的集群可以避免他们将面临的复杂性。还是他们试图建立一个集群?因为Spark的standalone模式确实不需要太多的配置。
另一种方法是使用每个人都可以单独使用的预配置虚拟机。要么自己准备,要么有不同提供商的沙箱,例如Cloudera和 Hortonworks .
关于hadoop - 为学习目的构建小型Hadoop集群的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47943316/