hadoop - 为学习目的构建小型Hadoop集群的建议

标签 hadoop apache-spark cluster-computing distributed-computing

我有一个大数据类测试,我必须对“较小”的数据集进行某种大数据分析。我实际上已经弄清楚了我的东西。我从源代码在我的 Ubuntu 16.04 上以独立模式安装了 Hadoop 2.8.1 和 Spark 2.2.0(我使用 PySpark 构建程序)。其实我很乐意自己去做我的事情。

问题是,我的一些 friend 正在努力配置所有这些,我心想“我为什么不和我的同学一起做一个自己的小集群”。所以我正在寻找建议。

我的笔记本电脑有 12 GB RAM 和 Intel Core i5。

最佳答案

如果我没理解错的话,您的 friend 在独立模式下设置 spark 有困难(意味着根本没有集群,只是本地计算)。我不认为建立一个他们可以使用的集群可以避免他们将面临的复杂性。还是他们试图建立一个集群?因为Spark的standalone模式确实不需要太多的配置。

另一种方法是使用每个人都可以单独使用的预配置虚拟机。要么自己准备,要么有不同提供商的沙箱,例如ClouderaHortonworks .

关于hadoop - 为学习目的构建小型Hadoop集群的建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47943316/

相关文章:

json - 带有 JSON 文件和 JSONParser 的 MapReduce 函数

java - 添加 hapi 3rd-party lib (jars) 到 map-reduce

python - 在 DataBrick 平台中为 PySpark API 安装 IsolationForest 的最佳做法是什么?

scala - 使用 SQLContext 隐式在 Spark 中进行单元测试

hadoop - 在 yarn 集群上设置 spark 时需要哪些守护进程?

postgresql - Sqoop-将Hive列数据类型更改为Postgres数据类型

hadoop - DB2数据导入hadoop

scala - 通过 Spark 读取时忽略损坏的 Orc 文件

apache-spark - Spark 在使用 Docker Mesos 集群进行身份验证时挂起

linux - 生产中使用的是单cloudera单用户模式吗?