您好,我想知道是否有人对设置我的集群有一些建议。主要是为了自己的学习目的。我正在抓取新闻文章,想尝试一些机器学习的东西来进行聚类等。我的数据大约是 1-10 GB。
在我的支配下,我得到了
- 配备 SSD/8GB 内存/i5(2 核)的 Macbook pro 配备 SSD/8GB 内存/i5(2 核)的 Macbook pro
- 配备 ubuntu 的台式电脑 1.5 TB 硬盘空间/8GB 内存/i5(4 核)
我现在的想法是使用我的 macbook 作为主节点,并在我的台式机上通过 vm 设置 2-4 个从节点。也许我可以获得 8-16 GB 的额外内存。
我不太关心性能。
或者我应该放弃我的想法并选择 Amazon EC2 路线?
提前致谢
最佳答案
如果您的数据小于 10 GB 并且性能不是问题,那么您的配置应该足以运行 Map Reduce/或许多机器学习程序。我在家里的笔记本电脑上设置了一个 2 节点集群,这些笔记本电脑与您的配置不匹配(更少的内存和相同的内核),我可以以相当快的速度运行复杂的 hadoop 作业。您可以继续这样做,而不是在 Amazon EC2 上浪费一些钱。
关于macos - 在家搭建 Hadoop 集群(2PC),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25261330/