r - Ubuntu集群管理

标签 r ubuntu hadoop cluster-computing

我正在尝试找出一个解决方案来管理一组 linux 机器(操作系统:Ubuntu，~40 个节点。相同的硬件)。这些机器应该是彼此的镜像，安装在一台机器上的软件需要安装在另一台机器上。我的软件需求是 hadoop、R 和 servicemix。所有机器上的R包也需要同步(安装在一台机器上的包需要在所有其他机器上可用)

我现在使用的一种解决方案是使用 NFS 和 pssh。我希望有更好/更简单的解决方案，这会让我的生活更轻松一些。任何建议表示赞赏。

最佳答案

两个流行的选择是 Puppet来自 Puppet Labs 和 Chef来自 OpsCode。

另一种可能的机制是创建一个新的元数据包，该元数据包需要:您希望在所有机器上安装的包。当您修改您的元包时，apt-get update && apt-get -u dist-upgrade 会同时在您的所有系统上安装新包。

元包方法最初的配置和使用工作可能较少，但从长远来看，Puppet 或 Chef 可能会提供更好的投资返回，因为它们可以管理的不仅仅是包安装。

关于r - Ubuntu集群管理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5548224/

上一篇：logging - Hadoop MapReduce 中间输出

下一篇：hadoop - 错误 : org. apache.hadoop.hbase.MasterNotRunningException: null+hbase+hadoop

相关文章：

r - 绘制来自 svm 拟合的数据 - 超平面

r - 如何让 R 在编辑后自动加载我的 .r 文件？

hadoop - nutch 1.10输入路径不存在/linkdb/current

hadoop - 如何使用PIG在HDFS中存储Avro格式？

r - 如何用 2 列制作 R 图例？

r - 使用 dplyr 在数据帧的多列中计算 "Yes"

java - CData JDBC 驱动程序 | java.lang.Exception : Could not find web browser

ubuntu - 如何访问新的 neo4j ubuntu/ec2 安装？

hadoop - 为什么在加入和设置别名后收到ACCESSING_NON_EXISTENT_FIELD警告？