我有一个装有 Rstudio 的 Ubuntu 桌面,我还有一个在 Centos 下运行的远程 hadoop 集群,我希望从 RStudio 连接到它,据我所知,这是一种可行的方法,但有人可以证实这一点吗?
最佳答案
Rstudio 不允许您连接到 hadoop,但您可以使用 hadoop streaming api 提交您的 hadoop 作业。
有几个包可以帮助您入门。我已经使用 rmr 在带有流式 api 的 hadoop 集群上运行 map/reduce 作业。这些可以在这里找到。
https://github.com/RevolutionAnalytics/RHadoop/wiki
还有 rhipe 包,它允许您在 R 脚本中与 hdfs 文件系统进行通信。
关于RStudio 连接到远程 Hadoop 服务器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23828643/