RStudio 连接到远程 Hadoop 服务器

标签 r hadoop rstudio

我有一个装有 Rstudio 的 Ubuntu 桌面,我还有一个在 Centos 下运行的远程 hadoop 集群,我希望从 RStudio 连接到它,据我所知,这是一种可行的方法,但有人可以证实这一点吗?

最佳答案

Rstudio 不允许您连接到 hadoop,但您可以使用 hadoop streaming api 提交您的 hadoop 作业。

有几个包可以帮助您入门。我已经使用 rmr 在带有流式 api 的 hadoop 集群上运行 map/reduce 作业。这些可以在这里找到。

https://github.com/RevolutionAnalytics/RHadoop/wiki

还有 rhipe 包,它允许您在 R 脚本中与 hdfs 文件系统进行通信。

http://www.datadr.org/doc/functions.html

关于RStudio 连接到远程 Hadoop 服务器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23828643/

相关文章:

r - 无法在 R 3.4.1 redhat linux 上安装软件包

r - R plot.default 中的 x Axis 太短

hadoop - Apache Kafka和Apache Hadoop是否应该共享同一个ZooKeeper实例?

RStudio 0.97.551 在控制台中显示无法识别的字符

r - Java Script 警报 R 遇到 fatal error 。此 session 已终止

r - R TinyTeX 安装会干扰我电脑上的其他 LaTeX 安装吗

r - lme4 glmer 中的缩放预测变量不会解决特征值警告;替代优化也没有

java - 在 Linux 中刚性设置 JAVA_HOME 变量

java - Hadoop 中的简单程序得到 ClassNotFoundException

Rstudio启动错误:rstudio_boost:::filesystem::read_symlink