我有一个 R 脚本,可以处理一堆推文,我想对相同的数据使用相同的脚本,但保存在 Hadoop 文件系统中。根据this Hortonworks 教程 我可以将 R 代码与 HDFS 中的数据一起使用,但还不太清楚。
我可以通过使用这个 Revolution R 来使用完全相同的 R 脚本,利用 MapReduce 范例吗?我应该更改代码还是有办法执行针对 Hadoop 架构优化的相同功能? 我的愿望是在 R-Studio 这样的标准 R IDE 上编写代码,然后在我的云服务(例如 Microsoft Azure)上使用它,或者使用其中的大部分代码,并以 mapreduce 为基础。
最佳答案
是的,您可以使用环境特定的计算上下文跨不同的数据平台运行任何 R 脚本,从 Hadoop 到 Spark,再到 Teradata 和 SQL Server。
以下两个链接应该可以帮助您开始了解如何在 Hadoop 上使用 Revolution R/Microsoft R Server:
https://msdn.microsoft.com/en-us/microsoft-r/scaler-hadoop-getting-started
关于在hadoop和mapreduce上运行R脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37531724/