在hadoop和mapreduce上运行R脚本

标签 r azure hadoop mapreduce revolution-r

我有一个 R 脚本,可以处理一堆推文,我想对相同的数据使用相同的脚本,但保存在 Hadoop 文件系统中。根据this Hortonworks 教程 我可以将 R 代码与 HDFS 中的数据一起使用,但还不太清楚。

我可以通过使用这个 Revolution R 来使用完全相同的 R 脚本,利用 MapReduce 范例吗?我应该更改代码还是有办法执行针对 Hadoop 架构优化的相同功能? 我的愿望是在 R-Studio 这样的标准 R IDE 上编写代码,然后在我的云服务(例如 Microsoft Azure)上使用它,或者使用其中的大部分代码,并以 mapreduce 为基础。

最佳答案

是的,您可以使用环境特定的计算上下文跨不同的数据平台运行任何 R 脚本,从 Hadoop 到 Spark,再到 Teradata 和 SQL Server。

以下两个链接应该可以帮助您开始了解如何在 Hadoop 上使用 Revolution R/Microsoft R Server:

https://msdn.microsoft.com/en-us/microsoft-r/scaler-hadoop-getting-started

https://github.com/Azure/Azure-MachineLearning-DataScience/blob/master/Misc/MicrosoftR/Samples/NYCTaxi/NYC2013_MRS_LinearBinary.Rmd

关于在hadoop和mapreduce上运行R脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37531724/

相关文章:

r - 使用自定义中断来剪切日期向量

azure - 在 Azure CosmosDB 中拥有读/写区域

hadoop:lzo 压缩的自动可分割输出

java - 使用 MapReduce 查找数字的平均值

performance - Hadoop MapReduce 吞吐量问题

r - 如何重新排序搜索路径?

r - 如何使用 OpenMP 编译在 OS X 中使 R 包 xgboost 并行?

r - 名称相关矩阵

c# - .Net 可移植类库和 Microsoft.WindowsAzure.Mobile.Service.EntityData

sql - T-SQL 使用来自字段表中字符串的整个 WHERE 条件