在hadoop和mapreduce上运行R脚本

标签 r azure hadoop mapreduce revolution-r

我有一个 R 脚本，可以处理一堆推文，我想对相同的数据使用相同的脚本，但保存在 Hadoop 文件系统中。根据this Hortonworks 教程我可以将 R 代码与 HDFS 中的数据一起使用，但还不太清楚。

我可以通过使用这个 Revolution R 来使用完全相同的 R 脚本，利用 MapReduce 范例吗？我应该更改代码还是有办法执行针对 Hadoop 架构优化的相同功能？我的愿望是在 R-Studio 这样的标准 R IDE 上编写代码，然后在我的云服务(例如 Microsoft Azure)上使用它，或者使用其中的大部分代码，并以 mapreduce 为基础。

最佳答案

是的，您可以使用环境特定的计算上下文跨不同的数据平台运行任何 R 脚本，从 Hadoop 到 Spark，再到 Teradata 和 SQL Server。

以下两个链接应该可以帮助您开始了解如何在 Hadoop 上使用 Revolution R/Microsoft R Server:

https://msdn.microsoft.com/en-us/microsoft-r/scaler-hadoop-getting-started

https://github.com/Azure/Azure-MachineLearning-DataScience/blob/master/Misc/MicrosoftR/Samples/NYCTaxi/NYC2013_MRS_LinearBinary.Rmd

关于在hadoop和mapreduce上运行R脚本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37531724/

上一篇：java - hadoop、 Jersey 和 JBoss : application won't start

下一篇：hadoop - 如何在 spark sql 的配置单元上下文对象中查找登录/连接/当前用户？

相关文章：

r - 使用自定义中断来剪切日期向量

azure - 在 Azure CosmosDB 中拥有读/写区域

hadoop:lzo 压缩的自动可分割输出

java - 使用 MapReduce 查找数字的平均值

performance - Hadoop MapReduce 吞吐量问题

r - 如何重新排序搜索路径？

r - 如何使用 OpenMP 编译在 OS X 中使 R 包 xgboost 并行？

sql - T-SQL 使用来自字段表中字符串的整个 WHERE 条件