r - 亚马逊 EMR : Using R code in Amazon EMR

标签 r amazon-web-services amazon-emr

我有一个非常初学者的问题。我刚刚阅读了一些有关 Amazon EMR 的文档。在我注册之前,我只是想询问一下如何在其中使用 R。

我有一个 R 模块,它调用其他几个模块,然后,在它完成运行之前,将几个变量保存为 .txt 文件。

我的基本问题是,我可以在 Amazon 的 EMR 中执行此操作吗?我能够访问 .txt 输出文件吗?最后,我的 R 脚本从 Excel 电子表格中读取一些数据。如果我将 Excel 文件上传到系统中,还可以从 EMR 执行此操作吗?

谢谢

迈克

最佳答案

@Mike,回答以下 3 个问题

  • 在 EMR 上运行 R: 是的,可以。 在 EMR 实例上安装 R 后,您可以在 EMR 上运行 R 程序。我假设如果您计划使用多实例集群,您会编写 MapReduce moules。如果您的程序只是一个“普通”R 程序,那么您可能只需使用一个相当大的实例。我宁愿使用带有 R AMI 的 EC2 实例(寻找 Louis Aslett)。

  • 移动输出文件: 是的你可以。可以将程序输出从 EMR 传输到您选择的 S3 存储桶。您必须添加一个调用 S3DistCp 命令的步骤来移动文件。我的项目的一个例子 -

    --jar /home/hadoop/lib/emr-s3distcp-1.0.jar --args '--src,hdfs:///contents,--dest,s3://<bucket-name>/'
    
  • 阅读电子表格:据我所知,如果您能够在本地安装的 R 上执行此操作,那么您也应该能够在 EMR 上执行此操作。您必须确保在引导过程中安装了必要的软件包/库。

我能够在 EMR 实例上安装squeezy-cran 和 rmr2 及其所有依赖项(RCpp、reshap2、digest、RJSONIO、功能等)。我仍然无法调用 R 程序作为一个步骤。我必须使用 SSH session 并在 shell 提示符下运行 R CMD 命令。在 Windows 上,putty.exe 对我有用。

关于r - 亚马逊 EMR : Using R code in Amazon EMR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21045414/

相关文章:

hadoop - Elastic Map Reduce JSON导出到DynamoDB错误AttributeValue可能不包含空字符串

scala - 如何优化 Spark 以将大量数据写入 S3

html - knitr html 输出中的字符串太长

PHP - 服务器与 Amazon RDS 的 PDO 连接超时

amazon-web-services - 带有 Kinesis Event Consumer 的 AWS CloudFormation 模板

amazon-web-services - Terraform:如何仅在支持请求的实例类型的区域中请求 AWS EC2 实例?

hadoop - 亚马逊 EMR 排序

r - 在 nlme 或 lme4 中获得固定效应的广义最小二乘均值

R xts : . 索引中的 001 毫秒

r - cbind 工作日匹配的两个数据帧