革命 R : filter an xdf using another xdf

标签 r hadoop filtering subset revolution-r

我正在尝试使用 in 过滤一个非常大的 xdf 文件(位于 cloudera 上)以将其与另一个 xdf 文件(位于 cloudera 上)进行比较。

如果我尝试:

rxDataStep(inData = largeXdf,
       outFile = largeXdf,
       overwrite = TRUE,
       transformObjects = 
         list(param1 = parameter),
       rowSelection = (columnNameFromLargeXdf %in% param1$1),
       numRows = -1))

我收到关于 param$1 的错误,指出类 s4 的对象不能被子集化。与在 xdf 中一样,数据对象不能被子集化。有没有办法解决?我宁愿不将 xdf 转换为本地 csv 文件,因为它非常大。

最佳答案

XDF 当然可以子集化,但您不能在 hdfs 上覆盖 XDF。您将需要写入不同的文件。此外,如果您说 parameter 也是一个 XDF,那么您在 rowSelection 中使用它的方式是不正确的。

关于革命 R : filter an xdf using another xdf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30177523/

相关文章:

r - 为什么 min(200, 300) 为 integer64 类返回 300

r - 从两个表的组合中查找最大值(for 循环太慢)

r - R包xtable,如何从R创建具有多个行和列的 latex 表

hadoop - sqoop导出命令,用于在hdfs中具有空格的数据

javascript - 过滤字符串数组

r - 如何在 R 中定义一个简单的数据集

hadoop - 在cloudera Manager中,如何迁移已删除的datanode数据

hadoop - 错误:在表HBase中发现不一致

c++ - 噪声输入信号的平滑一阶导数

javascript - 如何根据另一个数组的匹配键值对返回一个数组?