我正在尝试使用 in
过滤一个非常大的 xdf 文件(位于 cloudera 上)以将其与另一个 xdf 文件(位于 cloudera 上)进行比较。
如果我尝试:
rxDataStep(inData = largeXdf,
outFile = largeXdf,
overwrite = TRUE,
transformObjects =
list(param1 = parameter),
rowSelection = (columnNameFromLargeXdf %in% param1$1),
numRows = -1))
我收到关于 param$1
的错误,指出类 s4 的对象不能被子集化。与在 xdf 中一样,数据对象不能被子集化。有没有办法解决?我宁愿不将 xdf 转换为本地 csv 文件,因为它非常大。
最佳答案
XDF
当然可以子集化,但您不能在 hdfs
上覆盖 XDF
。您将需要写入不同的文件。此外,如果您说 parameter
也是一个 XDF
,那么您在 rowSelection
中使用它的方式是不正确的。
关于革命 R : filter an xdf using another xdf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30177523/