r - 是否可以将 Spark 中的 data.table 与 Spark Dataframes 一起使用?

标签 r apache-spark data.table cluster-computing sparkr

情况

我曾经使用 data.table 而不是 plyr 或 sqldf 在 Rstudio 上工作,因为它非常快。现在,我正在一个 azure 集群上研究 sparkR,如果我可以在我的 spark 数据帧上使用 data.table 并且它是否比 sql 快,我想现在这样做?

最佳答案

这不可能。 SparkDataFrames是具有瘦 R 接口(interface)的 Java 对象。虽然在某些有限的情况下(dapplygapply)可以使用工作端 R,但 data.table 没有用处。那里。

关于r - 是否可以将 Spark 中的 data.table 与 Spark Dataframes 一起使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47202017/

相关文章:

r - 以 R 格式导出 JSON 数据框

json - 从Spark Scala中的序列文件中提取JSON记录

python - 将 Pandas 数据框转换为 PySpark 数据框会降低索引

python - Spark 流 : read CSV string from kafka, 写入 Parquet

r - 单列中的模糊匹配字符串并记录可能的匹配

r - 您如何管理在 R 中生成大数据表? (不在大 table 上阅读)

r - 使用geom_line连接缺失值

r - 如何自定义 ggplotly 对象中的悬停信息?

r - 来自多个来源的集成 R/markdown/pandoc 引用书目?

滚动 join + sum 而不会炸毁内存