r - 同时使用SparkR和Sparklyr

标签 r apache-spark sparkr sparklyr

据我了解,这两个软件包为Apache Spark提供了相似但几乎不同的包装器功能。 Sparklyr较新,并且在功能范围上仍需要增长。因此,我认为当前需要使用这两个软件包来获得全部功能。

我猜想,由于这两个软件包本质上都包装了对Scala类的Java实例的引用,因此应该可以并行使用这些软件包。但是实际上有可能吗?您的最佳做法是什么?

最佳答案

这两个软件包使用不同的机制,并且不是为互操作性而设计的。它们的内部设计采用不同的方式,并且不会以相同的方式公开JVM后端。

尽管可以想到一些解决方案,该解决方案允许与持久性元存储进行部分数据共享(想到使用全局临时 View ),但它的应用程序相当有限。

如果两者都需要,我建议您使用持久性存储将管道分成多个步骤,并在这些步骤之间传递数据。

关于r - 同时使用SparkR和Sparklyr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40577650/

相关文章:

scala - 比较Spark中 map 记录中的当前值和所有下一个值

apache-spark - Hadoop在Spark中的等效配置

apache-spark - 您可以使用 SparkR 进行广播连接吗?

r - 为什么在 SparkR 中收集这么慢?

r - 使 rbind 循环更快

r - RStudio 中的 Knitr HTML 预览失败,尽管 render() 成功创建了 HTML 文件

scala - 如何对 Scala/Spark 数据框中的每一行使用 withColumn with condition

r - SparkR的安装

xml - 使用 xml2 包读取大 XML 文件并尝试创建工作闭包时出现问题

r - 有没有办法从 R 中的字符串间隔值中获取最小值或最大值?