据我了解,这两个软件包为Apache Spark提供了相似但几乎不同的包装器功能。 Sparklyr较新,并且在功能范围上仍需要增长。因此,我认为当前需要使用这两个软件包来获得全部功能。
我猜想,由于这两个软件包本质上都包装了对Scala类的Java实例的引用,因此应该可以并行使用这些软件包。但是实际上有可能吗?您的最佳做法是什么?
最佳答案
这两个软件包使用不同的机制,并且不是为互操作性而设计的。它们的内部设计采用不同的方式,并且不会以相同的方式公开JVM后端。
尽管可以想到一些解决方案,该解决方案允许与持久性元存储进行部分数据共享(想到使用全局临时 View ),但它的应用程序相当有限。
如果两者都需要,我建议您使用持久性存储将管道分成多个步骤,并在这些步骤之间传递数据。
关于r - 同时使用SparkR和Sparklyr,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40577650/