根据 private[spark],我知道 OpenHashSet 在 spark 中是私有(private)的,但是当数据非常大时,通常我们需要更快的 HashMap 或 HashSet 实现。我如何在自己的代码中使用这些数据结构?或者是还有其他选择吗?谢谢!
最佳答案
好吧,它是开源的,因此您可以 fork /复制它,重命名包以避免冲突,并删除 private[spark]
限制。但是,当然这取决于 Paul 提到的您的具体用例。
参见 this question法律问题。
关于scala - 如何在我的 Spark 应用程序中使用 OpenHashSet?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27934872/