scala - 如何在我的 Spark 应用程序中使用 OpenHashSet?

标签 scala hadoop hashmap apache-spark hashset

根据 private[spark],我知道 OpenHashSet 在 spark 中是私有(private)的,但是当数据非常大时,通常我们需要更快的 HashMap 或 HashSet 实现。我如何在自己的代码中使用这些数据结构?或者是还有其他选择吗?谢谢!

最佳答案

好吧,它是开源的,因此您可以 fork /复制它,重命名包以避免冲突,并删除 private[spark] 限制。但是,当然这取决于 Paul 提到的您的具体用例。

参见 this question法律问题。

关于scala - 如何在我的 Spark 应用程序中使用 OpenHashSet?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27934872/

相关文章:

hadoop - 为 map-only 作业运行 Hadoop Map Reduce 时出错

java - 为什么 Groovy 的 Map 比 Array 的伸缩性更好?

java - HashMap 或 TreeMap for Map specifically sized 1

scala - Scala 中的 Future 和无限循环

scala - 如何对我的解释器中使用的类型进行隐式转换

scala - 与try..catch相比,scala.util.Try有什么优势?

java - 覆盖 Scala 中的 equals 方法

hadoop - 在 Hadoop 中为中间键使用集合/列表数据类型

performance - Hadoop是否由于节点过多而出现性能问题?

java - HashMap 如何保存和查找键