我们正在启动一个基于大数据的分析项目,我们正在考虑采用 scala(类型安全堆栈)。我想知道可用于执行 hadoop、map reduce 程序的各种 scala API/项目。
最佳答案
一定要检查Scalding .作为用户和偶尔的贡献者,我发现它是一个非常有用的工具。 Scalding API 也意味着与标准 Scala 集合 API 非常兼容。就像你可以在普通集合上调用 flatMap、map 或 groupBy 一样,你也可以在 scalding Pipes 上做同样的事情,你可以把它想象成一个分布式元组列表。还有一个类型化的 API 版本,它提供更强的类型安全保证。我没有使用过 Scoobi,但 API 似乎与他们提供的类似。
此外,还有其他一些好处:
- Scalding 在 Twitter 的生产中大量使用,并且已经在 Twitter 规模的数据集上经过实战测试。
- 它在 Twitter 内外都有几位活跃的贡献者,他们致力于让它变得更好。
- 它可以与您现有的级联作业互操作。
- 除了 Typed API 之外,它还有一个 Fields API,R 和数据框架框架的用户可能更熟悉它。
- 它提供了一个强大的Matrix Library .
关于scala - scala 上的 hadoop 有哪些选项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14596500/