python - mapReduce 模式的最佳 python 实现是什么?

标签 python mapreduce

MapReduce 的最佳 Python 实现是什么,一个框架或库,可能与 Apache hadoop 一样好,但如果它是用 Python 编写的并且在以下方面最好良好的文档和易于理解,完全实现 MapReduce 模式,高可扩展性,高稳定性和轻量级。

我在 google 上搜索了一个名为 mincemeat 的东西,不确定,但还有其他众所周知的东西吗?

谢谢

最佳答案

如果您搜索它们,这里和那里有一些片段。例如OctopyDisco以及Hadoopy .

但是,我不认为他们中的任何一个在成熟度、稳定性、可扩展性、性能等方面都可以与Hadoop竞争。对于小情况,它们应该足够了,但对于更“光荣”的事情,你必须坚持下去Hadoop。

请记住,您仍然可以使用 python/jython 在 Hadoop 中编写 map/reduce 程序。

编辑:我最近遇到了 mrjob .这看起来很棒,因为它简化了编写 map/reduce 程序然后在 Hadoop 或 Amazon 的 Elastic MapReduce 平台上启动它们的方式。带来好消息的文章是here

关于python - mapReduce 模式的最佳 python 实现是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7266750/

相关文章:

hadoop - JobTracker源代码修改

Hadoop MapReduce 负载均衡

hadoop - map 缩小 : ChainMapper and ChainReducer

python - 字符串切片,搜索一个字符

python - 模拟通过实例使用的类方法

python - 在 pandas 中按行搜索

python - django 将参数从模板传递到 bash 脚本

python - MRJob 的多输入

javascript - 推荐 Riak mapreduce Javascript VM 池大小用于映射和减少阶段? (mapred超时错误)

python - pip 安装失败,显示 "connection error: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:598)"