python - Google App Engine 上的 Mapreduce

标签 python google-app-engine mapreduce

我对 GAE 中 MapReduce 支持的状态和文档感到非常困惑。

在官方文档中https://developers.google.com/appengine/docs/python/dataprocessing/ ,有一个例子,但是:

  • 应用程序使用mapreduce.input_readers.BlobstoreZipInputReader,我想使用ma​​preduce.input_readers.DatastoreInputReader。文档提到了DatastoreInputReader的参数,但没有提到发送回 map 功能的返回值......
  • 应用程序“演示”(Helloworld 页面)有一个 ma​​preduce.yaml 文件,该文件未在应用程序中使用???

所以我找到了http://code.google.com/p/appengine-mapreduce/ 。这是一个带有 ma​​preduce.input_readers.DatastoreInputReader 的完整示例,但据说还不支持归约阶段!

所以我想知道是否可以使用 DatastoreInputReader 实现第一种形式的 MapReduce,以执行真正的 Map/Reduce 以获得 GROUP BY 等效项?

最佳答案

第二个示例来自早期版本,它确实只支持映射器阶段。然而,正如第一个示例所示,现在支持完整的映射/归约功能并且已经支持了一段时间。 mapreduce.yaml来自早期版本,现在不再使用。

我不确定您的实际问题是什么。毫不奇怪,从 DatastoreInputReader 发送到映射函数的值是从被映射的类型中获取的单个实体。

关于python - Google App Engine 上的 Mapreduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19162733/

相关文章:

python - Hadoop 集群 - 在运行作业之前,我是否需要在所有机器上复制我的代码?

python - 如何使项目在 Python Spyder Project Explorer 中显示

python - 如何防止FUNCTYPE被收集

python获取并处理csv中某些字符之间的值

python - 无法针对谷歌云sql运行manage.py

hadoop - 如何使 Hadoop MR 只读文件而不是输入路径中的文件夹

python - 返回全部一起而不是 1×1

python - 2个对象可以有相同的键名吗?

Django 模板 : How to show the time differences between a Datastore time and current time?