python - Apache Pig - Jython UDF 内存错误

标签 python hadoop apache-pig jython

我正在使用 Jython 在 pig 中编写我的 Python UDF，但是当我的 UDF 的输入很大时(即超过分配给我的 JVM 的内存)，我遇到了内存问题。在 Pig 文档中，诸如 COUNT、MAX 等函数通过使用 Algebraic 和更重要的 Accumulator 接口(interface)来克服这个问题。 Accumulator 接口(interface)允许将来自 Pig 的数据以 block 的形式发送到 UDF，这很适合我的问题。有没有人有用 Jython 做这件事的例子？ (或将输入流式传输到 Python 的任何想法)任何帮助将不胜感激! :)

最佳答案

Python UDF 不支持此类优化接口(interface): http://pig.apache.org/docs/r0.11.1/udf.html#udfs

关于python - Apache Pig - Jython UDF 内存错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20197963/

上一篇：java - 在 MultipleOutputs 中 - 避免将我的 key 写入文件

下一篇：apache - 升级\将 Apache Hadoop 1.x 迁移到 Apache Hadoop 2.x

相关文章：

python - Heroku 与 Django 的使用

python - 如何让 tornado TCPClient 使用代理(http 或 socks)？

python - 如何在 python 中一次将多个文件从本地服务器移动到 HDFS？

hadoop - Apache Pig GROUP BY，ORDER BY

hadoop - PIG - 加载错误继续

python - 写入列中包含多个列表项的 csv 行

Python cElementTree 使用 2GB RAM 迭代解析大文件

xml - 如何在hadoop中重写coordinator.xml？

hadoop - pig 不能使用的场景

hadoop - 尝试以AVRO格式存储时，PIG脚本错误:基准2不在联合中[“null” ,“string”]