python - Apache Pig - Jython UDF 内存错误

标签 python hadoop apache-pig jython

我正在使用 Jython 在 pig 中编写我的 Python UDF,但是当我的 UDF 的输入很大时(即超过分配给我的 JVM 的内存),我遇到了内存问题。在 Pig 文档中,诸如 COUNT、MAX 等函数通过使用 Algebraic 和更重要的 Accumulator 接口(interface)来克服这个问题。 Accumulator 接口(interface)允许将来自 Pig 的数据以 block 的形式发送到 UDF,这很适合我的问题。有没有人有用 Jython 做这件事的例子? (或将输入流式传输到 Python 的任何想法)任何帮助将不胜感激! :)

最佳答案

Python UDF 不支持此类优化接口(interface): http://pig.apache.org/docs/r0.11.1/udf.html#udfs

关于python - Apache Pig - Jython UDF 内存错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20197963/

相关文章:

python - Heroku 与 Django 的使用

python - 如何让 tornado TCPClient 使用代理(http 或 socks)?

python - 如何在 python 中一次将多个文件从本地服务器移动到 HDFS?

hadoop - Apache Pig GROUP BY,ORDER BY

hadoop - PIG - 加载错误继续

python - 写入列中包含多个列表项的 csv 行

Python cElementTree 使用 2GB RAM 迭代解析大文件

xml - 如何在hadoop中重写coordinator.xml?

hadoop - pig 不能使用的场景

hadoop - 尝试以AVRO格式存储时,PIG脚本错误:基准2不在联合中[“null” ,“string”]