我正在使用 Jython 在 pig 中编写我的 Python UDF,但是当我的 UDF 的输入很大时(即超过分配给我的 JVM 的内存),我遇到了内存问题。在 Pig 文档中,诸如 COUNT、MAX 等函数通过使用 Algebraic 和更重要的 Accumulator 接口(interface)来克服这个问题。 Accumulator 接口(interface)允许将来自 Pig 的数据以 block 的形式发送到 UDF,这很适合我的问题。有没有人有用 Jython 做这件事的例子? (或将输入流式传输到 Python 的任何想法)任何帮助将不胜感激! :)
最佳答案
Python UDF 不支持此类优化接口(interface): http://pig.apache.org/docs/r0.11.1/udf.html#udfs
关于python - Apache Pig - Jython UDF 内存错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20197963/